background preloader

Hadoop

Facebook Twitter

Choisir Hadoop : 7 critères indispensables pour identifier les besoins de l’entreprise. Hadoop est un ensemble de briques logicielles qui s’assemblent comme des puzzles LEGO pour résoudre un problème métier.

Choisir Hadoop : 7 critères indispensables pour identifier les besoins de l’entreprise

Ainsi, la première chose lorsque vous voulez choisir une distribution, est – justement - de ne pas choisir de distribution. La première des choses est d’écrire la problématique métier que vous souhaitez résoudre avec Hadoop et cherchez les outils (Open source dans un premier temps) qui permettent de résoudre cette problématique. Ce n’est qu’à ce stade que vous aurez le choix entre adopter ces outils purement Open Source tels qu’ils sont dans la fondation Apache, ou alors vous orienter vers les éditeurs de distributions.

Si vous choisissez la deuxième option, c’est-à-dire les distributions des éditeurs, alors nous vous proposons une liste de 7 critères avec laquelle vous pouvez vous rapprocher sereinement des différents éditeurs. Hadoop en Action : les outils utilisés dans un POC Big Data. On trouve énormément d’articles sur le Big Data mais il est parfois frustrant de n’aborder que les concepts.

Hadoop en Action : les outils utilisés dans un POC Big Data

Certaines personnes, comme moi, ont besoin de visualiser les outils pour appréhender de nouvelles technologies. A cette fin, j’ai compilé 3 courtes vidéos sur Hadoop pour démystifier la chose. Apache Hadoop Les exemples sont tirés d’un POC (Proof of Concept, un prototype) réalisé pour l’un de nos clients qui gère une flotte de véhicules. Les vidéos se concentrent sur les outils et n’abordent pas les cas métiers. Bon visionnage Ambari, l’outil d’administration de la distribution Hortonworks Le paramétrage d’une plateforme Hadoop peut vite devenir laborieux avec l’augmentation du nombre de serveurs dans le cluster Hadoop. Commençons par un zoom sur Ambari, l’outil d’administration Hortonworks : Votre premier projet Hadoop. Avec les approches BigData, et plus précisément grâce à une plateforme Hadoop, vous allez enfin avoir la possibilité d’extraire l’information de ces dizaines de téra-octets que vous stockez dans votre infocentre.

Votre premier projet Hadoop

Et mieux : commencer à vous intéresser à des données moins structurées, qu’elles soient internes (des weblogs par exemple), ou externes (réseaux sociaux, partenaires), pour en apprendre encore plus sur votre business. Les technologies comme Hadoop sont un vrai changement de paradigme par rapport à ce que nous avons traditionnellement dans nos SI. Un projet Hadoop s’inscrit clairement dans une démarche d’innovation : il y a une courbe d’apprentissage, et cela nécessite une conduite projet spécifique. Du cadrage à l’organisation projet, en passant par le tuning : c’est ce que nous allons voir dans cet article. Introduction à Apache Hadoop : généralités sur HDFS et MapReduce. Nous sommes actuellement dans l'ère de la production massive de données (BigData) dont une définition implique trois dimensions (3Vs) : Volume, Variété et Vélocité (fréquence).

Introduction à Apache Hadoop : généralités sur HDFS et MapReduce

Les sources de données sont nombreuses. D'une part les applications génèrent des données issues des logs, des réseaux de capteurs, des rapports de transactions, des traces de GPS, etc. et d'autre part, les individus produisent des données telles que des photographies, des vidéos, des musiques ou encore des données sur l'état de santé (rythme cardiaque, pression ou poids). Un problème se pose alors quant au stockage et à l'analyse des données. La capacité de stockage des disques durs augmente mais le temps de lecture croît également. Il devient alors nécessaire de paralléliser les traitements en stockant sur plusieurs unités de disques durs. Apache Hadoop (High-availability distributed object-oriented platform) est un système distribué qui répond à ces problématiques. III-A. Comment Natixis booste les performances de ses clusters Hadoop. L'heure est à l'industrialisation du Big Data chez Natixis.

Comment Natixis booste les performances de ses clusters Hadoop

Après un premier cas d'utilisation déployé en 2014 sur l'analyse des transactions réalisées via les cartes bancaires et ainsi le calcul des zones de chalandises pour les commerçants, la banque s'est doté d'une communauté interne Big Data afin d'élargir les usages de l'algorithmique et du Big Data dans ses différents métiers. Animateur de cette communauté, Pierre-Alexandre Pautrat est responsable de la Global Market de Natixis Asset Management, la Banque de financement filiale de BPCE. Avant même de basculer dans l'ère du Big Data, Natixis avait déjà d'importants besoins de calcul avec une ferme de calcul qui comptait déjà 33 000 cœurs. « Nous calculons beaucoup de données que nous envoyons au risque puis nous devons les retraiter. Le but du Big Data est aussi de rapprocher les traitements de cette masse de données et d’arrêter de devoir transférer pendant la nuit ou la journée de grands lots de données ».

Hadoop pour les DBAs : Construire un cluster Hadoop. After “Building Hadoop for Oracle Linux 7 (2/13)”, it is somehow expected to deploy Hadoop on Oracle Linux 7.

Hadoop pour les DBAs : Construire un cluster Hadoop

This third article of the series shows how to create a 3-node Hadoop cluster. Once the cluster up and running, it digs into the processes, logs and consoles. The last step of it is to execute a MapReduce sample job. The setup is very basic. Once the 3 servers installed, it should not take more than a few minutes to deploy, configure and start Hadoop. You’ll find a schema of the final configuration below. To speed up the configuration, it does not integrate with any Kerberos domain controller. System and network infrastructure requires a few configuration steps before you proceed with Hadoop: Install the 3 servers with Oracle Linux 7. Sections below provide some details about these configurations. Yellow, pink and green. Hadoop pour les DBAs : Compiler Hadoop pour Oracle Linux 7.

Hadoop pour les DBAs : Big Data et ruptures technologiques.