Big Data Veille

Le framework Apache Hadoop. Contexte Dans le monde du web actuellement, les applications et sites internet gÃ©nÃ¨rent un volume de donnÃ©es de plus en plus important.

Deux cas concrets d'application du Big Data. Aujourd’hui, nous évoquons deux cas concrets d’application des Big Data sur le terrain avec Frédéric Dulac, Directeur de Business & Decision Eolas, que j’ai eu l’occasion d’interviewer à l’issue de la conférence Time2marketing du 18 juin 2014 à Paris.

Le premier de ces exemples consiste à associer du temps réel et de la recommandation dans un site de e-commerce afin de mieux conseiller l’internaute dans son parcours d’achat. Le second cas est celui d’un projet élaboré pour une grande chaîne de magasins souhaitant augmenter sa connaissance client : une partie des données vient des informations collectées en magasin, et une autre de son site de e-commerce. Le but est d’associer ces informations pour mieux comprendre les besoins et les comportements des clients. YG : Derrière ces projets de nature différente il y a des technologies diverses ? FD : Tout à fait. Parmi les logiciels faisant partie de cet attirail technologique, quel est le rôle de Map Reduce ? La Data Non Structurée. Introduction à Apache Hadoop : généralités sur HDFS et MapReduce.

Nous sommes actuellement dans l'ère de la production massive de données (BigData) dont une définition implique trois dimensions (3Vs) : Volume, Variété et Vélocité (fréquence).

Introduction à Apache Hadoop : généralités sur HDFS et MapReduce

Les sources de données sont nombreuses. D'une part les applications génèrent des données issues des logs, des réseaux de capteurs, des rapports de transactions, des traces de GPS, etc. et d'autre part, les individus produisent des données telles que des photographies, des vidéos, des musiques ou encore des données sur l'état de santé (rythme cardiaque, pression ou poids). Un problème se pose alors quant au stockage et à l'analyse des données.

La capacité de stockage des disques durs augmente mais le temps de lecture croît également. Il devient alors nécessaire de paralléliser les traitements en stockant sur plusieurs unités de disques durs. Apache Hadoop (High-availability distributed object-oriented platform) est un système distribué qui répond à ces problématiques. Introduction à Apache Hadoop : installation et configuration d'un cluster simple noeud avec Cloudera CDH 5. Pour télécharger Hadoop deux solutions sont disponibles.

Introduction à Apache Hadoop : installation et configuration d'un cluster simple noeud avec Cloudera CDH 5

La première solution est d'utiliser la version proposée par la fondation Apache. Cette version est celle de référence et contient le noyau et quelques interfaces d'aministration très simplifiée. La seconde solution est d'utiliser les distributions fournies par des entreprises qui font du service autour d'Hadoop.

Comme il y a une valeur ajoutée non négligeable, ces distributions fournissent des services payants. Sans être exhaustif, voici trois sociétés qui font de Hadoop leur spécialité. Dans le cadre de cet article, j'utiliserai la distribution de la compagnie Cloudera. Par ailleurs, si l'on consulte le site de la fondation Apache, on se retrouve avec quatre versions majeures Hadoop. Dans le cas de Cloudera, l'alignement des versions avec celle d'Hadoop n'est pas identique. Dans cette section, nous expliquerons l'installation, la configuration et l'exécution d'un cluster simple nœud pour une distribution Linux.

II-A. II-A-1. ... IBM - Plateforme Big Data IBM pour l'entreprise : amener le Big Data à l'entreprise - Franch. Big data. Un article de Wikipédia, l'encyclopédie libre.

Une visualisation des données créée par IBM[1] montre que les big data que Wikipedia modifie à l'aide du robot Pearle ont plus de signification lorsqu'elles sont mises en valeur par des couleurs et des localisations[2]. Croissance et Numérisation de la Capacité de Stockage Mondiale de L'information[3]. Dans ces nouveaux ordres de grandeur, la capture, le stockage, la recherche, le partage, l'analyse et la visualisation des données doivent être redéfinis.

Certains supposent qu'ils pourraient aider les entreprises à réduire les risques et faciliter la prise de décision, ou créer la différence grâce à l'analyse prédictive et une « expérience client » plus personnalisée et contextualisée. Qu'est-ce que le Big Data ? Pour répondre aux nouveaux enjeux de traitement de très hautes volumétries de données, les entreprises peuvent faire appel à des solutions spécialisées dans le Big Data.

JDN Solutions fait le point. Que recouvre la notion de Big Data ? Le Big Data fait référence à l'explosion du volume des données dans l'entreprise et des nouveaux moyens technologiques proposés par les éditeurs, en particulier de la Business Intelligence, pour y répondre. Le terme même de Big Data a été évoqué la première fois par le cabinet d'études Gartner en 2008 mais des traces de la genèse de ce terme remontent à 2001 et ont été évoquées par le cabinet Meta Group racheté en 2005 par...le Gartner. A quels enjeux répondent les solutions de Big Data ? Les fournisseurs de solutions ont commencé à élaborer leurs offres à la fin des années 2000 et le mouvement s'est accéléré ces derniers temps avec l'arrivée sur ce créneau d'acteurs historiques comme Oracle, IBM et tout récemment Microsoft. Big Data : définition, enjeux et études de cas l Data-Business.fr.

La Vénérable grille de lecture établie en 2001 par Doug Laney du cabinet Gartner – les fameux 3V du Big Data – fait encore référence. Les 3V, ce sont le Volume (des échanges de plus en plus massifs), la Variété (plus de types de contenus) et la Vélocité (la collecte et le traitement en temps-réel). Depuis, d’autres ont essayé d’approfondir le sujet, en incluant des éléments comme la Validité, la Véracité, la Valeur ou la Visibilité des data. Le Big Data, c’est d’abord l’explosion du VOLUME de données, qui met à l’épreuve les infrastructures de stockage classiques des des entreprises D’après le magazine Fortune: Des dinosaures jusqu’en 2003 nous avions créé, en tout, 5 exabytes de données (5 Mds de GB). En 2011, nous générions 5 exabytes en 2 jours seulement.En 2013, on estime qu’il nous faudra moins de 10mn pour produire 5 exabytes.