background preloader

Ce que Hadoop ?

Ce que Hadoop ?
Data warehouse, stockage et traitement distribués Définition Hadoop Hadoop est un projet Open Source géré par Apache Software Fundation basé sur le principe Map Reduce et de Google File System, deux produits Google Corp. Hadoop peut être considéré comme un système de traitement de données évolutif pour le stockage et le traitement par lot de très grande quantité de données. Hadoop et les analyses massives Le web n'est pas le seul à générer de grandes masses d'informations. Les analyses massives autorisent alors des optimisations bien plus fines. Benchmark Pour avoir une meilleure idée de la performance du système et de la révolution à venir : En Mai 2009 chez Yahoo Corp, utilisateur de Hadoop, 1 téra-octet (1012 ) de données a été trié en 62 secondes (cf blog développeur yahoo, voir plus bas)... Ressources Lecture recommandée › Comment utiliser Hadoop pour bâtir des systèmes distribuées afin de procéder à l'analyse de très grandes quantités de données. Hadoop The Definitive Guide Related:  Business Intelligence

Big data : retour à la réalité Hormis les experts dont on attend une forte maitrise du sujet, les incompréhensions autour du Big data sont peu à peu devenues des mythes a atteint des sommets. J’ai donc décidé de prendre le temps de traiter ce problème en proposant une petite introduction à ce qu’est le Big data, et à ce qu’il n’est pas. Le Big data, ce n’est pas seulement une question de Volume de données massives, mais aussi de Variété et de Vélocité. Ces trois "V" du Big data ont été énoncés pour la première fois par Doug Laney (de Gartner) dans un rapport de recherche publié en 2001. La "Variété" fait référence aux nombreux types de data et de fichiers qu’il est intéressant (voir même important) de gérer et d’analyser plus en profondeur et pour lesquels les bases de données traditionnelles (c’est-à-dire les bases de données relationnelles) sont mal adaptées. Le Big data est bien plus que des données non structurées. Le Big data est partout.

Big Data : faire du sens à grande échelle Après l'open-data la nouvelle tendance tout droit venue des US sera-t-elle le « big data » ? D’un récent voyage dans la Silicon Valley (merci aux amis du Orange Institute), je rentre avec une conviction : tout ce que nous connaissions du web va changer à nouveau avec le phénomène des big data. Il pose à nouveau, sur des bases différentes, presque toutes les questions liées à la transformation numérique. En 2008, l’humanité a déversé 480 milliards de Gigabytes sur Internet. En 2010, ce furent 800 milliards de Gygabytes, soit, comme l’a dit un jour Eric Schmidt, plus que la totalité de ce que l’humanité avait écrit, imprimé, gravé, filmé ou enregistré de sa naissance jusqu’en 2003. Ces données ne sont pas toutes des œuvres. Naviguer dans ce nouveau web demande une nouvelle science. Qu’est-ce qui change avec les big data ? L’actualité de la semaine nous a donné une petite illustration de ce qui se passe à grande échelle. On sent bien que l’on est tout près d’un phénomène d’émergence.

Base de données In Memory Une nouvelle génération de base de données pour une utilisation intensive Comme son nom l'indique clairement, une base de données dite "In memory" est essentiellement résidente en mémoire vive. Cette nouvelle génération profite de la baisse du prix des mémoires vives et de la puissance de calcul offerte par les nouvelles générations de processeurs multi-coeurs. C'est évidemment une avancée majeure pour le monde de la business intelligence en version analytique. Le principe mis en oeuvre Les bases de données "In Memory" sont généralement construites comme des base relationnelles. Les solutions du marché Sans surprise, la grande majorité des éditeurs de bases de données ont lancé leur propre solution. La technologie mise en oeuvre À titre d'exemple de la puissance dédiée à une base de données de type In Memory, attardons-nous sur la solution choisie par Oracle Corp avec le produit Exalitics ®. À lire Big Data et Machine Learning - Les concepts et les outils de la data science & Format Kindle

MapReduce Un article de Wikipédia, l'encyclopédie libre. Les termes « map » et « reduce », et les concepts sous-jacents, sont empruntés aux langages de programmation fonctionnelle utilisés pour leur construction (map et réduction de la programmation fonctionnelle et des langages de programmation tableau). MapReduce permet de manipuler de grandes quantités de données en les distribuant dans un cluster de machines pour être traitées. Ce modèle connaît un vif succès auprès de sociétés possédant d'importants centres de traitement de données telles Amazon ou Facebook. Il commence aussi à être utilisé au sein du Cloud computing. De nombreux frameworks ont vu le jour afin d'implémenter le MapReduce. Présentation[modifier | modifier le code] Un modèle de programmation[modifier | modifier le code] MapReduce est un modèle de programmation popularisé par Google. MapReduce consiste en deux fonctions map() et reduce(). map(clé1,valeur1) → list(clé2,valeur2) reduce(key2,list(valeur2))→ list(valeur2)[1] Hadoop Logo

Big Data : Ford veut explorer et combiner de nouvelles sources de données Le Big Data, c’est le terme du moment. Retiré le vernis marketing, reste une réalité, notamment technologique : exploiter des volumes croissants de données, structurées et non structurées (une ambition qui n'est pas nouvelle). Pour le constructeur Ford, le Big Data, c’est d’abord du décisionnel, de l’analytique, un domaine dans lequel il investit et étudie de nouvelles pistes. « Nous reconnaissons que les volumes de données que nous générons en interne – via nos divisions business et aussi via nous activités de recherche automobile aussi bien que par le biais de l’univers de données de nos clients et sur Internet – toutes ces choses représentent d’énormes opportunités pour nous qui nécessiteront probablement de manager de nouvelles techniques pointues et plates-formes » commente le responsable de l’analytique chez Ford, John Ginder. Exploiter les données des sondes des véhicules Ford Les données non structurées sur Internet utiles pour les équipes commerciales

Conférence - BIG DATA 2012 - Paris BIG DATA PARIS, 2ème édition, 03-04 avril 2013, CNIT Paris La Defense. , , Directeur de la Direction de la science, de la technologie et de l'industrie (DSTI) Journée animée par , SOPRA CONSULTING, Directeur Practice BI - Qu'est-ce que le Big Data ? Comment a-t-il émergé ? Quelles sont les innovations qui l'ont imposé ? - Les déterminants du Big Data : • Un volume exponentiel • Des données non structurées • Le temps réel • Des données non distribuées - Quelle utilisation en faire ? , , Directeur , , Rédacteur en chef , , Directeur Technique et Sécurité , , Président-fondateur , Directeur du cabinet d’études,Sociologue - Y'a-t-il véritablement un data déluge ? - La multiplication des sources : • Les données utilisateurs : les réseaux sociaux, les technologies mobiles, le RFID, l'Internet des Objets... • Les données publiques : l'Open Data • Les données des entreprises : des ERP de plus en plus puissants - Comment générer de la donnée : le rôle des communautés Web. -Comment récupérer de la donnée ? - L'intégrité de la donnée . , , Président , Directeur Technique Europe du Sud

Les technologies du Big Data Soulevons le capot... ... et observons le moteur Toute la puissance du Big Data repose sur une technologie pour le moins révolutionnaire. En tout cas, elle l'est pour des vieux spécialistes de l'informatique à papa. Les traitements massivement parallèles, la gestion en temps réel des pannes systèmes ou la redondance systématique des données (out la normalisation des bddd..), c'est un peu tout cela le Big Data. Bon pas seulement, après il y a les utilisations et là c'est une autre paire de manches. Technologie du big data À lire › 1. Big Data : La révolution des données est en marche Kenneth Cukier, Viktor Mayer-Schoenberger Robert Laffont Édition 2014 296 pages Prix : 21 Euros Dispo chez : www.amazon.fr & Format Kindle › 2. Hadoop The Definitive Guide Tom White O'Reilly Media 3ème édition révisée 2012 688 pages Prix : 43 Euros Dispo chez : www.amazon.fr & Format Kindle Big Data et décisionnel en entreprise Les nouveaux tableaux de bord des managers Dispo chez : www.amazon.fr

Criteo = Hadoop + CouchBase + Elastic Serach Pour offrir le meilleur aux annonceurs, Criteo manipule des volumes de données considérables avec des temps de réponse de quelques dixièmes de seconde. Plongeon au cœur de son architecture. C'est l'une des start-up internet françaises qui connaît actuellement le plus de succès dans le monde. Pionnier de ce que l'on appelle le retargeting publicitaire, Criteo manipule des volumes de données considérables dans des temps de réponse de quelques dixièmes de seconde afin d'offrir le meilleur service aux annonceurs. Tout le monde connait aujourd'hui ces bannières publicitaires ultra-ciblées qui vous suivent d'un site à l'autre, vous rappelant les articles que vous avez vus sur un site marchand et vous proposant de retourner sur ce site pour conclure votre achat. Pour offrir un tel service aux annonceurs, Criteo a mis en place une architecture informatique à la pointe de ce qui se fait de mieux dans le domaine du Big Data.

Une étude du cabinet Lecko L'Open Data au cœur de la nouvelle relation entre collectivités, entreprises et citoyens lundi 30 avril 2012 Les initiatives d'ouverture des données publiques, dites "Open Data", se multiplient, en France comme à l'étranger. Qu’est-ce que l’open data ? Quel est son périmètre ? Quels bénéfices les collectivités, les citoyens et les entreprises peuvent-ils espérer en retirer ? Lecko, cabinet de conseil en organisation et nouvelles technologies, publie une étude dans laquelle il analyse plusieurs grands projets internationaux et français pour répondre à ces questions et comprendre les enjeux et les bénéfices de ce mouvement de fond et aider les collectivités à mettre en place de tels programmes. Pour télécharger l’étude Depuis quelques années, la relation entre les citoyens et leur administration s’est trouvée renforcée grâce aux nombreux efforts fournis par les collectivités pour rendre leur offre de service toujours plus proche des besoins de leur environnement (développement de l’e-administration, offre mobile…). _____Sommaire de l’étude publié par le cabinet Lecko

Big Data Trends Top 10 Hot Big Data Technologies As the big data analytics market rapidly expands to include mainstream customers, which technologies are most in demand and promise the most growth potential? The answers can be found in TechRadar: Big Data, Q1 2016, a new Forrester Research report evaluating the maturity and trajectory of 22 technologies across the entire data life cycle. The winners all contribute to real-time, predictive, and integrated insights, what big data customers want now. Here is my take on the 10 hottest big data technologies based on Forrester’s analysis: Predictive analytics: software and/or hardware solutions that allow firms to discover, evaluate, optimize, and deploy predictive models by analyzing big data sources to improve business performance or mitigate risk. Forrester’s TechRadar methodology evaluates the potential success of each technology and all 10 above are projected to have “significant success.”

Les principes de l’ETL Pour alimenter le datawarehouse des différentes applications de l’entreprise, on utilise une gamme d’outils appelés ETL, pour « Extract, Transform, Load ». Comme le nom l’indique, ces outils permettent d’extraire des données à partir de différentes sources, de les transformer (format, dénomination), et de les charger dans la base de données cible, ici le datawarehouse. Les transformations confiées à un ETL sont souvent simples, mais elles peuvent dans certains cas inclure des traitements procéduraux, de véritables programmes spécifiques. Un ETL permet d’éviter la réalisation de programmes batch répétitifs, souvent semblables, dont il faudra également assurer la maintenance. L’ETL peut prendre en charge différentes natures de sources de données, tant en entrée qu’en sortie, les principales étant bien sûr les SGBD relationnels, et les flux XML, mais il peut s’agir aussi de fichiers à formats fixes ou avec séparateurs (CSV). L’ETL a vocation à travailler en différé, le plus souvent la nuit.

Les entreprises pas encore prêtes à affronter Big Data ? La croissance de la collecte de données n'a pas été suivie par la mise en place des outils et des équipes nécessaires à leur traitement. En revanche, les entreprises sont conscientes de souffrir d'un manque à gagner important. Alors que Big Data est essentiel au développement des revenus, son rôle dans les entreprises est encore méconnu – il exige des stratégies spécifiques par secteur afin d’améliorer l’efficacité opérationnelle et l’expérience des consommateurs. L’étude Oracle réalisée le mois dernier - the Oracle Industries Scorecard - a interrogé les patrons américains sur le rôle de Big Data dans leurs entreprises. Beaucoup d’entre eux pensent qu’elles ne réagissent pas suffisamment vite aux données collectées et ne sont pas préparées à un « déluge de données », qui verrait tout à coup la quantité d’informations doubler. Cette inefficacité et l’absence de préparation pourrait représenter un coût important en termes de manque à gagner et d’opportunités manquées.

Les 10 entreprises Big Data les plus innovantes l Data-Business.fr Le Big Data est une tendance de fond qui trouve des applications dans tous les secteurs. De plus en plus d’entreprises se servent des innovations technologiques autour du Big Data pour répondre à des défis scientifiques, économiques et humains. Le classement ci-dessous présente les innovations les plus prometteuses et les entreprises qui les mettent en place. GE se sert des données de capteurs embarqués dans ses avions et ses trains pour créer un “Internet Industriel”. General Electric est devenu au cours des dernières années un acteur majeur dans le monde du Big Data, grâce notamment à son ambition de créer un “Internet Industriel”, une vision dans laquelle les machines sont connectées et communiquent entre elles pour améliorer leur efficacité et minimiser les risques d’incidents. Kaggle propose aux entreprises de faire analyser leurs données par des data-scientists à-la-demande. Knewton rend des millions d’étudiants plus intelligents Partagez l’article < Retour à la page Big Data Connexe

Related: