background preloader

Ce que Hadoop ?

Ce que Hadoop ?
Data warehouse, stockage et traitement distribués Définition Hadoop Hadoop est un projet Open Source géré par Apache Software Fundation basé sur le principe Map Reduce et de Google File System, deux produits Google Corp. Hadoop peut être considéré comme un système de traitement de données évolutif pour le stockage et le traitement par lot de très grande quantité de données. Hadoop et les analyses massives Le web n'est pas le seul à générer de grandes masses d'informations. Les analyses massives autorisent alors des optimisations bien plus fines. Benchmark Pour avoir une meilleure idée de la performance du système et de la révolution à venir : En Mai 2009 chez Yahoo Corp, utilisateur de Hadoop, 1 téra-octet (1012 ) de données a été trié en 62 secondes (cf blog développeur yahoo, voir plus bas)... Ressources Lecture recommandée › Comment utiliser Hadoop pour bâtir des systèmes distribuées afin de procéder à l'analyse de très grandes quantités de données. Hadoop The Definitive Guide Related:  LABBusiness Intelligence

Big data : retour à la réalité Hormis les experts dont on attend une forte maitrise du sujet, les incompréhensions autour du Big data sont peu à peu devenues des mythes a atteint des sommets. J’ai donc décidé de prendre le temps de traiter ce problème en proposant une petite introduction à ce qu’est le Big data, et à ce qu’il n’est pas. Le Big data, ce n’est pas seulement une question de Volume de données massives, mais aussi de Variété et de Vélocité. Ces trois "V" du Big data ont été énoncés pour la première fois par Doug Laney (de Gartner) dans un rapport de recherche publié en 2001. La "Variété" fait référence aux nombreux types de data et de fichiers qu’il est intéressant (voir même important) de gérer et d’analyser plus en profondeur et pour lesquels les bases de données traditionnelles (c’est-à-dire les bases de données relationnelles) sont mal adaptées. Le Big data est bien plus que des données non structurées. Le Big data est partout.

Handbook of Scientific Methods of Inquiry for Intelligence Analysis Enccxibea|bim }b|g Bi|hoobmhieh0 ]{b|bim ail K{bhfbim bi |gh Bi|hoobmhiehail Ia|bniao Uhex{b|r Enccxib|bhu / kr @achu U) Ca`n{) ;::7);) A Uzr‒u [âuxcâ0 Enifhuubniu nf a Cavh{bed Bi|hoobmhieh Z{nfhuubniao ail Cbualvhi|x{h Eazb|aobu| / kr Ca{e Ai|gnir Vbnoa) ;::7)5) Ai Bi|{nlxe|bni |n Bi|hoobmhieh [huha{eg ail Aiaorubu kr @h{nch Eoaxuh{/{hvbuhl ail hlb|hl kr @ai Mnolcai) ;::7)<) ]{b|bim Eoauubfbhl ail Xieoauubfbhl Zazh{u fn{ Ia|bniao Uhex{b|r0 A Uea{h#e{n} Z{nfhuubniao Bi|hoobmhieh Hlxea|bniao Uh{bhu Caixao kr @achu U)Ca`n{) ;::2)8) U|{a|hmbe Bi|hoobmhieh0 A Gailknnd fn{ Z{ae|b|bnih{u/ Caiamh{u/ ail Xuh{u /{hvbuhl hlb|bni kr Lni CeLn}hoo) ;::2)6) Za{|or Eonxlr0 H|gbeu bi ]a{/ Huzbniamh/ Envh{| Ae|bni/ ail Bi|h{{nma|bni kr Lavbl O) Zh{{r) ;::2)=) \ndrn [nuh . kr F{hlh{bed Z)Eonuh) ;:1:)7) H|gbeu nf Uzrbim0 A [halh{ fn{ |gh Bi|hoobmhieh Z{nfhuubniao hlb|hl kr @aiMnolcai) ;::6)2) Vnoxch ;/ hlb|hl kr @ai Mnolcai) ;:1:)1:) / kr Mabo Ga{{bu/ ;:1:)11) krGaid Z{xiedxi/ ;:1:)

Big Data : faire du sens à grande échelle Après l'open-data la nouvelle tendance tout droit venue des US sera-t-elle le « big data » ? D’un récent voyage dans la Silicon Valley (merci aux amis du Orange Institute), je rentre avec une conviction : tout ce que nous connaissions du web va changer à nouveau avec le phénomène des big data. Il pose à nouveau, sur des bases différentes, presque toutes les questions liées à la transformation numérique. En 2008, l’humanité a déversé 480 milliards de Gigabytes sur Internet. En 2010, ce furent 800 milliards de Gygabytes, soit, comme l’a dit un jour Eric Schmidt, plus que la totalité de ce que l’humanité avait écrit, imprimé, gravé, filmé ou enregistré de sa naissance jusqu’en 2003. Ces données ne sont pas toutes des œuvres. Naviguer dans ce nouveau web demande une nouvelle science. Qu’est-ce qui change avec les big data ? L’actualité de la semaine nous a donné une petite illustration de ce qui se passe à grande échelle. On sent bien que l’on est tout près d’un phénomène d’émergence.

Base de données In Memory Une nouvelle génération de base de données pour une utilisation intensive Comme son nom l'indique clairement, une base de données dite "In memory" est essentiellement résidente en mémoire vive. Cette nouvelle génération profite de la baisse du prix des mémoires vives et de la puissance de calcul offerte par les nouvelles générations de processeurs multi-coeurs. C'est évidemment une avancée majeure pour le monde de la business intelligence en version analytique. Le principe mis en oeuvre Les bases de données "In Memory" sont généralement construites comme des base relationnelles. Les solutions du marché Sans surprise, la grande majorité des éditeurs de bases de données ont lancé leur propre solution. La technologie mise en oeuvre À titre d'exemple de la puissance dédiée à une base de données de type In Memory, attardons-nous sur la solution choisie par Oracle Corp avec le produit Exalitics ®. À lire Big Data et Machine Learning - Les concepts et les outils de la data science & Format Kindle

MapReduce Un article de Wikipédia, l'encyclopédie libre. Les termes « map » et « reduce », et les concepts sous-jacents, sont empruntés aux langages de programmation fonctionnelle utilisés pour leur construction (map et réduction de la programmation fonctionnelle et des langages de programmation tableau). MapReduce permet de manipuler de grandes quantités de données en les distribuant dans un cluster de machines pour être traitées. Ce modèle connaît un vif succès auprès de sociétés possédant d'importants centres de traitement de données telles Amazon ou Facebook. Il commence aussi à être utilisé au sein du Cloud computing. De nombreux frameworks ont vu le jour afin d'implémenter le MapReduce. Présentation[modifier | modifier le code] Un modèle de programmation[modifier | modifier le code] MapReduce est un modèle de programmation popularisé par Google. MapReduce consiste en deux fonctions map() et reduce(). map(clé1,valeur1) → list(clé2,valeur2) reduce(key2,list(valeur2))→ list(valeur2)[1] Hadoop Logo

Big Data : Ford veut explorer et combiner de nouvelles sources de données Le Big Data, c’est le terme du moment. Retiré le vernis marketing, reste une réalité, notamment technologique : exploiter des volumes croissants de données, structurées et non structurées (une ambition qui n'est pas nouvelle). Pour le constructeur Ford, le Big Data, c’est d’abord du décisionnel, de l’analytique, un domaine dans lequel il investit et étudie de nouvelles pistes. « Nous reconnaissons que les volumes de données que nous générons en interne – via nos divisions business et aussi via nous activités de recherche automobile aussi bien que par le biais de l’univers de données de nos clients et sur Internet – toutes ces choses représentent d’énormes opportunités pour nous qui nécessiteront probablement de manager de nouvelles techniques pointues et plates-formes » commente le responsable de l’analytique chez Ford, John Ginder. Exploiter les données des sondes des véhicules Ford Les données non structurées sur Internet utiles pour les équipes commerciales

Election américaine : "Big data", l'arme secrète d'Obama Lors des derniers jours de la campagne présidentielle américaine, la question clé était celle de la composition de l'électorat. Si l'électorat ressemblait à celui de 2008, avec beaucoup de jeunes, d'hispaniques et d'afro-américains, la réélection de Barack Obama était assurée. Seulement voilà : l'enthousiasme de 2008 et du rêve Obama s'était assoupi après quatre ans de chômage et de stagnation économique. Le pari de l'équipe Romney était que ces groupes s'abstiendraient plus, une fois l'Obamamania passée. C'était sans compter sur la grande innovation de l'équipe Obama : une base de données gigantesque de soutiens et de soutiens potentiels, accumulée via le site internet et les meetings du candidat. Grâce à une analyse informatique, sociologique, géographique et statistique, ces électeurs ont été découpés en groupes. Au final, la campagne d'Obama a été remportée, au moins en grande partie, grâce au "Big Data".

Conférence - BIG DATA 2012 - Paris BIG DATA PARIS, 2ème édition, 03-04 avril 2013, CNIT Paris La Defense. , , Directeur de la Direction de la science, de la technologie et de l'industrie (DSTI) Journée animée par , SOPRA CONSULTING, Directeur Practice BI - Qu'est-ce que le Big Data ? Comment a-t-il émergé ? Quelles sont les innovations qui l'ont imposé ? - Les déterminants du Big Data : • Un volume exponentiel • Des données non structurées • Le temps réel • Des données non distribuées - Quelle utilisation en faire ? , , Directeur , , Rédacteur en chef , , Directeur Technique et Sécurité , , Président-fondateur , Directeur du cabinet d’études,Sociologue - Y'a-t-il véritablement un data déluge ? - La multiplication des sources : • Les données utilisateurs : les réseaux sociaux, les technologies mobiles, le RFID, l'Internet des Objets... • Les données publiques : l'Open Data • Les données des entreprises : des ERP de plus en plus puissants - Comment générer de la donnée : le rôle des communautés Web. -Comment récupérer de la donnée ? - L'intégrité de la donnée . , , Président , Directeur Technique Europe du Sud

Les technologies du Big Data Soulevons le capot... ... et observons le moteur Toute la puissance du Big Data repose sur une technologie pour le moins révolutionnaire. En tout cas, elle l'est pour des vieux spécialistes de l'informatique à papa. Les traitements massivement parallèles, la gestion en temps réel des pannes systèmes ou la redondance systématique des données (out la normalisation des bddd..), c'est un peu tout cela le Big Data. Bon pas seulement, après il y a les utilisations et là c'est une autre paire de manches. Technologie du big data À lire › 1. Big Data : La révolution des données est en marche Kenneth Cukier, Viktor Mayer-Schoenberger Robert Laffont Édition 2014 296 pages Prix : 21 Euros Dispo chez : www.amazon.fr & Format Kindle › 2. Hadoop The Definitive Guide Tom White O'Reilly Media 3ème édition révisée 2012 688 pages Prix : 43 Euros Dispo chez : www.amazon.fr & Format Kindle Big Data et décisionnel en entreprise Les nouveaux tableaux de bord des managers Dispo chez : www.amazon.fr

Criteo = Hadoop + CouchBase + Elastic Serach Pour offrir le meilleur aux annonceurs, Criteo manipule des volumes de données considérables avec des temps de réponse de quelques dixièmes de seconde. Plongeon au cœur de son architecture. C'est l'une des start-up internet françaises qui connaît actuellement le plus de succès dans le monde. Pionnier de ce que l'on appelle le retargeting publicitaire, Criteo manipule des volumes de données considérables dans des temps de réponse de quelques dixièmes de seconde afin d'offrir le meilleur service aux annonceurs. Tout le monde connait aujourd'hui ces bannières publicitaires ultra-ciblées qui vous suivent d'un site à l'autre, vous rappelant les articles que vous avez vus sur un site marchand et vous proposant de retourner sur ce site pour conclure votre achat. Pour offrir un tel service aux annonceurs, Criteo a mis en place une architecture informatique à la pointe de ce qui se fait de mieux dans le domaine du Big Data.

Une étude du cabinet Lecko L'Open Data au cœur de la nouvelle relation entre collectivités, entreprises et citoyens lundi 30 avril 2012 Les initiatives d'ouverture des données publiques, dites "Open Data", se multiplient, en France comme à l'étranger. Qu’est-ce que l’open data ? Quel est son périmètre ? Quels bénéfices les collectivités, les citoyens et les entreprises peuvent-ils espérer en retirer ? Lecko, cabinet de conseil en organisation et nouvelles technologies, publie une étude dans laquelle il analyse plusieurs grands projets internationaux et français pour répondre à ces questions et comprendre les enjeux et les bénéfices de ce mouvement de fond et aider les collectivités à mettre en place de tels programmes. Pour télécharger l’étude Depuis quelques années, la relation entre les citoyens et leur administration s’est trouvée renforcée grâce aux nombreux efforts fournis par les collectivités pour rendre leur offre de service toujours plus proche des besoins de leur environnement (développement de l’e-administration, offre mobile…). _____Sommaire de l’étude publié par le cabinet Lecko

The enterprise opportunity of Big Data: Closing the "clue gap" The ultimate challenge in the end is putting enough useful Big Data capabilities into the hands of the largest number of workers. The organizations that figure out this part will reap corresponding rewards. There have been some interesting discussions lately about the growing chasm between the vast quantities of information that companies are storing and how much of it is successfully transformed into actionable knowledge. As the raw information in enterprises continues to grow exponentially -- due to the rapid growth in sensors, connected devices, rich media, social media, and even the Internet of Things -- companies are rapidly coming to understand less and less of what they have and what it means. It's not a minor issue. Knowledge is where the value is being created in business today, and has been the leading source of economic power for several decades now. Big Data: A Response to Data Overload? In other words, all the usual challenges of CoIT. Fast Data.

Big Data Trends Top 10 Hot Big Data Technologies As the big data analytics market rapidly expands to include mainstream customers, which technologies are most in demand and promise the most growth potential? The answers can be found in TechRadar: Big Data, Q1 2016, a new Forrester Research report evaluating the maturity and trajectory of 22 technologies across the entire data life cycle. The winners all contribute to real-time, predictive, and integrated insights, what big data customers want now. Here is my take on the 10 hottest big data technologies based on Forrester’s analysis: Predictive analytics: software and/or hardware solutions that allow firms to discover, evaluate, optimize, and deploy predictive models by analyzing big data sources to improve business performance or mitigate risk. Forrester’s TechRadar methodology evaluates the potential success of each technology and all 10 above are projected to have “significant success.”

Related: