background preloader

Ce que Hadoop ?

Ce que Hadoop ?
Data warehouse, stockage et traitement distribués Définition Hadoop Hadoop est un projet Open Source géré par Apache Software Fundation basé sur le principe Map Reduce et de Google File System, deux produits Google Corp. Hadoop peut être considéré comme un système de traitement de données évolutif pour le stockage et le traitement par lot de très grande quantité de données. Hadoop et les analyses massives Le web n'est pas le seul à générer de grandes masses d'informations. Les analyses massives autorisent alors des optimisations bien plus fines. Benchmark Pour avoir une meilleure idée de la performance du système et de la révolution à venir : En Mai 2009 chez Yahoo Corp, utilisateur de Hadoop, 1 téra-octet (1012 ) de données a été trié en 62 secondes (cf blog développeur yahoo, voir plus bas)... Ressources Lecture recommandée › Comment utiliser Hadoop pour bâtir des systèmes distribuées afin de procéder à l'analyse de très grandes quantités de données. Hadoop The Definitive Guide Related:  LABBusiness Intelligence

Big Data : faire du sens à grande échelle Après l'open-data la nouvelle tendance tout droit venue des US sera-t-elle le « big data » ? D’un récent voyage dans la Silicon Valley (merci aux amis du Orange Institute), je rentre avec une conviction : tout ce que nous connaissions du web va changer à nouveau avec le phénomène des big data. Il pose à nouveau, sur des bases différentes, presque toutes les questions liées à la transformation numérique. En 2008, l’humanité a déversé 480 milliards de Gigabytes sur Internet. En 2010, ce furent 800 milliards de Gygabytes, soit, comme l’a dit un jour Eric Schmidt, plus que la totalité de ce que l’humanité avait écrit, imprimé, gravé, filmé ou enregistré de sa naissance jusqu’en 2003. Ces données ne sont pas toutes des œuvres. Naviguer dans ce nouveau web demande une nouvelle science. Qu’est-ce qui change avec les big data ? L’actualité de la semaine nous a donné une petite illustration de ce qui se passe à grande échelle. On sent bien que l’on est tout près d’un phénomène d’émergence.

Base de données In Memory Une nouvelle génération de base de données pour une utilisation intensive Comme son nom l'indique clairement, une base de données dite "In memory" est essentiellement résidente en mémoire vive. Cette nouvelle génération profite de la baisse du prix des mémoires vives et de la puissance de calcul offerte par les nouvelles générations de processeurs multi-coeurs. C'est évidemment une avancée majeure pour le monde de la business intelligence en version analytique. Le principe mis en oeuvre Les bases de données "In Memory" sont généralement construites comme des base relationnelles. Les solutions du marché Sans surprise, la grande majorité des éditeurs de bases de données ont lancé leur propre solution. La technologie mise en oeuvre À titre d'exemple de la puissance dédiée à une base de données de type In Memory, attardons-nous sur la solution choisie par Oracle Corp avec le produit Exalitics ®. À lire Big Data et Machine Learning - Les concepts et les outils de la data science & Format Kindle

MapReduce Un article de Wikipédia, l'encyclopédie libre. Les termes « map » et « reduce », et les concepts sous-jacents, sont empruntés aux langages de programmation fonctionnelle utilisés pour leur construction (map et réduction de la programmation fonctionnelle et des langages de programmation tableau). MapReduce permet de manipuler de grandes quantités de données en les distribuant dans un cluster de machines pour être traitées. Ce modèle connaît un vif succès auprès de sociétés possédant d'importants centres de traitement de données telles Amazon ou Facebook. Il commence aussi à être utilisé au sein du Cloud computing. De nombreux frameworks ont vu le jour afin d'implémenter le MapReduce. Présentation[modifier | modifier le code] Un modèle de programmation[modifier | modifier le code] MapReduce est un modèle de programmation popularisé par Google. MapReduce consiste en deux fonctions map() et reduce(). map(clé1,valeur1) → list(clé2,valeur2) reduce(key2,list(valeur2))→ list(valeur2)[1] Hadoop Logo

Conférence - BIG DATA 2012 - Paris BIG DATA PARIS, 2ème édition, 03-04 avril 2013, CNIT Paris La Defense. , , Directeur de la Direction de la science, de la technologie et de l'industrie (DSTI) Journée animée par , SOPRA CONSULTING, Directeur Practice BI - Qu'est-ce que le Big Data ? Comment a-t-il émergé ? Quelles sont les innovations qui l'ont imposé ? - Les déterminants du Big Data : • Un volume exponentiel • Des données non structurées • Le temps réel • Des données non distribuées - Quelle utilisation en faire ? , , Directeur , , Rédacteur en chef , , Directeur Technique et Sécurité , , Président-fondateur , Directeur du cabinet d’études,Sociologue - Y'a-t-il véritablement un data déluge ? - La multiplication des sources : • Les données utilisateurs : les réseaux sociaux, les technologies mobiles, le RFID, l'Internet des Objets... • Les données publiques : l'Open Data • Les données des entreprises : des ERP de plus en plus puissants - Comment générer de la donnée : le rôle des communautés Web. -Comment récupérer de la donnée ? - L'intégrité de la donnée . , , Président , Directeur Technique Europe du Sud

Les technologies du Big Data Soulevons le capot... ... et observons le moteur Toute la puissance du Big Data repose sur une technologie pour le moins révolutionnaire. En tout cas, elle l'est pour des vieux spécialistes de l'informatique à papa. Les traitements massivement parallèles, la gestion en temps réel des pannes systèmes ou la redondance systématique des données (out la normalisation des bddd..), c'est un peu tout cela le Big Data. Bon pas seulement, après il y a les utilisations et là c'est une autre paire de manches. Technologie du big data À lire › 1. Big Data : La révolution des données est en marche Kenneth Cukier, Viktor Mayer-Schoenberger Robert Laffont Édition 2014 296 pages Prix : 21 Euros Dispo chez : www.amazon.fr & Format Kindle › 2. Hadoop The Definitive Guide Tom White O'Reilly Media 3ème édition révisée 2012 688 pages Prix : 43 Euros Dispo chez : www.amazon.fr & Format Kindle Big Data et décisionnel en entreprise Les nouveaux tableaux de bord des managers Dispo chez : www.amazon.fr

Criteo = Hadoop + CouchBase + Elastic Serach Pour offrir le meilleur aux annonceurs, Criteo manipule des volumes de données considérables avec des temps de réponse de quelques dixièmes de seconde. Plongeon au cœur de son architecture. C'est l'une des start-up internet françaises qui connaît actuellement le plus de succès dans le monde. Pionnier de ce que l'on appelle le retargeting publicitaire, Criteo manipule des volumes de données considérables dans des temps de réponse de quelques dixièmes de seconde afin d'offrir le meilleur service aux annonceurs. Tout le monde connait aujourd'hui ces bannières publicitaires ultra-ciblées qui vous suivent d'un site à l'autre, vous rappelant les articles que vous avez vus sur un site marchand et vous proposant de retourner sur ce site pour conclure votre achat. Pour offrir un tel service aux annonceurs, Criteo a mis en place une architecture informatique à la pointe de ce qui se fait de mieux dans le domaine du Big Data.

Big Data Trends Top 10 Hot Big Data Technologies As the big data analytics market rapidly expands to include mainstream customers, which technologies are most in demand and promise the most growth potential? The answers can be found in TechRadar: Big Data, Q1 2016, a new Forrester Research report evaluating the maturity and trajectory of 22 technologies across the entire data life cycle. The winners all contribute to real-time, predictive, and integrated insights, what big data customers want now. Here is my take on the 10 hottest big data technologies based on Forrester’s analysis: Predictive analytics: software and/or hardware solutions that allow firms to discover, evaluate, optimize, and deploy predictive models by analyzing big data sources to improve business performance or mitigate risk. Forrester’s TechRadar methodology evaluates the potential success of each technology and all 10 above are projected to have “significant success.”

Les principes de l’ETL Pour alimenter le datawarehouse des différentes applications de l’entreprise, on utilise une gamme d’outils appelés ETL, pour « Extract, Transform, Load ». Comme le nom l’indique, ces outils permettent d’extraire des données à partir de différentes sources, de les transformer (format, dénomination), et de les charger dans la base de données cible, ici le datawarehouse. Les transformations confiées à un ETL sont souvent simples, mais elles peuvent dans certains cas inclure des traitements procéduraux, de véritables programmes spécifiques. Un ETL permet d’éviter la réalisation de programmes batch répétitifs, souvent semblables, dont il faudra également assurer la maintenance. L’ETL peut prendre en charge différentes natures de sources de données, tant en entrée qu’en sortie, les principales étant bien sûr les SGBD relationnels, et les flux XML, mais il peut s’agir aussi de fichiers à formats fixes ou avec séparateurs (CSV). L’ETL a vocation à travailler en différé, le plus souvent la nuit.

Les 10 entreprises Big Data les plus innovantes l Data-Business.fr Le Big Data est une tendance de fond qui trouve des applications dans tous les secteurs. De plus en plus d’entreprises se servent des innovations technologiques autour du Big Data pour répondre à des défis scientifiques, économiques et humains. Le classement ci-dessous présente les innovations les plus prometteuses et les entreprises qui les mettent en place. GE se sert des données de capteurs embarqués dans ses avions et ses trains pour créer un “Internet Industriel”. General Electric est devenu au cours des dernières années un acteur majeur dans le monde du Big Data, grâce notamment à son ambition de créer un “Internet Industriel”, une vision dans laquelle les machines sont connectées et communiquent entre elles pour améliorer leur efficacité et minimiser les risques d’incidents. Kaggle propose aux entreprises de faire analyser leurs données par des data-scientists à-la-demande. Knewton rend des millions d’étudiants plus intelligents Partagez l’article < Retour à la page Big Data Connexe

Comment faire de la Réalité Augmentée ? “Comment puis-je faire de la réalité augmentée ?” Voici peut être la question que nous entendons le plus sur ce blog et au cours de nos interventions. Pour répondre à cette question, nous vous proposons un tour d’horizon des différentes possibilités dans cet article. Attention cependant, il s’agit là d’une introduction pour vous permettre avancer dans votre réflexion. Dans la suite, nous allons supposer que vous savez ce que vous voulez faire. Les “CMS” de réalité augmentée Il existe aujourd’hui des logiciels ou des services en ligne qui vous permettent de mettre en place très rapidement des projets simples de réalité augmentée. Une caractéristique intéressante de cette manière de faire de la réalité augmentée est le passage par un navigateur pseudo généraliste. Voici notre sélection si vous voulez tester vous même ces produits : – Metaio Creator : Logiciel très complet et simple d’utilisation. Utiliser les SDK pour avoir une application en propre Photo credit: Foter.com / CC BY-SA

ETL, les questions à se poser ETL, acronyme de Extraction, Transformation, Loading, est un système de chargement de données depuis les différentes sources d'information de l'entreprise (hétérogènes) jusqu'à l'entrepôt de données (modèles multidimensionnels). Ce système ne se contente pas de charger les données, il doit les faire passer par un tas de moulinettes pour les dé-normaliser, les nettoyer, les contextualiser, puis de les charger de la façon adéquate. Nous verrons par la suite ce que chaque mot veut dire. Il est important de savoir que la réalisation de l'ETL constitue 70% d'un projet décisionnel en moyenne. Et ce n'est pas pour rien, ce système est complexe et ne doit rien laisser s'échapper, sous peine d'avoir une mauvaise information dans l'entrepôt, donc des données fausses, donc inutilisables. Avant de commencer, visualisez le schéma d'un entrepôt et sa façon de fonctionner (gérer l'historique, dimensions, faits, etc.). Si vous cherchez des méthodes de conceptions d'ETL, et bien il n'y en a pas. III-A.

Qu'est-ce que Map-reduce ? Traitement distribué et analyse massive de grandes quantités de données Map-reduce est un modèle de programmation massivement parallèle adapté au traitement de très grandes quantités de données. MapReduce est un produit Google Corp. Les programmes adoptant ce modèle sont automatiquement parallélisés et exécutés sur des clusters (grappes) d'ordinateurs. Principe de Map-Reduce Le système de traitement temps réel assure le partitionnement et le plan d'exécution des programmes tout en gérant les inhérentes pannes informatiques et indisponibilités. Pourquoi Map reduce ? Si le web facilite les échanges commerciaux, il est aussi une mine quasi infinie de renseignements à collecter. Méga stockage En parallèle de cette multiplication exponentielle des informations disponibles, le prix des supports de stockage n'a cessé de baisser et la capacité d'augmenter. Loi des grands nombres 1 téra-octet représente tout de même 1.000.000.000.000 octets. Hadoop et Data warehouse de nouvelle génération Ressources

Qu’est-ce que le Data Lake, le nouveau concept "Big Data" en vogue Le Data Lake doit permettre, enfin, de casser les silos des systèmes d’information. C’est aussi un moyen de gagner en agilité. L'expert Vincent Heuschling répond aux questions du JDN. Qu’est-ce qu’un Data Lake ? Le Data Lake, ou lac de données, est un concept relativement nouveau lié à la mouvance Big Data. L’émergence du concept de Data Lake s’est accélérée grâce avec la convergence du besoin de plateformes fédératrices dans les entreprises et de nouveaux moyens techniques économiques apportés par les technologies de Big Data. En quoi est-ce différent d'un datawarehouse ? La tentation est très souvent forte d’apparenter le Data Lake à un classique datawarehouse, mais les différences entre les deux sont importantes, et ceci sur plusieurs plans. Avec le Data Lake, l'analyse de données devient opérationnelle Un autre facteur différenciant le Data Lake vis-à-vis de son ancêtre réside dans le coté opérationnel qui peut lui être associé. Quels sont les atouts d'un Data Lake ?

Related: