background preloader

Big Data

Facebook Twitter

Alliancebigdata.com. De la “Data Science” à l’infovisualisation (1/2) : qu’est-ce qu’un data scientist. Par Rémi Sussan le 06/03/13 | 7 commentaires | 2,637 lectures | Impression Comment articuler “Science des données” et visualisation ? C’est à cette question que se sont attaqués une multitude d’experts lors de la journée d’étude PraTIC du 25 février (conçue et organisée par Etienne-Armand Amato, Etienne Perény et Jean-Christophe Plantin pour Gobelins, l’Ecole de l’Image, en partenariat avec le laboratoire Paragraphe de l’Université Paris 8 et l’Observatoire des mondes numériques en sciences humaines).

Car il s’agit de deux domaines indissociables, mais, comme l’a expliqué Jean-Christophe Plantin (@JCPlantin, blog), souvent présentés de manière séparée. Pourtant, avant toute cartographie, la sélection et la préparation des données s’imposent. La science des données est-elle une science ? En quoi consiste sa tâche ? Elle s’articule autour de trois grandes étapes. Le domaine de la “data science” n’est pas sans susciter quelques interrogations. Les données et leur contexte Modèles de graphes. Hadoop. Un article de Wikipédia, l'encyclopédie libre. Hadoop a été créé par Doug Cutting et fait partie des projets de la fondation logicielle Apache depuis 2009. Historique[modifier | modifier le code] En 2004, Google publie un article présentant son algorithme basé sur des opérations analytiques à grande échelle sur un grand cluster de serveurs, le MapReduce, ainsi que son système de fichier en cluster, le GoogleFS.

Doug Cutting, qui travaille à cette époque sur le développement de Apache Lucene et rencontre des problèmes similaires à ceux de la firme de Mountain View, décide alors de reprendre les concepts décrits dans l'article pour développer sa propre version des outils en version Open Source, qui deviendra le projet Hadoop. Architecture[modifier | modifier le code] Hadoop Distributed File System[modifier | modifier le code] Une architecture de machines HDFS (aussi appelée cluster HDFS) repose sur deux types de composants majeurs : MapReduce[modifier | modifier le code] Open Data : les propositions des industriels du logiciel au gouvernement.

À l’occasion de la tenue de la Conférence de Paris consacrée à l’Open Data, l’association des industriels français du logiciel, l’AFDEL, a dévoilé cinq propositions (PDF) visant à accélérer l’impact économique de l’ouverture des données publiques en France. Petit tour d’horizon. La présentation de ces cinq propositions par l’Association française des éditeurs de logiciels et solutions internet (AFDEL) n’est absolument pas anodine, puisqu’elle intervient au même moment que la Conférence de Paris sur l’Open Data, où sont notamment attendus plusieurs membres du gouvernement. Après avoir souligné que la politique française d’ouverture des données publiques avait « considérablement progressé ces dernières années, en particulier au niveau du cadre réglementaire », l’AFDEL explique avoir constaté que le développement de l’Open Data demeurait aujourd’hui « en deçà des ambitions affichées initialement » par les autorités, tout du moins sur le plan économique.

Xavier Berne. Open Data : les propositions des industriels du logiciel au gouvernement. L'architecture HDFS : Panorama des solutions de big data. L’embarras du choix - Comment choisir la bonne plate-forme pour Big Data / Hadoop ? Cette année, le big data est devenu un sujet pertinent dans beaucoup d’entreprises. Bien qu'il n’y ait pas de définition standard du terme “big data”, Hadoop est de facto un standard pour le traitement big data. Presque tous les grands éditeurs de logiciels tels que IBM, Oracle, SAP et même Microsoft utilisent Hadoop. Cependant une fois que vous avez choisi d’utiliser Hadoop, la première question à se poser est de savoir comment débuter et quel produit choisir pour vos traitements big data.

Plusieurs alternatives existent pour installer une version d’Hadoop et réaliser des traitements de ces données. Cet article présente ces différentes alternatives et recommande à quel moment les utiliser. Alternatives de plates-formes Hadoop L’illustration suivante montre différentes alternatives de plates-formes Hadoop. Dans le paragraphe qui suit, nous nous attarderons sur les différentes alternatives en commençant par Apache Hadoop. Apache Hadoop Problème 1: installation d’un cluster complexe Apache : Big Data : Hadoop passe à la vitesse supérieure. Par Emilien Ercolani, le 21 octobre 2013 12:28 La fondation Apache a livré la version 2.0 de la distribution Hadoop, le logiciel open source de traitement du Big Data.

La fondation Apache « passe la seconde » avec la version 2.0 du framework Hadoop, utilisé pour le traitement des gros volumes de données, communément appelé Big Data. Cette nouvelle mouture aura mis plusieurs années à voir le jour mais intègre des fonctionnalités avancées dont l’arrivée de YARN (Yet Another Resource Negociator), qui succède au patron d’architecture MapReduce. Aussi appelé MapReduce 2, elle sépare l’étendue des fonctions en deux groupes : le premier qui regroupe la gestion des ressources avec Resources Manager, le second avec le monitoring, la planification et la surveillance avec Node Manager. Mais ce n’est bien entendu pas tout, car Hadoop 2.0 apporte d’autres améliorations, dont la haute disponibilité du système de fichiers distribué HDFS (Hadoop Distributed File System). Big data. Un article de Wikipédia, l'encyclopédie libre. Une visualisation des données créée par IBM[1] montre que les big data que Wikipedia modifie à l'aide du robot Pearle ont plus de signification lorsqu'elles sont mises en valeur par des couleurs et des localisations[2].

Croissance et Numérisation de la Capacité de Stockage Mondiale de L'information[3]. Dans ces nouveaux ordres de grandeur, la capture, le stockage, la recherche, le partage, l'analyse et la visualisation des données doivent être redéfinis. Certains supposent qu'ils pourraient aider les entreprises à réduire les risques et faciliter la prise de décision, ou créer la différence grâce à l'analyse prédictive et une « expérience client » plus personnalisée et contextualisée. Dimensions des big data[modifier | modifier le code] Le Big Data s'accompagne du développement d'applications à visée analytique, qui traitent les données pour en tirer du sens[15].

Ces analyses sont appelées Big Analytics[16] ou «broyage de données». Le Big Data resterait-il encore un mythe ? Au sein de leurs systèmes Analytics, seules 16% des entreprises européennes affichent un volume de données de plus de 50 téraoctets, niveau généralement associé au Big Data. C'est là l'une des conclusions d'une étude de Steria. SFR, Crédit Mutuel Arkéa, Criteo, Chorus... La France compte déjà plusieurs grandes initiatives abouties et bien connues en matière de Big Data. Est-ce là l'arbre qui cache la forêt ?

Le mouvement du Big Data serait loin encore de s'être généralisé à la majorité des entreprises. Une étude de Steria vient confirmer cette vision. "Seulement 16 % des entreprises possèdent un volume global de données de plus de 50 téraoctets à analyser, niveau généralement associé au Big Data", constate la SSII. Mais il est fort à parier que les volumes de données à analyser vont croître, notamment à la faveur de la montée en puissance du stockage d'informations non-structurées (issues par exemple des outils d'analytics web et sociaux). Big data : 7 tendances qui vont faire évoluer votre activité. Le thème de Big Data continue de faire parler de lui, comme en témoignent la grande variété d’innovations qui émergent chaque jour et le nombre important de professionnels qui exploitent avec succès des solutions en lien avec ce sujet.

Nous assistons à un changement important : le buzz autour du "Big Data", concept souvent jugé confus pour le plus grand nombre, tend à être remplacé par de plus en plus de cas concrets d’entreprises qui ont su tirer parti de leurs données.Tout comme n’importe quel changement de modèle dans l’informatique, le « Big Data » a passionné la presse, les investisseurs et les innovateurs avant même que des éléments sérieux n’en prouvent la valeur pour l’entreprise. Quelles tendances verrons-nous probablement émerger dans l’écosystème du « Big Data » ? Le développement accru et l’unification du SQL (Structured Query Language) sur Hadoop.

Des fonctions de recherches avancées L’extension d’ETL (Extract-Transform-Load) et la prise en charge ELT.