background preloader

Big Data - Gestion données de masse

Facebook Twitter

BigData Débats. Explore big data analytics and Hadoop. 1.

Explore big data analytics and Hadoop

Big data Big data refers to the size of a dataset that has grown too large to be manipulated through traditional methods. These methods include capture, storage, and processing of the data in a tolerable amount of time. Although the term big data was once applied to the concept of data warehouses, it now refers to large-scale processing architectures that focus on capacity, throughput, and genericity of processing. 2. Hadoop refers to the specific software framework developed under the Apache Project for massively distributed data processing. 3. Although Hadoop was inspired by Google's MapReduce usage model, Hadoop is a generic application framework for the processing of massive amounts of data. 4.

Big data analytics and the cloud are almost a perfect marriage. 5. Hadoop isn't a product in itself but rather an ecosystem of software products that together implement fully featured and flexible big data analytics. 6. Give us feedback Submission failed. All information submitted is secure. L’embarras du choix - Comment choisir la bonne plate-forme pour Big Data / Hadoop ? Cette année, le big data est devenu un sujet pertinent dans beaucoup d’entreprises.

L’embarras du choix - Comment choisir la bonne plate-forme pour Big Data / Hadoop ?

Bien qu'il n’y ait pas de définition standard du terme “big data”, Hadoop est de facto un standard pour le traitement big data. Presque tous les grands éditeurs de logiciels tels que IBM, Oracle, SAP et même Microsoft utilisent Hadoop. Cependant une fois que vous avez choisi d’utiliser Hadoop, la première question à se poser est de savoir comment débuter et quel produit choisir pour vos traitements big data. Plusieurs alternatives existent pour installer une version d’Hadoop et réaliser des traitements de ces données.

Cet article présente ces différentes alternatives et recommande à quel moment les utiliser. Big Data : La jungle des différentes distributions open source Hadoop. En 2004, Google a publié un article présentant son algorithme de calcul à grande échelle, MapReduce, ainsi que son système de fichier en cluster, GoogleFS.

Big Data : La jungle des différentes distributions open source Hadoop

Rapidement (2005) une version open source voyait le jour sous l’impulsion de Yahoo. Aujourd’hui il est difficile de se retrouver dans la jungle d’Hadoop pour les raisons suivantes : Ce sont des technologies jeunes.Beaucoup de buzz et de communication de sociétés qui veulent prendre le train Big Data en marche.Des raccourcis sont souvent employés (non MapReduce ou un équivalent n’est pas suffisant pour parler d’Hadoop).Beaucoup d’acteurs différents (des mastodontes, des spécialistes du web, des start-up, …). Dans une distribution Hadoop on va retrouver les éléments suivants (ou leur équivalence) HDFS, MapReduce, ZooKeeper, HBase, Hive, HCatalog, Oozie, Pig, Sqoop, … Dans cet article on évoquera les trois distributions majeures que sont Cloudera, HortonWorks et MapR, toutes les trois se basant sur Apache Hadoop.

Hadoop : Framework Big Data. Hadoop est un framework open source écrit en Java et géré par la fondation Apache.

Hadoop : Framework Big Data

Hadoop en 5 questions. Quel est le principe de fonctionnement de cette infrastructure de traitement massif de données ?

Hadoop en 5 questions

Quelles sont ses principales briques ? Panorama des solutions de big data. Big Data. Hadoop Hadoop est aujourd’hui la plateforme de référence permettant l’écriture d’application de stockage et de traitement de données distribuées en mode batch.

Big Data

Lire la fiche complètetop Hive A l’image de Pig, Hive permet l’écriture de tâche de traitement de données aux développeurs ne maîtrisant pas Java. Là où Pig définit un langage procédural permettant d’exploiter le cluster, Hive permet de définir des tables structurées de type SQL et de les alimenter avec des données provenant soit du cluster, soit de sources externes.

Lire la fiche complètetop. Welcome to Apache™ Hadoop®! The Apache Cassandra Project. MongoDB. Welcome to Apache Pig! La fondation Apache publie Hadoop 2. L'architecture Yarn de Hadoop 2.

La fondation Apache publie Hadoop 2

Crédit Photo: D.R Après la version preview en juin, l'Apache Software Foundation a publié la version définitive de Hadoop 2, la distribution pour le traitement du big data. L'Apache Software Foundation a dévoilé Hadoop 2, la dernière version du logiciel Open Source de traitement big data. Savoirs en multimédia. Big Data : les 5 mesures du plan de soutien dévoilées. Architectures. 30 outils gratuits pour visualiser et analyser les données. Comment le « big data » rebat les cartes de la pub en ligne. Captain Dash, futur super héros du Big Data. J’ai rencontré Gilles Babinet un soir d’avril pour évoquer avec lui sa nouvelle aventure : Captain Dash.

Captain Dash, futur super héros du Big Data

Armé de ma tablette (sur laquelle j’avais préalablement chargé l’application idoine), j’ai découvert, démonstration à l’appui, qu’un Captain Dash pouvait en cacher un autre… « L’institutionnel c’est bien, mais la start-up c’est génial ! » Gilles Babinet, vous le connaissez déjà (voir la superbe transcription d’une de ses dernières présentations sur la révolution de la société par Internet, retranscrite par Michael Tartar). C’est qu’il est fort présent pour défendre et vendre le secteur digital français, non seulement en France, mais en Europe. C’est ainsi que l’ex fondateur de Eyeka est reparti à l’aventure, et ce n’est pas un vain mot : « cela représente 2 ans et demi de développement » a-t-il dit. [mon “univers” statistique avec Captain Dash]

Big Data et Technologies du Langage. De la “Data Science” à l’infovisualisation (1/2) : qu’est-ce qu’un data scientist. Par Rémi Sussan le 06/03/13 | 7 commentaires | 2,637 lectures | Impression Comment articuler “Science des données” et visualisation ?

De la “Data Science” à l’infovisualisation (1/2) : qu’est-ce qu’un data scientist

C’est à cette question que se sont attaqués une multitude d’experts lors de la journée d’étude PraTIC du 25 février (conçue et organisée par Etienne-Armand Amato, Etienne Perény et Jean-Christophe Plantin pour Gobelins, l’Ecole de l’Image, en partenariat avec le laboratoire Paragraphe de l’Université Paris 8 et l’Observatoire des mondes numériques en sciences humaines). Car il s’agit de deux domaines indissociables, mais, comme l’a expliqué Jean-Christophe Plantin (@JCPlantin, blog), souvent présentés de manière séparée. Pourtant, avant toute cartographie, la sélection et la préparation des données s’imposent. La science des données est-elle une science ? De la “Data Science” à l’infovisualisation (2/2) : rendre tangible la friction des données. Par Rémi Sussan le 12/03/13 | 2 commentaires | 1,618 lectures | Impression L’après-midi de la journée d’études PraTic a continué (voir la première partie) avec une intervention passionnante de Paul Edwards, professeur de sciences de l’information et d’histoire à l’université du Michigan, qui s’est penché sur les aspects “matériels” de la collection de données, ce qu’il appelle la “friction des données”.

De la “Data Science” à l’infovisualisation (2/2) : rendre tangible la friction des données

Car celles-ci impliquent un coût en transport, en énergie, qui peut ralentir l’analyse. Il rappelle que dans les années 50, le nombre de cartes perforées au centre de données météorologiques américain était si important qu’on croyait que le bâtiment risquait de s’effondrer sous le poids ! Bases de données graphes : un tour d’horizon. Dans un précédent article, nous avons introduit quelques concepts à propos des graphes, et les avons illustrés par deux exemples en utilisant la base de données graphe Neo4j.

Au cours de ces dernières années, de nombreuses compagnies ont développé leur solution de base de données graphe, en tant qu’éditeur comme Neo Technology avec Neo4j, Objectivity avec InfiniteGraph ou encore Sparsity avec dex*, ou en développant leur propre solution pour l’intégrer à leur application, comme LinkedIn ou Twitter. Il est donc assez difficile de s’y retrouver dans ce paysage riche, qui continue à évoluer très vite. DBpediaFr - Accueil. Extraction de données structurées des pages de Wikipédia en français. Présentation du projet. DBpedia. DBpédia en français. Google BigQuery ou Google Cloud SQL.

Google propose deux services d'hébergement de bases de données en ligne, Google Big Query et Google Cloud SQL. Voici un article donnant les grandes différences entre ces deux services pour vous permettre de savoir vers quoi vous orienter et ensuite poursuivre votre recherche. Google BigQuery - BigQuery est pensé pour faire des requêtes sur des milliards de lignes. - Ce service est pour l'analyse de données, il est bon pour l'exécution de requêtes sur des grosses quantités de données. BigQuery est un service de type OLAP. ref - Vous ne pouvez pas modifier les données par des requêtes. Vous créez une table vous l'alimentez et après il ne sera pas possible par une requête de modifier ou supprimer telle ou telle valeur.

Il faudra utiliser la table en l'état sinon on la recrée. - Vous pouvez ajouter des données. Google Cloud SQL pour google apps scripts et essai gratuit. Hadoop. Un article de Wikipédia, l'encyclopédie libre. Apache™ Hadoop® Ontologie (informatique) Un article de Wikipédia, l'encyclopédie libre. Ontologies - Applications sémantiques.

Web sémantique RDF Data & Metadata. Web Services APIs d'Interconnexion.