background preloader

Big Data

Facebook Twitter

Is Big Data Still a Thing? (The 2016 Big Data Landscape) – Matt Turck. In a tech startup industry that loves its shiny new objects, the term “Big Data” is in the unenviable position of sounding increasingly “3 years ago”. While Hadoop was created in 2006, interest in the concept of “Big Data” reached fever pitch sometime between 2011 and 2014.

This was the period when, at least in the press and on industry panels, Big Data was the new “black”, “gold” or “oil”. However, at least in my conversations with people in the industry, there’s an increasing sense of having reached some kind of plateau. 2015 was probably the year when the cool kids in the data world (to the extent there is such a thing) moved on to obsessing over AI and its many related concepts and flavors: machine intelligence, deep learning, etc. Beyond semantics and the inevitable hype cycle, our fourth annual “Big Data Landscape” (scroll down) is a great opportunity to take a step back, reflect on what’s happened over the last year or so and ponder the future of this industry.

Conclusion. NOSQL for Dummies. 9 projets Big Data qui vont marquer 2016. Big Data : comparatif des technos, actualités, conseils... Pour faire face à l'explosion du volume des données, un nouveau domaine technologique a vu le jour : le Big Data. Inventées par les géants du web, ces solutions sont dessinées pour offrir un accès en temps réel à des bases de données géantes. Comment définir le Big Data, et quelle est sa promesse ? Face à l'explosion du volume d'informations, le Big Data vise à proposer une alternative aux solutions traditionnelles de bases de données et d'analyse (serveur SQL, plateforme de Business Intelligence...). Confrontés très tôt à des problématiques de très gros volumes, les géants du web, au premier rang desquels Yahoo (mais aussi Google et Facebook), ont été les premiers à déployer ce type de technologies.

Quelles sont les principales technologies de Big Data ? Elles sont nombreuses. Des infrastructures de serveurs pour distribuer les traitements sur des dizaines, centaines, voire milliers de nœuds. Big Data : premiers pas avec MapReduce, brique centrale d'Hadoop. Le modèle MapReduce est conçu pour lire, traiter et écrire des volumes massifs de données. Des bonnes feuilles issues de l'ouvrage Big Data chez Eni. MapReduce est un modèle de programmation conçu spécifiquement pour lire, traiter et écrire des volumes de données très importants. Un programme Hadoop met généralement en œuvre à la fois des tâches de type map et des tâches de type reduce. MapReduce implémente les fonctionnalités suivantes : Parallélisation automatique des programmes Hadoop. Gestion transparente du mode distribué. Tolérance aux pannes. Plus généralement, MapReduce simplifie grandement la vie du développeur Hadoop, en lui masquant une bonne partie du fonctionnement interne de Hadoop.

Ainsi, lorsqu'il écrit le code du mapper (cf. section suivante), le développeur Hadoop travaille comme s'il ne devait traiter qu'un seul enregistrement. 3. Un programme Hadoop se divise généralement en trois parties : Le mapper est chargé de lire les données stockées sur disque et les traiter. 4. Etc. MapReduce. Les termes « map » et « reduce », et les concepts sous-jacents, sont empruntés aux langages de programmation fonctionnelle utilisés pour leur construction (map et réduction de la programmation fonctionnelle et des langages de programmation tableau). MapReduce permet de manipuler de grandes quantités de données en les distribuant dans un cluster de machines pour être traitées. Ce modèle connaît un vif succès auprès de sociétés possédant d'importants centres de traitement de données telles Amazon.com ou Facebook. Il commence aussi à être utilisé au sein du Cloud computing.

De nombreux frameworks ont vu le jour afin d'implémenter le MapReduce. Le plus connu est Hadoop qui a été développé par Apache Software Foundation. Mais ce framework possède des inconvénients qui réduisent considérablement ses performances notamment en milieu hétérogène. Présentation[modifier | modifier le code] Un modèle de programmation[modifier | modifier le code] MapReduce consiste en deux fonctions map() et reduce().

Votre première installation Hadoop. Cet article est pensé pour vous aider à affronter le baptême du feu : l’installation de la plate-forme. Quelle distribution choisir ? La première question à se poser lorsque l’on choisit sa distribution Hadoop est celle du support. En effet, sur la version packagée par Apache, il est difficile de se procurer un support efficace et digne de ce nom. Les principaux contributeurs au projet Hadoop sont tous salariés d’entreprises offrant un support commercial, mais uniquement sur leur propre distribution. Les trois principaux acteurs de ce marché sont : Cloudera, avec la Cloudera Hadoop Distribution, actuellement en version 4 (CDH4), qui package Hadoop 2.0 ;HortonWorks, qui package Hadoop 1.0.3 ;MapR, qui propose lui aussi une distribution autour de Hadoop 2.

Hormis l’accès à un support, ces distributions offrent toutes un gros effort de packaging de l’écosystème Hadoop, c’est à dire Hadoop en lui même, mais aussi ses satellites, comme HBase, Hive ou encore Pig. Le choix des machines Le monitoring.