background preloader

Hadoop — Wikipédia

Hadoop — Wikipédia
Un article de Wikipédia, l'encyclopédie libre. Hadoop a été créé par Doug Cutting et fait partie des projets de la fondation logicielle Apache depuis 2009. Historique[modifier | modifier le code] En 2004, Google publie un article présentant son algorithme basé sur des opérations analytiques à grande échelle sur un grand cluster de serveurs, le MapReduce, ainsi que son système de fichier en cluster, le GoogleFS. Doug Cutting, qui travaille à cette époque sur le développement de Apache Lucene et rencontre des problèmes similaires à ceux de la firme de Mountain View, décide alors de reprendre les concepts décrits dans l'article pour développer sa propre version des outils en version Open Source, qui deviendra le projet Hadoop. Architecture[modifier | modifier le code] Hadoop Distributed File System[modifier | modifier le code] Une architecture de machines HDFS (aussi appelée cluster HDFS) repose sur deux types de composants majeurs : MapReduce[modifier | modifier le code] Related:  "Big data" / Data science

MapReduce Les termes « map » et « reduce », et les concepts sous-jacents, sont empruntés aux langages de programmation fonctionnelle utilisés pour leur construction (map et réduction de la programmation fonctionnelle et des langages de programmation tableau). MapReduce permet de manipuler de grandes quantités de données en les distribuant dans un cluster de machines pour être traitées. Ce modèle connaît un vif succès auprès de sociétés possédant d'importants centres de traitement de données telles Amazon.com ou Facebook. Il commence aussi à être utilisé au sein du Cloud computing. De nombreux frameworks ont vu le jour afin d'implémenter le MapReduce. Le plus connu est Hadoop qui a été développé par Apache Software Foundation. Présentation[modifier | modifier le code] Un modèle de programmation[modifier | modifier le code] MapReduce est un modèle de programmation popularisé par Google. MapReduce consiste en deux fonctions map() et reduce(). MapReduce possède quelques caractéristiques[3] : Exemple :

MapReduce Un article de Wikipédia, l'encyclopédie libre. Les termes « map » et « reduce », et les concepts sous-jacents, sont empruntés aux langages de programmation fonctionnelle utilisés pour leur construction (map et réduction de la programmation fonctionnelle et des langages de programmation tableau). MapReduce permet de manipuler de grandes quantités de données en les distribuant dans un cluster de machines pour être traitées. Ce modèle connaît un vif succès auprès de sociétés possédant d'importants centres de traitement de données telles Amazon ou Facebook. Présentation[modifier | modifier le code] Un modèle de programmation[modifier | modifier le code] MapReduce est un modèle de programmation popularisé par Google. MapReduce consiste en deux fonctions map() et reduce(). Dans l'étape Map le nœud analyse un problème, le découpe en sous-problèmes, et les délègue à d'autres nœuds (qui peuvent en faire de même récursivement). map(clé1,valeur1) → list(clé2,valeur2) Le MapReduce est apparu en 2004.

Solid-state drive Un article de Wikipédia, l'encyclopédie libre. Pour les articles homonymes, voir SSD et SSHD. Un SSD, pour solid-state drive aussi appelé disque électronique au Québec[1], est un matériel informatique permettant le stockage de données sur de la mémoire flash. Un SSD est matériellement plus solide qu'un disque dur, les plateaux de ces derniers étant de plus en plus souvent en verre depuis 2003[2]. Une tendance apparue en 2012 sur les ordinateurs de salon consiste à mettre le système sur un SSD d'environ 100 Go et les données sur un disque dur dix fois plus gros et de coût similaire. Historique[modifier | modifier le code] Développement des SSD[modifier | modifier le code] L'objet principal d'un SSD à l'heure actuelle est de s'affranchir de trois défauts des disques durs classiques : L'usage de la mémoire flash supprime en théorie le problème des temps d'accès, ramené à l'ordre de 0,1 ms seulement. Ce propos doit toutefois être nuancé par deux points : Carte PCI[modifier | modifier le code]

R (langage de programmation et environnement statistique) Un article de Wikipédia, l'encyclopédie libre. Pour les articles homonymes, voir R. Le logiciel R est considéré par ses créateurs comme étant une exécution de S, avec la sémantique dérivée du langage Scheme. C'est un logiciel libre distribué selon les termes de la licence GNU GPL et disponible sous GNU/Linux, FreeBSD, NetBSD, OpenBSD, Mac OS X et Windows. Une enquête menée par Rexer Analytics auprès de 1 300 analystes retrouve que R est le logiciel le plus souvent utilisé lorsqu'il s'agit d'un travail en entreprise, dans le monde académique, au sein d'organismes publics ou d'ONG et chez les analystes travaillant comme consultants[2]. Face au nombre toujours croissant de paquets (on comptait près de 80 nouveaux paquets d'octobre à décembre 2007[3]), une page offre des regroupements des paquets selon les domaines abordés[4]. L'installation des extensions se fait de la manière suivante : install.packages("nom_du_paquet") Pour pouvoir l'utiliser, il suffit ensuite d'exécuter : ggplot2

BigTable Un article de Wikipédia, l'encyclopédie libre. BigTable est un système de gestion de base de données compressées, haute performance, propriétaire, développé et exploité par Google[1]. Chez Google, BigTable est stockée sur le système de fichiers distribué GoogleFS. Google ne distribue pas sa base de données mais propose une utilisation publique de BigTable via sa plateforme d'application Google App Engine. Sony fait tenir 185 To de données sur une cartouche La prochaine génération de cartouche magnétique de Sony pourra 74 fois plus de données que les LTO-6 actuelles. Crédit Sony Sony a développé une technologie de bande magnétique permettant de stockerjusqu'à 185 To de données sur une cartouche. Les temps sont durs pour la conservation des données sur bandes magnétiques, confrontées à la concurrence acharnée du stockage sur disques durs. Ainsi, en parvenant à créer une couche de fines particules magnétiques d'une taille moyenne de 7,7 nanomètres, le constructeur japonais a développé une technologie de stockage sur bande magnétique d'une densité 74 fois supérieure à celle que l'on trouve actuellement sur le marché, indique Sony. En comparaison, la technologie LTO-6 (Linear Tape-Open), la dernière génération de stockage sur bande magnétique, a une densité de 2,5 téraoctets par cartouche (non compressée).

Science des données Les différentes disciplines de la science des données. En termes généraux, la science des données est l'extraction de connaissance d'ensembles de données[1],[2]. La science des données est un domaine interdisciplinaire qui utilise des méthodes, des processus, des algorithmes et des systèmes scientifiques pour extraire des connaissances et des idées de nombreuses données structurelles et non structurées. Elle est souvent associée aux Big Data et à l'analyse des données. Elle utilise des techniques et des théories tirées de nombreux domaines dans le contexte des mathématiques, des statistiques, de l'informatique, de la théorie et des technologies de l'information. La science des données (en anglais data science[4]) est une discipline qui s'appuie sur des outils mathématiques, de statistiques, d'informatique (cette science est principalement une « science des données numériques »[5]) et de visualisation des données. Objectifs[modifier | modifier le code] Histoire[modifier | modifier le code]

22 outils gratuits pour visualiser et analyser les données (1ère partie) Vous avez des données à explorer ? Voici quelques outils qui pourront vous être utiles pour les transformer en informations et en graphiques attrayants. Pour faire parler des données, rien ne vaut une panoplie d'outils de visualisation graphique. Il en existe de nombreux, notamment destinés aux professionnels versés dans l'analyse statistique. Computerworld souligne que la correction des textes se fait simplement. DataWrangler (cliquer ici pour agrandir l'image) Niveau de compétences requis : débutant avancé.Fonctionne sur tout navigateur web.En savoir plus : - Google Refine : comme un tableurIl ressemble à un tableur pour examiner à la fois les données numériques et alphanumériques, mais à l'inverse du tableur, il ne permet pas d'effectuer des calculs. Refine intègre plusieurs algorithmes retrouvant les mots orthographiés différemment mais qui devraient en fait être regroupés. Google Refine (cliquer ici pour agrandir l'image)

DAS, NAS, SAN, kesako ? par Ludovic ROUCOU | Alternance Informatique Cesi Arras Bonjour à tous, vous trouverez ci-dessous un article de Ludovic Roucou qui nous fait un petit topo des technologies de stockages…. Introduction Le stockage des données et leurs exploitations sont au cœur du système d’information d’une entreprise. Pour cela différentes architectures sont possibles, mais quelles sont-elles et laquelle choisir ? I – DAS, NAS, SAN, kesako ? DAS :Direct Attached Storage, ou comme son nom l’indique, méthode de connexion où la baie de disque est directement connectée sur un serveur NAS :Network Attached Storage, via cette méthode on distingue la connexion d’une baie de stockage directement sur le réseau. SAN :Storage Area Network , on reste sur les baies de stockage connectées au réseau, mais cette fois ce réseau leur est dédié. II – lequel choisir ? A – DAS (Direct Attached Storage) Dans le cadre d’un réseau d’entreprise on comprend vite les limitations induites par une architecture DAS : Le DAS tend à disparaitre au sein des stockages d’entreprises. B – NAS et SAN

Philippe Naïm : "Nous créons de l'intelligence collective entre les métiers" En charge du développement et de la stratégie de Safran Analytics, Philippe Naïm explique comment Safran veut utiliser le big data pour créer de la valeur sur les marchés du groupe : l'aéronautique, la défense et sécurité. Quel est le rôle de Safran Analytics au sein du groupe ? Safran Analytics a été lancé en janvier. Notre objectif est de faire des données de Safran une richesse. Notre structure est complètement transversale. Nous pouvons travailler sur les RH comme sur l'industrie. Pourquoi avoir mis en place une organisation transversale et non dédiée à chaque business unit. Notre démarche est déjà de commencer à acquérir cette compétence. Quel type de données avez-vous à disposition ? Ce sont des données internes et externes.

D3.js - Data-Driven Documents IBM et Fujifilm inventent une bande de stockage ultradense pour le big data Les chercheurs d'IBM testent leur prototype de bande magnétique ultradense. Crédit IBM Grâce à la technologie développée par IBM et Fujifilm, il sera possible de stocker jusqu'à 154 To de données sur les cartouches LTO à bande. Anticipant les futurs besoins du big data en terme de stockage, IBM et Fujifilm se sont associés pour développer une bande magnétique ultradense : leur prototype, annoncé pendant la conférence IBM Edge 2014 qui se tient cette semaine à Las Vegas (19-23 mai), est capable de stocker 85,9 milliards de bits de données par pouce carré. Cela signifie qu'avec ce type de bande, une cartouche LTO standard pourrait stocker jusqu'à 154 téraoctets de données non compressées, contre 2,5 téraoctets avec les cartouches LTO version 6 actuelles. La technologie de stockage sur bande magnétique est loin d'être obsolète. Une tête de lecture de 90 nanomètes Les chercheurs ont développé différentes techniques pour mettre toujours plus de données sur les bandes magnétiques.

Related: