background preloader

MapReduce

MapReduce
Les termes « map » et « reduce », et les concepts sous-jacents, sont empruntés aux langages de programmation fonctionnelle utilisés pour leur construction (map et réduction de la programmation fonctionnelle et des langages de programmation tableau). MapReduce permet de manipuler de grandes quantités de données en les distribuant dans un cluster de machines pour être traitées. Ce modèle connaît un vif succès auprès de sociétés possédant d'importants centres de traitement de données telles Amazon.com ou Facebook. Il commence aussi à être utilisé au sein du Cloud computing. De nombreux frameworks ont vu le jour afin d'implémenter le MapReduce. Le plus connu est Hadoop qui a été développé par Apache Software Foundation. Présentation[modifier | modifier le code] Un modèle de programmation[modifier | modifier le code] MapReduce est un modèle de programmation popularisé par Google. MapReduce consiste en deux fonctions map() et reduce(). MapReduce possède quelques caractéristiques[3] : Exemple :

https://fr.wikipedia.org/wiki/MapReduce

Related:  Big dataBig Databases de donnéesData Viz

R (langage de programmation et environnement statistique) Un article de Wikipédia, l'encyclopédie libre. Pour les articles homonymes, voir R. Le logiciel R est considéré par ses créateurs comme étant une exécution de S, avec la sémantique dérivée du langage Scheme. C'est un logiciel libre distribué selon les termes de la licence GNU GPL et disponible sous GNU/Linux, FreeBSD, NetBSD, OpenBSD, Mac OS X et Windows. Votre première installation Hadoop Cet article est pensé pour vous aider à affronter le baptême du feu : l’installation de la plate-forme. Quelle distribution choisir ? La première question à se poser lorsque l’on choisit sa distribution Hadoop est celle du support. En effet, sur la version packagée par Apache, il est difficile de se procurer un support efficace et digne de ce nom. Les principaux contributeurs au projet Hadoop sont tous salariés d’entreprises offrant un support commercial, mais uniquement sur leur propre distribution.

Big Data : comparatif des technos, actualités, conseils... Pour faire face à l'explosion du volume des données, un nouveau domaine technologique a vu le jour : le Big Data. Inventées par les géants du web, ces solutions sont dessinées pour offrir un accès en temps réel à des bases de données géantes. Comment définir le Big Data, et quelle est sa promesse ? Face à l'explosion du volume d'informations, le Big Data vise à proposer une alternative aux solutions traditionnelles de bases de données et d'analyse (serveur SQL, plateforme de Business Intelligence...). Confrontés très tôt à des problématiques de très gros volumes, les géants du web, au premier rang desquels Yahoo (mais aussi Google et Facebook), ont été les premiers à déployer ce type de technologies.

Science des données Un article de Wikipédia, l'encyclopédie libre. En termes généraux, la science des données est l'extraction de connaissance d'ensembles de données[1],[2]. Elle emploie des techniques et des théories tirées de plusieurs autres domaines plus larges des mathématiques, la statistique principalement, la théorie de l'information et la technologie de l'information, notamment le traitement de signal, des modèles probabilistes, l'apprentissage automatique, l'apprentissage statistique, la programmation informatique, l'ingénierie de données, la reconnaissance de formes et l'apprentissage, la visualisation, l'analytique prophétique, la modélisation d'incertitude, le stockage de données, la compression de données et le calcul à haute performance. Les méthodes qui s'adaptent aux données de masse sont particulièrement intéressantes dans la science des données, bien que la discipline ne soit généralement pas considérée comme limitée à ces données. Les différentes disciplines de la sciences des données

Big Data : premiers pas avec MapReduce, brique centrale d'Hadoop Le modèle MapReduce est conçu pour lire, traiter et écrire des volumes massifs de données. Des bonnes feuilles issues de l'ouvrage Big Data chez Eni. MapReduce est un modèle de programmation conçu spécifiquement pour lire, traiter et écrire des volumes de données très importants. Un programme Hadoop met généralement en œuvre à la fois des tâches de type map et des tâches de type reduce. MapReduce implémente les fonctionnalités suivantes : Parallélisation automatique des programmes Hadoop. Watch_Dogs WeAreData Dans Watch_Dogs, la ville de Chicago est gérée par le ctOS, un système de contrôle informatisé hautement perfectionné. Ce réseau utilise les données qui lui sont transmises pour contrôler l’ensemble des infrastructures urbaines et résoudre les problèmes complexes liés à la circulation routière, la lutte contre la délinquance, la gestion de l’électricité, etc. Mais aujourd’hui, cette situation n’a plus rien de fictif : les villes « intelligentes » sont une réalité. Chaque jour, une quantité incalculable de données sont recueillies et traitées avant d’être rendues publiques et accessibles à tous.

Hadoop — Wikipédia Un article de Wikipédia, l'encyclopédie libre. Hadoop a été créé par Doug Cutting et fait partie des projets de la fondation logicielle Apache depuis 2009. Historique[modifier | modifier le code] En 2004, Google publie un article présentant son algorithme basé sur des opérations analytiques à grande échelle sur un grand cluster de serveurs, le MapReduce, ainsi que son système de fichier en cluster, le GoogleFS. Doug Cutting, qui travaille à cette époque sur le développement de Apache Lucene et rencontre des problèmes similaires à ceux de la firme de Mountain View, décide alors de reprendre les concepts décrits dans l'article pour développer sa propre version des outils en version Open Source, qui deviendra le projet Hadoop.

Philippe Naïm : "Nous créons de l'intelligence collective entre les métiers" En charge du développement et de la stratégie de Safran Analytics, Philippe Naïm explique comment Safran veut utiliser le big data pour créer de la valeur sur les marchés du groupe : l'aéronautique, la défense et sécurité. Quel est le rôle de Safran Analytics au sein du groupe ? Safran Analytics a été lancé en janvier. Notre objectif est de faire des données de Safran une richesse. Notre structure est complètement transversale.

Comment les algos nous rendent tous débiles N’avez-vous jamais eu l’impression de tourner en rond sur le Net ? Un peu comme un poisson rouge à qui on aurait filé l’océan et qui ne voudrait pas quitter son bocal. Chaque jour, je me rends sur les mêmes sites, réseaux sociaux, les mêmes apps... bien conscient, pourtant, de l’immensité de la Toile et ses services connexes connectés. Khartis - cartographie thématique Le contenu de ce site internet est fourni par : Sciences Po 27 rue Saint-Guillaume 75337 Paris Cedex 07 Tel. : 01 45 49 50 50 Fax. : 01 42 22 31 26 webmestre@sciencespo.fr Directeur de la publication : Frédéric Mion, administrateur de la Fondation nationale des sciences politiques et directeur de l’Institut d’études politiques de Paris. Hébergement : Ce site internet est hébergé par la Fondation Nationale des Sciences Politiques (FNSP), Sciences Po - Direction des Systèmes d'Information Code APE : 803Z 27, rue saint Guillaume 75337 Paris cedex 07

Plus de Big Data ? Moins d'Anonymat. L’anonymat devient une impossibilité mathématique. C’est ce que nous explique Patrick Tucker dans Technologie Review , la revue scientifique en ligne du MIT. En revenant sur la directive européenne de 1995 sur la vie privée , il met l’accent sur l’évolution de la notion de « donnée personnelle » depuis 18 ans. La quantité de données créée chaque année tend à redéfinir cette notion et de fait, celle de l’anonymat. Visualisation de données maison, nos outils préférés Visualisation de données maison, nos outils préférés Les warlogs de Wikileaks (_The Guardian_) Quels sont les outils de visualisation disponibles sur le Net qui sont faciles à utiliser – et gratuits ?

vous Romain Chaumais from Paris ? Du "data déluge" au "big data" BigData Ysance from Jean Michel Billaut on Vimeo. (quelques petites coupures de son dans l'e-interview de Romain, mais c'est écoutable... Quelques conseils : il vaut mieux être en Ethernet sur la box qu'en wifi, éviter le contre-jour, mettre une pub sur votre entreprise derrière vous... Une maquilleuse n'est pas indispensable, par contre quand on aura la fibre, faudra y penser..)

Related: