background preloader

Hadoop

Hadoop
Un article de Wikipédia, l'encyclopédie libre. Hadoop a été créé par Doug Cutting et fait partie des projets de la fondation logicielle Apache depuis 2009. Historique[modifier | modifier le code] En 2004, Google publie un article présentant son algorithme basé sur des opérations analytiques à grande échelle sur un grand cluster de serveurs, le MapReduce, ainsi que son système de fichier en cluster, le GoogleFS. Doug Cutting, qui travaille à cette époque sur le développement de Apache Lucene et rencontre des problèmes similaires à ceux de la firme de Mountain View, décide alors de reprendre les concepts décrits dans l'article pour développer sa propre version des outils en version Open Source, qui deviendra le projet Hadoop. Architecture[modifier | modifier le code] Hadoop Distributed File System[modifier | modifier le code] Une architecture de machines HDFS (aussi appelée cluster HDFS) repose sur deux types de composants majeurs : MapReduce[modifier | modifier le code]

http://fr.wikipedia.org/wiki/Hadoop

Related:  VeilleBig Data - Gestion données de masse"Big data" / Data science

Outils de création interactive et transmedia : Ecriture, intégration, publication et distribution Benjamin Hoguet, spécialiste de l’écriture interactive et de la narration transmédia (utilisation de plusieurs médias pour développer des univers narratifs) sur la plate-forme Medium des articles d’analyse et méthodologique pour réaliser ce type de projets dans une collection intitulée Interactivité & Transmedia. Guide du storytelling L’ensemble de ces articles est regroupé sous l’appellation : le guide du nouveau storyteller au sein du site Internet de l’auteur. Outils pour concevoir et écrire avec le numérique Pour les animateurs multimédia en EPN, formateurs, enseignants et personnes souhaitant créer des histoires avec le numérique, les ressources fournies par Benjamin Hoguet s’avèrent très pertinentes.

De la “Data Science” à l’infovisualisation (2/2) : rendre tangible la friction des données Par Rémi Sussan le 12/03/13 | 2 commentaires | 1,618 lectures | Impression L’après-midi de la journée d’études PraTic a continué (voir la première partie) avec une intervention passionnante de Paul Edwards, professeur de sciences de l’information et d’histoire à l’université du Michigan, qui s’est penché sur les aspects “matériels” de la collection de données, ce qu’il appelle la “friction des données”. Car celles-ci impliquent un coût en transport, en énergie, qui peut ralentir l’analyse. Il rappelle que dans les années 50, le nombre de cartes perforées au centre de données météorologiques américain était si important qu’on croyait que le bâtiment risquait de s’effondrer sous le poids ! A cette friction des données correspond celle des “métadonnées”, qui racontent comment les données ont été construites.

MapReduce Les termes « map » et « reduce », et les concepts sous-jacents, sont empruntés aux langages de programmation fonctionnelle utilisés pour leur construction (map et réduction de la programmation fonctionnelle et des langages de programmation tableau). MapReduce permet de manipuler de grandes quantités de données en les distribuant dans un cluster de machines pour être traitées. Ce modèle connaît un vif succès auprès de sociétés possédant d'importants centres de traitement de données telles Amazon.com ou Facebook. Cartographies des outils du formateur Cartographiesdes outils numériquesen formation Boîte à outils du formateurinnovant carte "Enrichir son courssur le LMS MOODLE" Outils numériques pour les élèves et les profs Outils numériques pour projets d'élèves

De la “Data Science” à l’infovisualisation (1/2) : qu’est-ce qu’un data scientist Par Rémi Sussan le 06/03/13 | 7 commentaires | 2,637 lectures | Impression Comment articuler “Science des données” et visualisation ? C’est à cette question que se sont attaqués une multitude d’experts lors de la journée d’étude PraTIC du 25 février (conçue et organisée par Etienne-Armand Amato, Etienne Perény et Jean-Christophe Plantin pour Gobelins, l’Ecole de l’Image, en partenariat avec le laboratoire Paragraphe de l’Université Paris 8 et l’Observatoire des mondes numériques en sciences humaines). Car il s’agit de deux domaines indissociables, mais, comme l’a expliqué Jean-Christophe Plantin (@JCPlantin, blog), souvent présentés de manière séparée.

R (langage de programmation et environnement statistique) Un article de Wikipédia, l'encyclopédie libre. Pour les articles homonymes, voir R. Le logiciel R est considéré par ses créateurs comme étant une exécution de S, avec la sémantique dérivée du langage Scheme. C'est un logiciel libre distribué selon les termes de la licence GNU GPL et disponible sous GNU/Linux, FreeBSD, NetBSD, OpenBSD, Mac OS X et Windows. Une enquête menée par Rexer Analytics auprès de 1 300 analystes retrouve que R est le logiciel le plus souvent utilisé lorsqu'il s'agit d'un travail en entreprise, dans le monde académique, au sein d'organismes publics ou d'ONG et chez les analystes travaillant comme consultants[2]. Face au nombre toujours croissant de paquets (on comptait près de 80 nouveaux paquets d'octobre à décembre 2007[3]), une page offre des regroupements des paquets selon les domaines abordés[4].

/chapter: Webmail-And-Pgp / Votre sécurité sur internet - Notions de base Attention ! FireGPG n'est plus développé depuis 2010 ! Cet article est sans doute obsolète, ou à fortement adapter. (je n'ai pas trouvé d'équivalement lors d'une recherche rapide sur FF. Captain Dash, futur super héros du Big Data J’ai rencontré Gilles Babinet un soir d’avril pour évoquer avec lui sa nouvelle aventure : Captain Dash. Armé de ma tablette (sur laquelle j’avais préalablement chargé l’application idoine), j’ai découvert, démonstration à l’appui, qu’un Captain Dash pouvait en cacher un autre… « L’institutionnel c’est bien, mais la start-up c’est génial ! » Science des données Les différentes disciplines de la science des données. En termes généraux, la science des données est l'extraction de connaissance d'ensembles de données[1],[2]. Elle emploie des techniques et des théories tirées de plusieurs autres domaines plus larges des mathématiques, analyse, optimisation et statistique principalement, la théorie de l'information et la technologie de l'information, notamment le traitement de signal, des modèles probabilistes, l'apprentissage automatique, l'apprentissage statistique, la programmation informatique, l'ingénierie de données, la reconnaissance de formes et l'apprentissage, la visualisation, l'analytique prophétique, la modélisation d'incertitude, le stockage de données, la géo-visualisation[3], la compression de données et le calcul à haute performance.

L'Atelier : Accelerating Innovation Augmenter l’homme par la technologie pour le libérer du joug d’un corps encore trop vulnérable, tel est, notamment, le projet de Didier Coeurnelle, vice-président de l’Association Française Transhumaniste, que nous avons rencontré. Qui n’a jamais rêvé de traverser les décennies, les siècles et les millénaires sans peur ni de la mort ni de la maladie ? Qui n’a jamais souhaité un jour se prémunir de notre faiblesse essentielle ? Le rêve transhumaniste dessine un monde où l’homme, libéré des maladies, serait capable de vivre près de 200 ans.

DBpediaFr - Accueil Extraction de données structurées des pages de Wikipédia en français. Présentation du projet DBpedia en français est le chapitre francophone de DBpedia, il s'inscrit dans l'effort d'internationalisation de DBpedia dont le but est de maintenir des données structurées extraites de différents chapitres de Wikipedia. Le développement de DBpedia en français est mené dans le cadre de la plateforme Sémanticpédia dont les partenaires sont : Philippe Naïm : "Nous créons de l'intelligence collective entre les métiers" En charge du développement et de la stratégie de Safran Analytics, Philippe Naïm explique comment Safran veut utiliser le big data pour créer de la valeur sur les marchés du groupe : l'aéronautique, la défense et sécurité. Quel est le rôle de Safran Analytics au sein du groupe ? Safran Analytics a été lancé en janvier.

Related: