background preloader

Hadoop

Hadoop
Un article de Wikipédia, l'encyclopédie libre. Hadoop a été créé par Doug Cutting et fait partie des projets de la fondation logicielle Apache depuis 2009. Historique[modifier | modifier le code] En 2004, Google publie un article présentant son algorithme basé sur des opérations analytiques à grande échelle sur un grand cluster de serveurs, le MapReduce, ainsi que son système de fichier en cluster, le GoogleFS. Doug Cutting, qui travaille à cette époque sur le développement de Apache Lucene et rencontre des problèmes similaires à ceux de la firme de Mountain View, décide alors de reprendre les concepts décrits dans l'article pour développer sa propre version des outils en version Open Source, qui deviendra le projet Hadoop. Architecture[modifier | modifier le code] Hadoop Distributed File System[modifier | modifier le code] Une architecture de machines HDFS (aussi appelée cluster HDFS) repose sur deux types de composants majeurs : MapReduce[modifier | modifier le code]

http://fr.wikipedia.org/wiki/Hadoop

Related:  VeilleBig Data - Gestion données de masseBig dataBig DataTechnologies

Outils de création interactive et transmedia : Ecriture, intégration, publication et distribution Benjamin Hoguet, spécialiste de l’écriture interactive et de la narration transmédia (utilisation de plusieurs médias pour développer des univers narratifs) sur la plate-forme Medium des articles d’analyse et méthodologique pour réaliser ce type de projets dans une collection intitulée Interactivité & Transmedia. Guide du storytelling L’ensemble de ces articles est regroupé sous l’appellation : le guide du nouveau storyteller au sein du site Internet de l’auteur. Outils pour concevoir et écrire avec le numérique Pour les animateurs multimédia en EPN, formateurs, enseignants et personnes souhaitant créer des histoires avec le numérique, les ressources fournies par Benjamin Hoguet s’avèrent très pertinentes.

De la “Data Science” à l’infovisualisation (2/2) : rendre tangible la friction des données Par Rémi Sussan le 12/03/13 | 2 commentaires | 1,618 lectures | Impression L’après-midi de la journée d’études PraTic a continué (voir la première partie) avec une intervention passionnante de Paul Edwards, professeur de sciences de l’information et d’histoire à l’université du Michigan, qui s’est penché sur les aspects “matériels” de la collection de données, ce qu’il appelle la “friction des données”. Car celles-ci impliquent un coût en transport, en énergie, qui peut ralentir l’analyse. Il rappelle que dans les années 50, le nombre de cartes perforées au centre de données météorologiques américain était si important qu’on croyait que le bâtiment risquait de s’effondrer sous le poids ! A cette friction des données correspond celle des “métadonnées”, qui racontent comment les données ont été construites.

MapReduce Les termes « map » et « reduce », et les concepts sous-jacents, sont empruntés aux langages de programmation fonctionnelle utilisés pour leur construction (map et réduction de la programmation fonctionnelle et des langages de programmation tableau). MapReduce permet de manipuler de grandes quantités de données en les distribuant dans un cluster de machines pour être traitées. Ce modèle connaît un vif succès auprès de sociétés possédant d'importants centres de traitement de données telles Amazon.com ou Facebook. Portail billettique - Les développements liés à Transmodel 6 janvier 2012 Dans cette partie sont présentés les développements normatifs basés sur la norme TRANSMODEL, ainsi que des exemples d’implémentations sur le terrain : Présentation des développements normatifs : IFOPT : extension de la norme NeTEx : interfaces d’échange inter-systèmes sur l’offre théorique SIRI : interfaces d’échange inter-systèmes sur l’offre temps réel

Solid-state drive Un article de Wikipédia, l'encyclopédie libre. Pour les articles homonymes, voir SSD et SSHD. Un SSD, pour solid-state drive aussi appelé disque électronique au Québec[1], est un matériel informatique permettant le stockage de données sur de la mémoire flash. Un SSD est matériellement plus solide qu'un disque dur, les plateaux de ces derniers étant de plus en plus souvent en verre depuis 2003[2]. Cette spécificité lui permet une résistance aux chocs et aux vibrations bien plus importante que les disques mécaniques.

Cartographies des outils du formateur Cartographiesdes outils numériquesen formation Boîte à outils du formateurinnovant carte "Enrichir son courssur le LMS MOODLE" Outils numériques pour les élèves et les profs Outils numériques pour projets d'élèves De la “Data Science” à l’infovisualisation (1/2) : qu’est-ce qu’un data scientist Par Rémi Sussan le 06/03/13 | 7 commentaires | 2,637 lectures | Impression Comment articuler “Science des données” et visualisation ? C’est à cette question que se sont attaqués une multitude d’experts lors de la journée d’étude PraTIC du 25 février (conçue et organisée par Etienne-Armand Amato, Etienne Perény et Jean-Christophe Plantin pour Gobelins, l’Ecole de l’Image, en partenariat avec le laboratoire Paragraphe de l’Université Paris 8 et l’Observatoire des mondes numériques en sciences humaines). Car il s’agit de deux domaines indissociables, mais, comme l’a expliqué Jean-Christophe Plantin (@JCPlantin, blog), souvent présentés de manière séparée.

R (langage de programmation et environnement statistique) Un article de Wikipédia, l'encyclopédie libre. Pour les articles homonymes, voir R. Le logiciel R est considéré par ses créateurs comme étant une exécution de S, avec la sémantique dérivée du langage Scheme. C'est un logiciel libre distribué selon les termes de la licence GNU GPL et disponible sous GNU/Linux, FreeBSD, NetBSD, OpenBSD, Mac OS X et Windows. Une enquête menée par Rexer Analytics auprès de 1 300 analystes retrouve que R est le logiciel le plus souvent utilisé lorsqu'il s'agit d'un travail en entreprise, dans le monde académique, au sein d'organismes publics ou d'ONG et chez les analystes travaillant comme consultants[2]. Face au nombre toujours croissant de paquets (on comptait près de 80 nouveaux paquets d'octobre à décembre 2007[3]), une page offre des regroupements des paquets selon les domaines abordés[4].

Fondamentaux pour le Big Data Par rapport à ce cours Le big data offre de nouvelles opportunités d’emplois au sein des entreprises et des administrations. De nombreuses formations préparant à ces opportunités de métiers existent. Le suivi de ces formations nécessite des connaissances de base en statistiques et en informatique que ce MOOC vous propose d’acquérir dans les domaines de l’analyse, algèbre, probabilités, statistiques, programmation Python et bases de données. D’une part, les bases de données relationnelles ne sont pas toujours adaptées aux systèmes de données massives qui sont déployées dans les contextes big data ; ce MOOC vous explique pourquoi. D’autre part, le langage Python est un langage très utilisé dans le domaine du traitement des masses de données.

Sony fait tenir 185 To de données sur une cartouche La prochaine génération de cartouche magnétique de Sony pourra 74 fois plus de données que les LTO-6 actuelles. Crédit Sony Sony a développé une technologie de bande magnétique permettant de stockerjusqu'à 185 To de données sur une cartouche. Les temps sont durs pour la conservation des données sur bandes magnétiques, confrontées à la concurrence acharnée du stockage sur disques durs. Mais voilà que Sony pourrait bien redorer le blason de cette technologie qui équipe encore les datacenters pour l'archivage de données froides.

/chapter: Webmail-And-Pgp / Votre sécurité sur internet - Notions de base Attention ! FireGPG n'est plus développé depuis 2010 ! Cet article est sans doute obsolète, ou à fortement adapter. (je n'ai pas trouvé d'équivalement lors d'une recherche rapide sur FF. Captain Dash, futur super héros du Big Data J’ai rencontré Gilles Babinet un soir d’avril pour évoquer avec lui sa nouvelle aventure : Captain Dash. Armé de ma tablette (sur laquelle j’avais préalablement chargé l’application idoine), j’ai découvert, démonstration à l’appui, qu’un Captain Dash pouvait en cacher un autre… « L’institutionnel c’est bien, mais la start-up c’est génial ! »

Related:  Technos