background preloader

Welcome to Apache™ Hadoop®!

Welcome to Apache™ Hadoop®!

http://hadoop.apache.org/

Related:  VeilleBig Data - Gestion données de masseOpen DataBig dataData

Hadoop Un article de Wikipédia, l'encyclopédie libre. Hadoop a été créé par Doug Cutting et fait partie des projets de la fondation logicielle Apache depuis 2009. Historique[modifier | modifier le code] En 2004, Google publie un article présentant son algorithme basé sur des opérations analytiques à grande échelle sur un grand cluster de serveurs, le MapReduce, ainsi que son système de fichier en cluster, le GoogleFS. Doug Cutting, qui travaille à cette époque sur le développement de Apache Lucene et rencontre des problèmes similaires à ceux de la firme de Mountain View, décide alors de reprendre les concepts décrits dans l'article pour développer sa propre version des outils en version Open Source, qui deviendra le projet Hadoop. Architecture[modifier | modifier le code]

Hadoop en 5 questions Quel est le principe de fonctionnement de cette infrastructure de traitement massif de données ? Quelles sont ses principales briques ? Quid des premières applications ? Décryptage. Presse - Article - Les journalistes français sur Twitter vus comme un graphe En suivant le paradigme méthodologique des Digital Methods, développé notamment par Richard Rogers à l’université d’Amsterdam (2009), nous pouvons envisager un groupe social qui s’active sur l’internet comme un graphe. Dans le cas qui nous intéresse ici, les nœuds du graphe sont les comptes des journalistes français sur Twitter et les connections entre eux sont constitués par des actions de communication comme les retweets et les mentions. Les premiers consistent à rediffuser tel quel un message d’un autre utilisateur. Les secondes consistent à inclure le nom d’un compte dans un message diffusé.

Plus de Big Data ? Moins d'Anonymat. L’anonymat devient une impossibilité mathématique. C’est ce que nous explique Patrick Tucker dans Technologie Review , la revue scientifique en ligne du MIT. En revenant sur la directive européenne de 1995 sur la vie privée , il met l’accent sur l’évolution de la notion de « donnée personnelle » depuis 18 ans. La quantité de données créée chaque année tend à redéfinir cette notion et de fait, celle de l’anonymat. Un travailleur américain produit 5.000 mégaoctets de données par jour, selon l’article, soit autant d’informations - très - personnelles à exploiter et qui rendent l’ anonymat « algorithmiquement impossible ». Comment créer une application données ouvertes Ceci et un billet écrit par Stéphane Guidoin, créateur de ZoneCone.ca. Se lancer dans une application “open data” est souvent plus facile qu’on croit: on commence par jouer avec des données, mettre en place une base de données, créer quelques scripts et on est parti sans même l’avoir planifié! Mais la suite nécessite de se poser quelques questions… Les technicalités Tout ce qui tourne autour des données ouvertes est souvent perçu comme un travail de geek.

Outils de création interactive et transmedia : Ecriture, intégration, publication et distribution Benjamin Hoguet, spécialiste de l’écriture interactive et de la narration transmédia (utilisation de plusieurs médias pour développer des univers narratifs) sur la plate-forme Medium des articles d’analyse et méthodologique pour réaliser ce type de projets dans une collection intitulée Interactivité & Transmedia. Guide du storytelling L’ensemble de ces articles est regroupé sous l’appellation : le guide du nouveau storyteller au sein du site Internet de l’auteur. Outils pour concevoir et écrire avec le numérique

Hadoop : Framework Big Data Hadoop est un framework open source écrit en Java et géré par la fondation Apache. Il a été conçu pour réaliser des traitements de volumes de données en masse. Le principe de fonctionnement d'HadoopHadoop fonctionne sur le principe des grilles de calcul consistant à répartir l'exécution d'un traitement intensif de données sur plusieurs noeuds ou grappes de serveurs. Origines et principales briques Google a été à l'origine de cette plate-forme pour répondre à ses besoins d'indexation d'informations. Un état des lieux de l’Open Data David Eaves, conseiller auprès de plusieurs institutions pour l'ouverture des données, a profité de son discours inaugural à l'Open Data Camp 2011 de Varsovie pour dresser un bilan, et évoquer des pistes pour l'avenir. Où en est l’Open Data ? Au cours de mon récent discours d’inauguration à l’Open Data Camp (qui se tenait cette année à Varsovie), j’ai tenté de poursuivre l’intervention que j’avais faite lors de la conférence de l’an passé. Voici l’état des lieux que j’en dresse. Le franchissement du gouffre

MapReduce Les termes « map » et « reduce », et les concepts sous-jacents, sont empruntés aux langages de programmation fonctionnelle utilisés pour leur construction (map et réduction de la programmation fonctionnelle et des langages de programmation tableau). MapReduce permet de manipuler de grandes quantités de données en les distribuant dans un cluster de machines pour être traitées. Ce modèle connaît un vif succès auprès de sociétés possédant d'importants centres de traitement de données telles Amazon.com ou Facebook. Il commence aussi à être utilisé au sein du Cloud computing. De nombreux frameworks ont vu le jour afin d'implémenter le MapReduce. Le plus connu est Hadoop qui a été développé par Apache Software Foundation.

MyData : renverser la relation consommateur, concrètement Par Daniel Kaplan le 20/09/11 | 14 commentaires | 5,961 lectures | Impression En 2010, dans l’ouvrage Informatique, Libertés, Identités, nous posions la question : “Que pourrais-je accomplir, moi, si je disposais, sous une forme réellement exploitable, des informations sur mes trajets et mes communications des années passées ? Pas seulement pour contrôler ce que d’autres en font, mais pour les utiliser à mes propres fins ?”

Cartographies des outils du formateur Cartographiesdes outils numériquesen formation Boîte à outils du formateurinnovant carte "Enrichir son courssur le LMS MOODLE" Outils numériques pour les élèves et les profs

Related:  Open DataAI & OptimizationHadoopPOOL1Big DataBigDatawide column storedatabaseVirtual MachineNoSQLSoftware Toolsbig dataUse case Big Data Big AnalyticsOpenSourceapache\Veille TechnoBig DataLibrairiesBIG DATABig DataData PlatformsData Platforms