background preloader

Welcome to Apache™ Hadoop®!

Welcome to Apache™ Hadoop®!

http://hadoop.apache.org/

Related:  "Big data" / Data scienceBig data and data visualizationTools

Plus de Big Data ? Moins d'Anonymat. L’anonymat devient une impossibilité mathématique. C’est ce que nous explique Patrick Tucker dans Technologie Review , la revue scientifique en ligne du MIT. En revenant sur la directive européenne de 1995 sur la vie privée , il met l’accent sur l’évolution de la notion de « donnée personnelle » depuis 18 ans. La quantité de données créée chaque année tend à redéfinir cette notion et de fait, celle de l’anonymat. Un travailleur américain produit 5.000 mégaoctets de données par jour, selon l’article, soit autant d’informations - très - personnelles à exploiter et qui rendent l’ anonymat « algorithmiquement impossible ». Presse - Article - Les journalistes français sur Twitter vus comme un graphe En suivant le paradigme méthodologique des Digital Methods, développé notamment par Richard Rogers à l’université d’Amsterdam (2009), nous pouvons envisager un groupe social qui s’active sur l’internet comme un graphe. Dans le cas qui nous intéresse ici, les nœuds du graphe sont les comptes des journalistes français sur Twitter et les connections entre eux sont constitués par des actions de communication comme les retweets et les mentions. Les premiers consistent à rediffuser tel quel un message d’un autre utilisateur. Les secondes consistent à inclure le nom d’un compte dans un message diffusé.

Subsonic – Créez votre propre clone de Deezer _2F_, super modo sur le forum, m'a fait découvrir ce matin Subsonic, un outil gratuit qui va faire plaisir à tous les fans de musique ! Subsonic permet en effet de se faire son propre clone de Deezer (ou un spotify web) hébergé à la maison. Vous pouvez ainsi partager votre musique sur le net, en donner l'accès qu'à quelques personnes et l'écouter depuis n'importe où avec votre navigateur ou les applications clientes Air, iPhone ou Android disponibles. Subsonic support les MP3, OGG, AAC et d'autres formats audio mais aussi les formats vidéo avec un peu de bidouille et une install de ffmpeg (voir le forum pour plus d'infos sur le stream vidéo) Toutes vos playlists peuvent être exportées / importées dans un grand nombre de formats (M3U, PLS, XSPF..etc) et il est même possible d'importer des podcasts de manière automatique (via un flux RSS).

Hadoop — Wikipédia Un article de Wikipédia, l'encyclopédie libre. Hadoop a été créé par Doug Cutting et fait partie des projets de la fondation logicielle Apache depuis 2009. Historique[modifier | modifier le code] En 2004, Google publie un article présentant son algorithme basé sur des opérations analytiques à grande échelle sur un grand cluster de serveurs, le MapReduce, ainsi que son système de fichier en cluster, le GoogleFS. Doug Cutting, qui travaille à cette époque sur le développement de Apache Lucene et rencontre des problèmes similaires à ceux de la firme de Mountain View, décide alors de reprendre les concepts décrits dans l'article pour développer sa propre version des outils en version Open Source, qui deviendra le projet Hadoop. Architecture[modifier | modifier le code]

Un état des lieux de l’Open Data David Eaves, conseiller auprès de plusieurs institutions pour l'ouverture des données, a profité de son discours inaugural à l'Open Data Camp 2011 de Varsovie pour dresser un bilan, et évoquer des pistes pour l'avenir. Où en est l’Open Data ? Au cours de mon récent discours d’inauguration à l’Open Data Camp (qui se tenait cette année à Varsovie), j’ai tenté de poursuivre l’intervention que j’avais faite lors de la conférence de l’an passé. Voici l’état des lieux que j’en dresse. Le franchissement du gouffre SparkleShare – Un clone de Dropbox open source qui fonctionne ! Bon on commence tôt ce matin, car j'ai enfin trouvé un remplaçant open source qui fonctionne et qui roxx à Dropbox ! Merci MrBoo ! L'outil s'appelle SparkleShare et va vous permettre enfin de synchroniser vos documents entre plusieurs ordinateurs, en utilisant votre propre serveur. Pour fonctionne SparkleShare a besoin d'un serveur Git.

MapReduce Les termes « map » et « reduce », et les concepts sous-jacents, sont empruntés aux langages de programmation fonctionnelle utilisés pour leur construction (map et réduction de la programmation fonctionnelle et des langages de programmation tableau). MapReduce permet de manipuler de grandes quantités de données en les distribuant dans un cluster de machines pour être traitées. Ce modèle connaît un vif succès auprès de sociétés possédant d'importants centres de traitement de données telles Amazon.com ou Facebook. Il commence aussi à être utilisé au sein du Cloud computing. De nombreux frameworks ont vu le jour afin d'implémenter le MapReduce. Le plus connu est Hadoop qui a été développé par Apache Software Foundation.

MyData : renverser la relation consommateur, concrètement Par Daniel Kaplan le 20/09/11 | 14 commentaires | 5,961 lectures | Impression En 2010, dans l’ouvrage Informatique, Libertés, Identités, nous posions la question : “Que pourrais-je accomplir, moi, si je disposais, sous une forme réellement exploitable, des informations sur mes trajets et mes communications des années passées ? Pas seulement pour contrôler ce que d’autres en font, mais pour les utiliser à mes propres fins ?”

Changer son adresse IP par script ou batch (XP, Vista) Partie 3 : Admin-Network.fr Publié le 14 août 2009Classé dans réseau | 4 commentaires Si vous ne les avez pas lu, il serait bien de lire d’abord les deux premières parties : - Première Partie - Deuxième Partie Pour commencer, si vous ne savez pas créer un fichier batch voici la méthode la plus simple : Aller sur le bureau de votre ordinateur ou dans un répertoire quelconque, faites un clique-droit puis « Nouveau »-> »Document texte ». Donnez le nom que vous souhaitez et changez l’extension « .txt » en « .bat ». R (langage de programmation et environnement statistique) Un article de Wikipédia, l'encyclopédie libre. Pour les articles homonymes, voir R. Le logiciel R est considéré par ses créateurs comme étant une exécution de S, avec la sémantique dérivée du langage Scheme. C'est un logiciel libre distribué selon les termes de la licence GNU GPL et disponible sous GNU/Linux, FreeBSD, NetBSD, OpenBSD, Mac OS X et Windows. Une enquête menée par Rexer Analytics auprès de 1 300 analystes retrouve que R est le logiciel le plus souvent utilisé lorsqu'il s'agit d'un travail en entreprise, dans le monde académique, au sein d'organismes publics ou d'ONG et chez les analystes travaillant comme consultants[2].

Licence ouverte / Open licence - ETALAB Dans le cadre de la politique du Gouvernement en faveur de l’ouverture des données publiques (« Open Data »), Etalab a conçu la « Licence Ouverte / Open Licence ». Cette licence, élaborée en concertation avec l’ensemble des acteurs concernés, facilite et encourage la réutilisation des données publiques mises à disposition gratuitement. La plateforme des données publiques gratuites de l’Etat « data.gouv.fr » sera mise en ligne début décembre 2011.

Related:  wide column storeNoSQLapache\MapReduceBIG DATABig DataclojureBI, BD et Big dataBiG DATAData Managementdb in cloud, db clustering, nosqldata processingSystems and MethodsBigData Platforms