background preloader

Big data

Facebook Twitter

Kepler, Champollion, Darwin et les pionniers du Big Data - Luc de Brabandère, à l'USI.

Luc de Brabandere

Welcome to Apache™ Hadoop®! Interview de Gilles Babinet - Le Big Data. Interview de Gilles Babinet - Le Big Data. Plus de Big Data ? Moins d'Anonymat. L’anonymat devient une impossibilité mathématique. C’est ce que nous explique Patrick Tucker dans Technologie Review , la revue scientifique en ligne du MIT. Ysance. Vous Romain Chaumais from Paris ? Du "data déluge" au "big data" BigData Ysance from Jean Michel Billaut on Vimeo.

vous Romain Chaumais from Paris ? Du "data déluge" au "big data"

(quelques petites coupures de son dans l'e-interview de Romain, mais c'est écoutable... Quelques conseils : il vaut mieux être en Ethernet sur la box qu'en wifi, éviter le contre-jour, mettre une pub sur votre entreprise derrière vous... Une maquilleuse n'est pas indispensable, par contre quand on aura la fibre, faudra y penser..) Que veut dire Ysance ? Et qui fait-on ? Ysance est spécialisée dans les projets informatiques innovants... Il nous prend un exemple trés parlant avec une barrière de péage sur autoroute.. Le "big data" permet un usage actif des données... BigData Ysance. Philippe Naïm : "Nous créons de l'intelligence collective entre les métiers" En charge du développement et de la stratégie de Safran Analytics, Philippe Naïm explique comment Safran veut utiliser le big data pour créer de la valeur sur les marchés du groupe : l'aéronautique, la défense et sécurité.

Philippe Naïm : "Nous créons de l'intelligence collective entre les métiers"

Quel est le rôle de Safran Analytics au sein du groupe ? Safran Analytics a été lancé en janvier. Notre objectif est de faire des données de Safran une richesse. Notre structure est complètement transversale. Nous pouvons travailler sur les RH comme sur l'industrie. Pourquoi avoir mis en place une organisation transversale et non dédiée à chaque business unit. Notre démarche est déjà de commencer à acquérir cette compétence. Quel type de données avez-vous à disposition ? Hadoop — Wikipédia. Un article de Wikipédia, l'encyclopédie libre.

Hadoop — Wikipédia

Hadoop a été créé par Doug Cutting et fait partie des projets de la fondation logicielle Apache depuis 2009. Historique[modifier | modifier le code] En 2004, Google publie un article présentant son algorithme basé sur des opérations analytiques à grande échelle sur un grand cluster de serveurs, le MapReduce, ainsi que son système de fichier en cluster, le GoogleFS.

Doug Cutting, qui travaille à cette époque sur le développement de Apache Lucene et rencontre des problèmes similaires à ceux de la firme de Mountain View, décide alors de reprendre les concepts décrits dans l'article pour développer sa propre version des outils en version Open Source, qui deviendra le projet Hadoop. Architecture[modifier | modifier le code] Hadoop Distributed File System[modifier | modifier le code] MapReduce. Les termes « map » et « reduce », et les concepts sous-jacents, sont empruntés aux langages de programmation fonctionnelle utilisés pour leur construction (map et réduction de la programmation fonctionnelle et des langages de programmation tableau).

MapReduce

MapReduce permet de manipuler de grandes quantités de données en les distribuant dans un cluster de machines pour être traitées. Ce modèle connaît un vif succès auprès de sociétés possédant d'importants centres de traitement de données telles Amazon.com ou Facebook. Il commence aussi à être utilisé au sein du Cloud computing. De nombreux frameworks ont vu le jour afin d'implémenter le MapReduce. Le plus connu est Hadoop qui a été développé par Apache Software Foundation. R (langage de programmation et environnement statistique) Un article de Wikipédia, l'encyclopédie libre.

R (langage de programmation et environnement statistique)

Pour les articles homonymes, voir R. Le logiciel R est considéré par ses créateurs comme étant une exécution de S, avec la sémantique dérivée du langage Scheme. C'est un logiciel libre distribué selon les termes de la licence GNU GPL et disponible sous GNU/Linux, FreeBSD, NetBSD, OpenBSD, Mac OS X et Windows. Une enquête menée par Rexer Analytics auprès de 1 300 analystes retrouve que R est le logiciel le plus souvent utilisé lorsqu'il s'agit d'un travail en entreprise, dans le monde académique, au sein d'organismes publics ou d'ONG et chez les analystes travaillant comme consultants[2].

Face au nombre toujours croissant de paquets (on comptait près de 80 nouveaux paquets d'octobre à décembre 2007[3]), une page offre des regroupements des paquets selon les domaines abordés[4]. L'installation des extensions se fait de la manière suivante : install.packages("nom_du_paquet") Pour pouvoir l'utiliser, il suffit ensuite d'exécuter : Science des données. Un article de Wikipédia, l'encyclopédie libre.

Science des données

En termes généraux, la science des données est l'extraction de connaissance d'ensembles de données[1],[2]. Elle emploie des techniques et des théories tirées de plusieurs autres domaines plus larges des mathématiques, la statistique principalement, la théorie de l'information et la technologie de l'information, notamment le traitement de signal, des modèles probabilistes, l'apprentissage automatique, l'apprentissage statistique, la programmation informatique, l'ingénierie de données, la reconnaissance de formes et l'apprentissage, la visualisation, l'analytique prophétique, la modélisation d'incertitude, le stockage de données, la compression de données et le calcul à haute performance.

Les méthodes qui s'adaptent aux données de masse sont particulièrement intéressantes dans la science des données, bien que la discipline ne soit généralement pas considérée comme limitée à ces données. Les différentes disciplines de la sciences des données. Eli Pariser: Beware online "filter bubbles" Comment les algos nous rendent tous débiles. N’avez-vous jamais eu l’impression de tourner en rond sur le Net ?

Comment les algos nous rendent tous débiles

Un peu comme un poisson rouge à qui on aurait filé l’océan et qui ne voudrait pas quitter son bocal. Chaque jour, je me rends sur les mêmes sites, réseaux sociaux, les mêmes apps... bien conscient, pourtant, de l’immensité de la Toile et ses services connexes connectés. Un phénomène encore plus insidieux s’est installé dans mon bocal : je tourne dans le même sens. Armée de robots anti-russes. Армия анти-российских интернет-ботов. Big Data en santé : Quels usages ? Quels bénéfices ? Bioéthique. Oublier le sens, oublier la science, au profit de la croyance.