background preloader

De la “Data Science” à l’infovisualisation (1/2) : qu’est-ce qu’un data scientist

De la “Data Science” à l’infovisualisation (1/2) : qu’est-ce qu’un data scientist
Par Rémi Sussan le 06/03/13 | 7 commentaires | 2,637 lectures | Impression Comment articuler “Science des données” et visualisation ? C’est à cette question que se sont attaqués une multitude d’experts lors de la journée d’étude PraTIC du 25 février (conçue et organisée par Etienne-Armand Amato, Etienne Perény et Jean-Christophe Plantin pour Gobelins, l’Ecole de l’Image, en partenariat avec le laboratoire Paragraphe de l’Université Paris 8 et l’Observatoire des mondes numériques en sciences humaines). Car il s’agit de deux domaines indissociables, mais, comme l’a expliqué Jean-Christophe Plantin (@JCPlantin, blog), souvent présentés de manière séparée. Pourtant, avant toute cartographie, la sélection et la préparation des données s’imposent. La science des données est-elle une science ? En quoi consiste sa tâche ? Le domaine de la “data science” n’est pas sans susciter quelques interrogations. L’entreprise de la “data science” ne va pas sans entraîner un questionnement philosophique.

http://www.internetactu.net/2013/03/06/de-la-data-science-a-linfovisualisation-12-quest-ce-quun-data-scientist/

Related:  Big Data - Gestion données de masse

De la “Data Science” à l’infovisualisation (2/2) : rendre tangible la friction des données Par Rémi Sussan le 12/03/13 | 2 commentaires | 1,618 lectures | Impression L’après-midi de la journée d’études PraTic a continué (voir la première partie) avec une intervention passionnante de Paul Edwards, professeur de sciences de l’information et d’histoire à l’université du Michigan, qui s’est penché sur les aspects “matériels” de la collection de données, ce qu’il appelle la “friction des données”. Car celles-ci impliquent un coût en transport, en énergie, qui peut ralentir l’analyse. Il rappelle que dans les années 50, le nombre de cartes perforées au centre de données météorologiques américain était si important qu’on croyait que le bâtiment risquait de s’effondrer sous le poids ! A cette friction des données correspond celle des “métadonnées”, qui racontent comment les données ont été construites. Paul Edwards a illustré le problème à partir d’exemples sur le réchauffement climatique (comme il l’a fait dernièrement dans l’émission Place de la Toile où il évoquait le même thème).

Imprimantes 3D En sortira-t-il autre chose que des “Crottbjets” Justin Pickard (@justinpickard) est écrivain, futurologue « gonzo » au sein du collectif de designers Superflux et doctorant au Steps, un centre de recherche international sur les facteurs sociaux, technologiques et environnementaux de la durabilité. Sur la scène de Lift (vidéo), il est venu parler de l’impression 3D, pour tenter de renverser notre perspective sur le phénomène technologique du moment. L’impression 3D est encore chère, bien plus chère que nos imprimantes de bureau. Elle demeure encore réservée aux innovateurs, aux adopteurs précoces. C’est encore une technologie d’anticipation assez imparfaite dans les objets qu’elle produit.

Hadoop Un article de Wikipédia, l'encyclopédie libre. Hadoop a été créé par Doug Cutting et fait partie des projets de la fondation logicielle Apache depuis 2009. Historique[modifier | modifier le code] En 2004, Google publie un article présentant son algorithme basé sur des opérations analytiques à grande échelle sur un grand cluster de serveurs, le MapReduce, ainsi que son système de fichier en cluster, le GoogleFS. Open Data : les propositions des industriels du logiciel au gouvernement À l’occasion de la tenue de la Conférence de Paris consacrée à l’Open Data, l’association des industriels français du logiciel, l’AFDEL, a dévoilé cinq propositions (PDF) visant à accélérer l’impact économique de l’ouverture des données publiques en France. Petit tour d’horizon. La présentation de ces cinq propositions par l’Association française des éditeurs de logiciels et solutions internet (AFDEL) n’est absolument pas anodine, puisqu’elle intervient au même moment que la Conférence de Paris sur l’Open Data, où sont notamment attendus plusieurs membres du gouvernement.

Captain Dash, futur super héros du Big Data J’ai rencontré Gilles Babinet un soir d’avril pour évoquer avec lui sa nouvelle aventure : Captain Dash. Armé de ma tablette (sur laquelle j’avais préalablement chargé l’application idoine), j’ai découvert, démonstration à l’appui, qu’un Captain Dash pouvait en cacher un autre… « L’institutionnel c’est bien, mais la start-up c’est génial ! » Gilles Babinet, vous le connaissez déjà (voir la superbe transcription d’une de ses dernières présentations sur la révolution de la société par Internet, retranscrite par Michael Tartar).

Infographie : Le temps passé sur Internet Infographie : Le temps passé sur Internet Home » Société » Infographie : Le temps passé sur Internet Voici une infographie bien interessante, que nous apprend-elle ? On passe en moyenne 16 h par mois sur le net… ok, ceux qui lisent ceci doivent exploser les scores, ce n’est qu’une moyenne.La France est 3ème au classement des pays les plus connectés devant les Etats-Unis et encore plus surprenant devant le Japon !

L’embarras du choix - Comment choisir la bonne plate-forme pour Big Data / Hadoop ? Cette année, le big data est devenu un sujet pertinent dans beaucoup d’entreprises. Bien qu'il n’y ait pas de définition standard du terme “big data”, Hadoop est de facto un standard pour le traitement big data. Presque tous les grands éditeurs de logiciels tels que IBM, Oracle, SAP et même Microsoft utilisent Hadoop. Cependant une fois que vous avez choisi d’utiliser Hadoop, la première question à se poser est de savoir comment débuter et quel produit choisir pour vos traitements big data.

Big Data : Hadoop passe à la vitesse supérieure par Emilien Ercolani, le 21 octobre 2013 12:28 La fondation Apache a livré la version 2.0 de la distribution Hadoop, le logiciel open source de traitement du Big Data. La fondation Apache « passe la seconde » avec la version 2.0 du framework Hadoop, utilisé pour le traitement des gros volumes de données, communément appelé Big Data. Cette nouvelle mouture aura mis plusieurs années à voir le jour mais intègre des fonctionnalités avancées dont l’arrivée de YARN (Yet Another Resource Negociator), qui succède au patron d’architecture MapReduce. Aussi appelé MapReduce 2, elle sépare l’étendue des fonctions en deux groupes : le premier qui regroupe la gestion des ressources avec Resources Manager, le second avec le monitoring, la planification et la surveillance avec Node Manager. Mais ce n’est bien entendu pas tout, car Hadoop 2.0 apporte d’autres améliorations, dont la haute disponibilité du système de fichiers distribué HDFS (Hadoop Distributed File System).

DBpediaFr - Accueil Extraction de données structurées des pages de Wikipédia en français. Présentation du projet DBpedia en français est le chapitre francophone de DBpedia, il s'inscrit dans l'effort d'internationalisation de DBpedia dont le but est de maintenir des données structurées extraites de différents chapitres de Wikipedia. Le développement de DBpedia en français est mené dans le cadre de la plateforme Sémanticpédia dont les partenaires sont : Qu’est-ce que DBpedia ? Les 50 chiffres à connaître sur les médias sociaux en 2012 L’heure est aux traditionnels bilans de fin d’année ! Même si elle n’est pas encore tout à fait terminée, on peut dire que 2012 aura été une année plutôt riche en ce qui concerne les média sociaux : le milliardième membre sur Facebook, la montée en puissance de Pinterest, les levées de fonds toujours plus énormes… Les chiffres traduisent l’engouement pour les médias sociaux, dont l’usage ne faiblit pas. Mais que faut-il retenir de cette année 2012 ? Nous avons compilé ici 50 chiffres marquants, qui résument bien ce qu’il s’est passé sur les médias sociaux au cours des 12 derniers mois. En attendant 2013… Facebook

Google utilise l'intelligence artificielle pour optimiser ses datacenters L'intelligence artificielle est un gros sujet chez Google. En dévoilant un peu ses projets liés à la robotique récemment, le géant expliquait que les travaux menés visaient ses unités de production et de stockage des données avant d'être destinés au grand public. Cela se confirme dans un domaine différent, mais lié : l'intelligence artificielle. Big data Un article de Wikipédia, l'encyclopédie libre. Une visualisation des données créée par IBM[1] montre que les big data que Wikipedia modifie à l'aide du robot Pearle ont plus de signification lorsqu'elles sont mises en valeur par des couleurs et des localisations[2]. Croissance et Numérisation de la Capacité de Stockage Mondiale de L'information[3]. Dans ces nouveaux ordres de grandeur, la capture, le stockage, la recherche, le partage, l'analyse et la visualisation des données doivent être redéfinis. Certains supposent qu'ils pourraient aider les entreprises à réduire les risques et faciliter la prise de décision, ou créer la différence grâce à l'analyse prédictive et une « expérience client » plus personnalisée et contextualisée.

DBpedia Un article de Wikipédia, l'encyclopédie libre. DBpedia est un projet universitaire et communautaire d'exploration et extraction automatiques de données dérivées de Wikipédia. Son principe est de proposer une version structurée et sous forme de données normalisées au format du web sémantique des contenus encyclopédiques de chaque fiche encyclopédique. DBpedia vise aussi à relier à Wikipédia (et inversement) des ensembles d'autres données ouvertes provenant du Web des données : DBpedia a été conçu par ses auteurs comme l'un des « noyaux du Web émergent de l'Open data »[2] (connu également sous le nom de Web des données) et l'un de ses possibles points d'entrée. Ce projet est conduit par l'université de Leipzig, l'université libre de Berlin et l'entreprise OpenLink Software. Historique[modifier | modifier le code]

Related: