background preloader

De la “Data Science” à l’infovisualisation (1/2) : qu’est-ce qu’un data scientist

De la “Data Science” à l’infovisualisation (1/2) : qu’est-ce qu’un data scientist
Par Rémi Sussan le 06/03/13 | 7 commentaires | 2,637 lectures | Impression Comment articuler “Science des données” et visualisation ? C’est à cette question que se sont attaqués une multitude d’experts lors de la journée d’étude PraTIC du 25 février (conçue et organisée par Etienne-Armand Amato, Etienne Perény et Jean-Christophe Plantin pour Gobelins, l’Ecole de l’Image, en partenariat avec le laboratoire Paragraphe de l’Université Paris 8 et l’Observatoire des mondes numériques en sciences humaines). Car il s’agit de deux domaines indissociables, mais, comme l’a expliqué Jean-Christophe Plantin (@JCPlantin, blog), souvent présentés de manière séparée. La science des données est-elle une science ? L’expression “data scientist” a été créée en 2008 par Patil (qui s’occupa de “data science” à Linked-in) et Hammerbacher (qui travailla dans le même domaine pour Facebook) lorsqu’ils ont tenté de qualifier le travail des personnes confrontées à d’énormes masses de données. Modèles de graphes

De la “Data Science” à l’infovisualisation (2/2) : rendre tangible la friction des données Par Rémi Sussan le 12/03/13 | 2 commentaires | 1,618 lectures | Impression L’après-midi de la journée d’études PraTic a continué (voir la première partie) avec une intervention passionnante de Paul Edwards, professeur de sciences de l’information et d’histoire à l’université du Michigan, qui s’est penché sur les aspects “matériels” de la collection de données, ce qu’il appelle la “friction des données”. Car celles-ci impliquent un coût en transport, en énergie, qui peut ralentir l’analyse. Il rappelle que dans les années 50, le nombre de cartes perforées au centre de données météorologiques américain était si important qu’on croyait que le bâtiment risquait de s’effondrer sous le poids ! A cette friction des données correspond celle des “métadonnées”, qui racontent comment les données ont été construites. Lorsqu’on travaille dans ce domaine, on cherche à transformer les informations météo, issues du court terme, en tendances climatiques, propres au long terme. Au delà du sens de la vue

Henri Verdier (Etalab) : "Data.gouv.fr doit se donner les moyens de s'adresser à tous les publics" Après le séminaire gouvernemental sur le numérique, le nouveau directeur d'Etalab détaille sa feuille de route pour 2013. JDN. Comment a été reçue la feuille de route sur l'open data lors du séminaire gouvernemental sur le numérique du 28 février ? Henri Verdier. Quelle est la prochaine étape ? La suite découlera de la demande de Jean-Marc Ayrault à tous les ministères de fournir leur feuille de route détaillée en matière d'ouverture des données publiques. Quelles sont les grandes orientations de la mission Etalab ? "Notre objectif est de libérer les données les plus stratégiques pour la communauté des utilisateurs" Jusque-là beaucoup de travail a été accompli mais la démarche de l'Etat en la matière était encore pionnière. Comment allez-vous convaincre certaines institutions de libérer ces données dites "stratégiques" ? Dans votre feuille de route, vous évoquez la refonte de Data.gouv.fr. "Data.gouv.fr doit se donner les moyens de s'adresser à tous les publics et de proposer des API"

Hadoop Un article de Wikipédia, l'encyclopédie libre. Hadoop a été créé par Doug Cutting et fait partie des projets de la fondation logicielle Apache depuis 2009. Historique[modifier | modifier le code] En 2004, Google publie un article présentant son algorithme basé sur des opérations analytiques à grande échelle sur un grand cluster de serveurs, le MapReduce, ainsi que son système de fichier en cluster, le GoogleFS. Architecture[modifier | modifier le code] Hadoop Distributed File System[modifier | modifier le code] Une architecture de machines HDFS (aussi appelée cluster HDFS) repose sur deux types de composants majeurs : Le HDFS n'est pas entièrement conforme aux spécifications POSIX, en effet les exigences relatives à un système de fichiers POSIX diffèrent des objectifs cibles pour une application Hadoop. MapReduce[modifier | modifier le code] Hadoop dispose d'une implémentation complète de l'algorithme de MapReduce. HBase[modifier | modifier le code] Article détaillé : HBase.

Firefox, cookie monster «Ce serait une frappe nucléaire contre l'industrie de la publicité» , s'est estomaqué ce week-end le vice-président de l'Interactive Advertising Bureau, qui regroupe les acteurs de la publicité sur Internet. Pas étonnant que l'homme sente planer une telle menace sur son métier... Ce qu'il venait d'apprendre au détour d'un blog et que personne n'avait vu venir, c'est que le navigateur Firefox devrait bientôt empêcher, par défaut, les bannières de pub en ligne de stocker des informations sur les internautes. Si les conséquences économiques d'un tel changement seront considérables, la décision, elle, a été prise en tout simplicité. Les «cookies» sont de petits fichiers que le navigateur crée sur l'ordinateur de l'internaute pour y stocker des informations en vue d'une réutilisation future. C'est ce qu'on appelle un cookie «tiers», car il provient d'un site différent de celui que visite l'internaute. Parts de marché des navigateurs dans le monde, en janvier 2013, selon Statcounter

Apache™ Hadoop® L’Open-Data français cartographié Voici trois cartographies de l’écosphère de l‘Open Data français. Sur fond noir, les trois posters (téléchargeable au format "A0") livrent un aperçu général sur l’open-data français actuel. Les trois cartographies sont basées sur les données fournies par Data-Publica, notamment deux études réalisées récemment par Guillaume Lebourgeois, Pierrick Boitel et Perrine Letellier (ayant accueilli les deux derniers dans mon enseignement à l’UTC au semestre dernier). L’objectif de ces cartes est d’entamer une "radiographie" assez complète du domaine, renouvelable dans le temps (peut-être tous les six mois) et directement associée aux données présentes chez Data-Publica. Cartographie thématique. Cependant, ma façon de les traiter diffère méthodologiquement du travail d’analyse qui a donné lieu à une publication dynamique en ligne avec sigmajs. Au final, cette cartographie thématique comporte 553 noeuds et 15421 liens. Cartographies des acteurs. Like this: J'aime chargement…

Captain Dash, futur super héros du Big Data J’ai rencontré Gilles Babinet un soir d’avril pour évoquer avec lui sa nouvelle aventure : Captain Dash. Armé de ma tablette (sur laquelle j’avais préalablement chargé l’application idoine), j’ai découvert, démonstration à l’appui, qu’un Captain Dash pouvait en cacher un autre… « L’institutionnel c’est bien, mais la start-up c’est génial ! » Gilles Babinet, vous le connaissez déjà (voir la superbe transcription d’une de ses dernières présentations sur la révolution de la société par Internet, retranscrite par Michael Tartar). C’est ainsi que l’ex fondateur de Eyeka est reparti à l’aventure, et ce n’est pas un vain mot : « cela représente 2 ans et demi de développement » a-t-il dit. [mon “univers” statistique avec Captain Dash] Réinventer le tableau de bord La mission de Captain Dash, c’est de devenir le super-héros du tableau de bord. [le mode battle] à l’assaut des grands comptes Tout cela est fort beau, mais ce n’est pas là que notre super héros frappe le plus fort ! WordPress:

DBpediaFr - Accueil Extraction de données structurées des pages de Wikipédia en français. Présentation du projet DBpedia en français est le chapitre francophone de DBpedia, il s'inscrit dans l'effort d'internationalisation de DBpedia dont le but est de maintenir des données structurées extraites de différents chapitres de Wikipedia. Le développement de DBpedia en français est mené dans le cadre de la plateforme Sémanticpédia dont les partenaires sont : Qu’est-ce que DBpedia ? Il s'agit d'un effort communautaire ayant pour but d’extraire des informations structurées des pages de Wikipedia afin de rendre ces données disponibles sur le Web. DBpedia est cependant centré sur les pages en anglais de DBpedia, et ignore par conséquent des informations présentes sur les pages d'autres langues. Différentes versions locales de DBpedia, dont la version francophone ont pour but de donner accès aux données publiées dans les version respectives de Wikipedia. À quoi sert DBpedia ? Quelques exemples d'utilisation :

DBpedia Un article de Wikipédia, l'encyclopédie libre. DBpedia est un projet universitaire et communautaire d'exploration et extraction automatiques de données dérivées de Wikipédia. Son principe est de proposer une version structurée et sous forme de données normalisées au format du web sémantique des contenus encyclopédiques de chaque fiche encyclopédique. DBpedia vise aussi à relier à Wikipédia (et inversement) des ensembles d'autres données ouvertes provenant du Web des données : DBpedia a été conçu par ses auteurs comme l'un des « noyaux du Web émergent de l'Open data »[2] (connu également sous le nom de Web des données) et l'un de ses possibles points d'entrée. Ce projet est conduit par l'université de Leipzig, l'université libre de Berlin et l'entreprise OpenLink Software. Historique[modifier | modifier le code] Le projet a été lancé par l'université libre de Berlin et l'université de Leipzig, en collaboration avec OpenLink Software. Contenus[modifier | modifier le code]

Ontologie (informatique) Un article de Wikipédia, l'encyclopédie libre. Par analogie, le terme est repris en informatique et en science de l'information, où une ontologie est l'ensemble structuré des termes et concepts représentant le sens d'un champ d'informations, que ce soit par les métadonnées d'un espace de noms, ou les éléments d'un domaine de connaissances. L'ontologie constitue en soi un modèle de données représentatif d'un ensemble de concepts dans un domaine, ainsi que des relations entre ces concepts. Elle est employée pour raisonner à propos des objets du domaine concerné. Plus simplement, on peut aussi dire que l' « ontologie est aux données ce que la grammaire est au langage ». L'objectif premier d'une ontologie est de modéliser un ensemble de connaissances dans un domaine donné, qui peut être réel ou imaginaire. Les ontologies informatiques sont des outils qui permettent précisément de représenter un corpus de connaissances sous une forme utilisable par un ordinateur. Notes

Big Data et Technologies du Langage Google BigQuery ou Google Cloud SQL Google propose deux services d'hébergement de bases de données en ligne, Google Big Query et Google Cloud SQL. Voici un article donnant les grandes différences entre ces deux services pour vous permettre de savoir vers quoi vous orienter et ensuite poursuivre votre recherche. Google BigQuery - BigQuery est pensé pour faire des requêtes sur des milliards de lignes. - Ce service est pour l'analyse de données, il est bon pour l'exécution de requêtes sur des grosses quantités de données. BigQuery est un service de type OLAP. ref - Vous ne pouvez pas modifier les données par des requêtes. Vous créez une table vous l'alimentez et après il ne sera pas possible par une requête de modifier ou supprimer telle ou telle valeur. En savoir plus. Google Cloud SQL - C'est une base de données qui est conçue pour la gestion de données pas pour l'analyse. En savoir plus.

Big Data : les 5 mesures du plan de soutien dévoilées Fleur Pellerin a détaillé les mesures envisagées dans le cadre de son plan Big Data. En ligne de mire : l'aide à la formation de plusieurs dizaines de milliers de datascientists en France. Dans le sillage de la feuille de route gouvernementale annoncée en février dernier (lire l'article : les 18 mesures du gouvernement pour le numérique), la ministre déléguée à l'Economie Numérique Fleur Pellerin a annoncé plusieurs mesures, actuellement en cours de finalisation, pour soutenir "une politique volontariste en matière de Big Data". Ce "plan Big Data" est articulé autour de cinq axes. "On estime à 300 000 le nombre de datascientists nécessaires à l'Europe dans les années qui viennent", a précisé Fleur Pellerin. Troisième pilier du plan Big data du gouvernement : l'objectif de renforcer la chaîne de financement de l'innovation en permettant l'émergence d'un ou plusieurs fonds d'amorçage dans le Big Data, aux côtés du fonds Ambition numérique existant.

Related: