background preloader

De la “Data Science” à l’infovisualisation (1/2) : qu’est-ce qu’un data scientist

De la “Data Science” à l’infovisualisation (1/2) : qu’est-ce qu’un data scientist
Par Rémi Sussan le 06/03/13 | 7 commentaires | 2,637 lectures | Impression Comment articuler “Science des données” et visualisation ? C’est à cette question que se sont attaqués une multitude d’experts lors de la journée d’étude PraTIC du 25 février (conçue et organisée par Etienne-Armand Amato, Etienne Perény et Jean-Christophe Plantin pour Gobelins, l’Ecole de l’Image, en partenariat avec le laboratoire Paragraphe de l’Université Paris 8 et l’Observatoire des mondes numériques en sciences humaines). Car il s’agit de deux domaines indissociables, mais, comme l’a expliqué Jean-Christophe Plantin (@JCPlantin, blog), souvent présentés de manière séparée. La science des données est-elle une science ? L’expression “data scientist” a été créée en 2008 par Patil (qui s’occupa de “data science” à Linked-in) et Hammerbacher (qui travailla dans le même domaine pour Facebook) lorsqu’ils ont tenté de qualifier le travail des personnes confrontées à d’énormes masses de données. Modèles de graphes

Henri Verdier (Etalab) : "Data.gouv.fr doit se donner les moyens de s'adresser à tous les publics" Après le séminaire gouvernemental sur le numérique, le nouveau directeur d'Etalab détaille sa feuille de route pour 2013. JDN. Comment a été reçue la feuille de route sur l'open data lors du séminaire gouvernemental sur le numérique du 28 février ? Henri Verdier. Quelle est la prochaine étape ? La suite découlera de la demande de Jean-Marc Ayrault à tous les ministères de fournir leur feuille de route détaillée en matière d'ouverture des données publiques. Quelles sont les grandes orientations de la mission Etalab ? "Notre objectif est de libérer les données les plus stratégiques pour la communauté des utilisateurs" Jusque-là beaucoup de travail a été accompli mais la démarche de l'Etat en la matière était encore pionnière. Comment allez-vous convaincre certaines institutions de libérer ces données dites "stratégiques" ? Dans votre feuille de route, vous évoquez la refonte de Data.gouv.fr. "Data.gouv.fr doit se donner les moyens de s'adresser à tous les publics et de proposer des API"

Franck Ghitalla, l'as des réseaux LE MONDE SCIENCE ET TECHNO | • Mis à jour le | Par David Larousserie Franck Ghitalla est cartographe. Le métier fleure bon la Renaissance et la conquête des Amériques ou des Indes. Pourtant, rien de vieillot dans son travail de recherche et d'enseignement ou sa personne. Les continents qu'il contribue à cartographier, représenter et analyser sont parmi les plus modernes qui soient : le Web, les réseaux sociaux, les blogs, ou tout autre tas de données gigantesques qu'on veut bien lui confier. Par "carte", il faut entendre une mosaïque de disques plus ou moins gros et colorés, reliés par des arcs plus ou moins épais. Cette technique dévoile parfois l'invisible. Cet ancien professeur de français en lycée, devenu chercheur en linguistique, n'était pas destiné à plonger au coeur des techniques de l'information. Le projet passionne son petit groupe d'étudiants-ingénieurs de Compiègne. "Franck était un peu notre gourou. Il se définit maintenant comme "porteur de projets innovants".

Firefox, cookie monster «Ce serait une frappe nucléaire contre l'industrie de la publicité» , s'est estomaqué ce week-end le vice-président de l'Interactive Advertising Bureau, qui regroupe les acteurs de la publicité sur Internet. Pas étonnant que l'homme sente planer une telle menace sur son métier... Ce qu'il venait d'apprendre au détour d'un blog et que personne n'avait vu venir, c'est que le navigateur Firefox devrait bientôt empêcher, par défaut, les bannières de pub en ligne de stocker des informations sur les internautes. Si les conséquences économiques d'un tel changement seront considérables, la décision, elle, a été prise en tout simplicité. Les «cookies» sont de petits fichiers que le navigateur crée sur l'ordinateur de l'internaute pour y stocker des informations en vue d'une réutilisation future. C'est ce qu'on appelle un cookie «tiers», car il provient d'un site différent de celui que visite l'internaute. Parts de marché des navigateurs dans le monde, en janvier 2013, selon Statcounter

Humanitarianism in the Network Age: Groundbreaking Study My colleagues at the United Nations Office for the Coordination of Humanitarian Affairs (OCHA) have just published a groundbreaking must-read study on Humanitarianism in the Network Age; an important and forward-thinking policy document on humanitarian technology and innovation. The report “imagines how a world of increasingly informed, connected and self-reliant communities will affect the delivery of humanitarian aid. Its conclusions suggest a fundamental shift in power from capital and headquarters to the people [that] aid agencies aim to assist.” The latter is an unsettling prospect for many. To be sure, Humanitarianism in the Network Age calls for “more diverse and bottom-up forms of decision-making—something that most Governments and humanitarian organizations were not designed for. Systems constructed to move information up and down hierarchies are facing a new reality where information can be generated by any-one, shared with anyone and acted by anyone.” Summary communities first

L’Open-Data français cartographié Voici trois cartographies de l’écosphère de l‘Open Data français. Sur fond noir, les trois posters (téléchargeable au format "A0") livrent un aperçu général sur l’open-data français actuel. Les trois cartographies sont basées sur les données fournies par Data-Publica, notamment deux études réalisées récemment par Guillaume Lebourgeois, Pierrick Boitel et Perrine Letellier (ayant accueilli les deux derniers dans mon enseignement à l’UTC au semestre dernier). L’objectif de ces cartes est d’entamer une "radiographie" assez complète du domaine, renouvelable dans le temps (peut-être tous les six mois) et directement associée aux données présentes chez Data-Publica. Cartographie thématique. Cependant, ma façon de les traiter diffère méthodologiquement du travail d’analyse qui a donné lieu à une publication dynamique en ligne avec sigmajs. Au final, cette cartographie thématique comporte 553 noeuds et 15421 liens. Cartographies des acteurs. Like this: J'aime chargement…

We’re witnessing the rise of the graph in big data GraphLab, a popular open source project dedicated to graph analysis and machine learning, is trying to capitalize on the excitement around graphs by spinning off a commercial entity, GraphLab Inc. GraphLab creator — and University of Washington machine learning professor — Carlos Guestrin will lead the new Seattle-based company, which has raised $6.75 million from Madrona Venture Group and NEA. Graph analysis is among the hottest techniques around for making sense of large datasets, primarily by determining how tightly different data points are related or how similar they are. The term “graph” came into the broader lexicon along with social networks, which built social graphs to assess the relationships among their millions of users, but the technique has much broader uses. My LinkedIn social graph One of Ayasdi’s graph-like data maps Google also famously uses a graph-processing system called Pregel as part of PageRank.

Mapping Travel, Languages & Mobile OS Usage with Twitter Data Some of the most compelling use cases we’ve seen for analyzing Twitter data involve geolocation. From NGO’s looking at geotagged Tweets to help deploy resources after disasters, to brands paying attention to where their fans are (or their disgruntled customers) to help drive engagement and marketing strategies, location adds key value to Tweet content. We’ve been fascinated by these use cases and have wondered what else could be done with this data. A couple months ago our Data Science team set out to explore these questions, and to create some resources at the same time that would help others study and make use of geotagged Tweets. We brought in the team at MapBox – including data artist Eric Fischer – to help us dig into the data and visualize what we found in fast, fully navigable geotagged Twitter maps that would let us and our readers really explore this data in depth. Locals and Tourists (Round 2) Where do people tweet relative to where they live? Device Usage Patterns English only

Gallery "Spike" map Interactive United States population density map. Average rating: 7.5 (23 votes) 2D histogram An extension of the concept of histogram to display the colour image content. Average rating: 4.8 (5 votes) 3D graphic An example of a 3D visualisation, used in this case to represent an object. Average rating: 2.2 (11 votes) 3D Infographic This is an online application that presents backdated meteorological data from Augsburg, Germany. Average rating: 5.9 (9 votes) 3D Map 3D-rendered map of London showing landmarks and accurate locations of tube lines. Average rating: 5.8 (10 votes) 3D scatterplot Extension of a scatterplot to third dimension to represent measurements on sepals and petals of Iris flowers. Average rating: 3 (3 votes) Accesibility Map The map shows the average number of pickups for different times of the day and days of week Average rating: 3.3 (3 votes) Accessibility map Average rating: 6.8 (4 votes) Agreement chart Average rating: 3.7 (3 votes) Annotated Google map Area profiler Bar chart

World's Biggest Data Breaches & Hacks Let us know if we missed any big data breaches. » 70% of passwords are in this chart. Is yours? » Safely check if your details have been compromised in any recent data breaches: » See the data: bit.ly/bigdatabreaches This interactive ‘Balloon Race’ code is powered by our forthcoming VizSweet software – a set of high-end dataviz tools for generating interactive visualisations. You might also like: Essential Resources: Multivariate, network and qualitative visualisations This is part of a series of posts to share with readers a useful collection of some of the most important, effective and practical data visualisation resources. This post presents the data visualisation tools that support the analysis and presentation of complex and multivariate data, including qualitative. Please note, I may not have personally used all the packages or tools presented but have seen sufficient evidence of their value from other sources. Whilst some inclusions may be contentious from a quality/best-practice perspective, they may still provide some good features and provide value to a certain audience out there. Finally, to avoid re-inventing the wheel, descriptive text may have been reproduced from the native websites if they provide the most articulate descriptions. Your feedback is most welcome to help curate this collection, keep it up to date and preserve its claim to be an essential list of resources! Circos Examples/reference: Images KeyLines Sentinel Visualizer NodeXL

Related: