background preloader

Vers un monde de données ?

Vers un monde de données ?
Nous sommes entrés dans un monde de données, dans un monde où les données sont en passe de devenir l’essence même de la connaissance et de l’information. La donnée (data) est la plus petite part d’information accessible, à la manière des zéros et des uns qui constituent les bits d’information à l’heure du numérique. Elle est déterminée par des valeurs, par des champs qui s’appliquent à elle et la qualifie. Avec l’informatisation de notre quotidien, tout devient données. Les données sont le moteur du web sémantique de Tim Berners-Lee (ce web de données ou web 3.0) comme du web² de John Battelle et Tim O’Reilly. C’est le moteur du web implicite, celui qui comprend le moindre de nos clics. Ces données deviennent intelligentes par leur recoupement et leurs capacités à adapter notre environnement au contexte que les machines perçoivent de nous via leurs capteurs. Ces données sont multiples, hétéroclites, hétérogènes, mais elles se relient les unes aux autres. Hubert Guillaud Related:  Intelligence Collective

Big data Un article de Wikipédia, l'encyclopédie libre. Une visualisation des données créée par IBM[1] montre que les big data que Wikipedia modifie à l'aide du robot Pearle ont plus de signification lorsqu'elles sont mises en valeur par des couleurs et des localisations[2]. Croissance et Numérisation de la Capacité de Stockage Mondiale de L'information[3]. Dans ces nouveaux ordres de grandeur, la capture, le stockage, la recherche, le partage, l'analyse et la visualisation des données doivent être redéfinis. Certains supposent qu'ils pourraient aider les entreprises à réduire les risques et faciliter la prise de décision, ou créer la différence grâce à l'analyse prédictive et une « expérience client » plus personnalisée et contextualisée. Dimensions des big data[modifier | modifier le code] Le Big Data s'accompagne du développement d'applications à visée analytique, qui traitent les données pour en tirer du sens[15]. Volume[modifier | modifier le code] Variété[modifier | modifier le code]

Vivre avec, dans et autour de l’'information La lecture de la semaine il s’agit d’un texte de danah boyd signalé par un auditeur fidèle de l’émission Régis Barondeau que je remercie à cette occasion. Je parle souvent de danah boyd ethnographe américaine spécialisée dans l’étude des réseaux sociaux et particulièrement dans l’usage qu’en font les jeunes Américains. Dans ce texte, qui date de 2009, danah boyd étend son champ d’intérêt. Son objet est ici d’interroger une notion qu’elle appelle le flow qu’on pourrait traduire par le « flux »», et les conséquences de cette injonction à être dans le flux. danah boyd commence par noter qu’être dans « le flux » est l’attitude qui convient, l’attitude qui est en adéquation avec un paysage de l’information qui est dessiné par les réseaux. Image : danah boyd sur scène à la Web 2.0 Expo à New York en novembre 2009, photographiée par James Duncan Davidson. danah boyd commence par examiner la manière dont le paysage de l’information s’est transformé ces dernières années. Le bilan est sombre.

Scraping for Journalism: A Guide for Collecting Data Photo by Dan Nguyen/ProPublica Our Dollars for Docs news application lets readers search pharmaceutical company payments to doctors. We’ve written a series of how-to guides explaining how we collected the data. Most of the techniques are within the ability of the moderately experienced programmer. The most difficult-to-scrape site was actually a previous Adobe Flash incarnation of Eli Lilly’s disclosure site. These recipes may be most helpful to journalists who are trying to learn programming and already know the basics. If you are a complete novice and have no short-term plan to learn how to code, it may still be worth your time to find out about what it takes to gather data by scraping web sites -- so you know what you’re asking for if you end up hiring someone to do the technical work for you. The tools With the exception of Adobe Acrobat Pro, all of the tools we discuss in these guides are free and open-source. Ruby – The programming language we use the most at ProPublica.

Du rôle prédictif des données à la gouvernementalité algorithmique Sur Place de la Toile, le 12 décembre dernier, Xavier de la Porte recevait Guillaume Main, consultant et statisticien, qui s’occupe du site Statosphère ; Erick Alphonse, maître de conférences au Laboratoire d’Informatique de Paris-Nord (LIPN) et responsable d’Idaaas, une société qui construit des modèles prédictifs, notamment via PredictiveDB, un logiciel prédictif et Antoinette Rouvroy, chercheuse au Fonds national de la Recherche scientifique, qui travaille sur les formes de pouvoir induites par l’usage des données. Réécouter l’émission en ligne, ou parcourez le transcript augmenté de liens. Il y a de multiples formes de données, rappelle en préambule Xavier de la Porte : données sociales, messages, commentaires, celles qu’on publie chez les autres ou que les autres publient sur soi. Xavier de la Porte : Quels sont les modèles prédictifs ? Une autre étude récente a utilisé Twitter pour tenter d’anticiper de deux-trois jours les cours du Down Jones. Erick Alphonse : Oui.

Big Data : faire du sens à grande échelle » Article » OWNI, Digital Journalism Après l'open-data la nouvelle tendance tout droit venue des US sera-t-elle le « big data » ? D’un récent voyage dans la Silicon Valley (merci aux amis du Orange Institute), je rentre avec une conviction : tout ce que nous connaissions du web va changer à nouveau avec le phénomène des big data. Il pose à nouveau, sur des bases différentes, presque toutes les questions liées à la transformation numérique. En 2008, l’humanité a déversé 480 milliards de Gigabytes sur Internet. En 2010, ce furent 800 milliards de Gygabytes, soit, comme l’a dit un jour Eric Schmidt, plus que la totalité de ce que l’humanité avait écrit, imprimé, gravé, filmé ou enregistré de sa naissance jusqu’en 2003. Ces données ne sont pas toutes des œuvres. Naviguer dans ce nouveau web demande une nouvelle science. Qu’est-ce qui change avec les big data ? L’actualité de la semaine nous a donné une petite illustration de ce qui se passe à grande échelle. On sent bien que l’on est tout près d’un phénomène d’émergence.

The World According to LINQ Erik Meijer editor's note: This article uses many mathematical symbols that may not render propery in your browser. If the symbols do not display, you may wish to read the article in PDF format Programmers building Web- and cloud-based applications wire together data from many different sources such as sensors, social networks, user interfaces, spreadsheets, and stock tickers. Mathematicians long ago observed similarities between seemingly different mathematical structures and formalized this insight via category theory, specifically the notion of monads9 as a generalization of collections. LINQ was introduced in C# 3.0 and Visual Basic 9 as a set of APIs and accompanying language extensions that bridge the gap between the world of programming languages and the world of databases. Take, for example, Apache's Hadoop5 ecosystem. Standard Query Operators and LINQ The standard File.ReadAllText method provides the content of the file as a single giant string. Datacentric Interpretation

Ce qu’implique de vivre dans un monde de flux A la Web 2.0 Expo qui se tenait mi-novembre à New York, la sociologue danah boyd a, comme à son habitude, fait une brillante présentation sur les conséquences qu’il y a à vivre dans un monde de flux, notamment en commençant à en dresser la liste des limites. Explorons dans ses pas – partiellement, mais fidèlement -, son « Streams of Content, Limited Attention : The Flow of Information through Social Media » (Flux de contenus, attention limitée : le flot d’information dans les médias sociaux). Image : danah boyd sur scène à la Web 2.0 Expo à New York en novembre 2009, photographiée par James Duncan Davidson. Vivre dans des flux Nous vivons dans des flux, comme l’expliquait Nova Spivack, c’est-à-dire dans un monde où l’information est partout. « Cette métaphore est puissante », rappelle danah boyd. « L’idée suggère que vous viviez dans le courant : y ajoutant des choses, les consommant, les réorientant. » 4 fausses idées sur la révolution numérique 1. 2. 3. 4. Inattention ? Hubert Guillaud

Quand nos requêtes aident à tracer les évolutions de la grippe Par Hubert Guillaud le 20/11/08 | 3 commentaires | 4,281 lectures | Impression Google vient de dévoiler un outil expérimental, baptisé Google Flu Trends, capable de tracer l’intensité et l’étendu des fluctuations de la grippe à travers les Etats-Unis, simplement en observant les requêtes sur ce sujet des utilisateurs de son moteur de recherche. Google Flu Trends s’appuie sur un constat simple : avant d’aller chez le docteur, nombre d’internautes ont tendance à chercher des informations sur les symptômes qu’ils ressentent. L’outil de Google se contente d’agréger les données relatives à la grippe tapées par les internautes dans son moteur et à les géolocaliser comme il le propose sur Google Insight, le service d’analyse des requêtes des internautes. D’autres systèmes existent encore comme HealthMap, qui permet de cartographier des informations de santé pour montrer comment se répandent des maladies.

La sérendipité est-elle un mythe La lecture de la semaine, il s’agit d’un article paru le 27 novembre dernier dans TechCrunch, sous la plume de Henry Nothaft, qui est le co-fondateur d’une entreprise qui développe un assistant personnel virtuel pour les contenus Web. Ce papier s’intitule « Le mythe de la sérendipité ». Selon l’auteur, un des concepts les plus intéressants ayant émergé ces derniers temps dans les médias et les nouvelles technologies est celui de sérendipité. Voici comment il définit le terme de sérendipité : « le fait de montrer aux gens ce qu’ils n’étaient pas conscients de chercher ». Je me permets juste une incise : cette définition de la sérendipité est assez étrange. On aurait plutôt tendance à considérer la sérendipité comme un effet du hasard : je cherche quelque chose et, par hasard, je tombe sur autre chose qui m’intéresse aussi (Wikipédia). Image : pour Google, Serendipity est un film, une romance de 2001 signée Peter Chelsom avec Kate Beckinsale et John Cusack. Xavier de la Porte

Web-mining.fr Big Data, Speed and the Future of Computing Big data is, yes, about more data — the rising flood from corporate databases, Web browsing trails, sensors and social network communications. But it is just as much about speed. If “big data” is more than a marketing term, it has to be the raw material for making smarter decisions, faster. And that means, as the big-data industry evolves, the need for groundbreaking new approaches to computing, both in hardware and software. A simple example: the Watson question-answering computer that beat two human “Jeopardy!” The speed requirement meant I.B.M.’s Watson had to do its near-instant data digging in memory instead of finding data on hard disks. But getting answers quickly in the world of big data necessitates this new approach, called in-memory processing. Early signs of the move toward this new architecture can be seen in recent announcements of new computer appliances designed for high-speed data applications. Mr. In discussing the path over the next decade, Mr.

État des lieux de l’OpenData en France Cet état de l’art a été initialement publié en anglais sur le site de l’Open Knowledge Foundation, le 20 janvier 2010. L’OKFN est une organisation anglaise en pointe sur l’OpenData. Elle est notamment à l’origine du projet WhereDoesMyMoneyGo.org, de l’OpenDefinition pour des standards de données ouvertes et du registre de données participatif CKAN. Ce registre, en cours de traduction dans plusieurs pays européens, est repris par le gouvernement anglais pour l’architecture de son projet data.gov.uk. La France traîne des pieds… Aucun doute possible : pour ce qui est d’ouvrir ses données, la France est largement en retard par rapport à de nombreux pays. Alors que les États-Unis et le Royaume-Uni ont énormément avancé au cours des deux dernières années en dévoilant leurs projets data.gov et data.gov.uk, la France et la plupart des pays d’Europe méditerranéenne restent très conservateurs en matière de données publiques. Quelques avancées de l’État mais un accès peu ouvert

Related:  opendata