background preloader

Vers un monde de données ?

Vers un monde de données ?
Nous sommes entrés dans un monde de données, dans un monde où les données sont en passe de devenir l’essence même de la connaissance et de l’information. La donnée (data) est la plus petite part d’information accessible, à la manière des zéros et des uns qui constituent les bits d’information à l’heure du numérique. Elle est déterminée par des valeurs, par des champs qui s’appliquent à elle et la qualifie. Avec l’informatisation de notre quotidien, tout devient données. Les données sont le moteur du web sémantique de Tim Berners-Lee (ce web de données ou web 3.0) comme du web² de John Battelle et Tim O’Reilly. C’est le moteur du web implicite, celui qui comprend le moindre de nos clics. Ces données deviennent intelligentes par leur recoupement et leurs capacités à adapter notre environnement au contexte que les machines perçoivent de nous via leurs capteurs. Ces données sont multiples, hétéroclites, hétérogènes, mais elles se relient les unes aux autres. Hubert Guillaud Related:  Intelligence Collective

Big data Un article de Wikipédia, l'encyclopédie libre. Une visualisation des données créée par IBM[1] montre que les big data que Wikipedia modifie à l'aide du robot Pearle ont plus de signification lorsqu'elles sont mises en valeur par des couleurs et des localisations[2]. Croissance et Numérisation de la Capacité de Stockage Mondiale de L'information[3]. Dans ces nouveaux ordres de grandeur, la capture, le stockage, la recherche, le partage, l'analyse et la visualisation des données doivent être redéfinis. Certains supposent qu'ils pourraient aider les entreprises à réduire les risques et faciliter la prise de décision, ou créer la différence grâce à l'analyse prédictive et une « expérience client » plus personnalisée et contextualisée. Dimensions des big data[modifier | modifier le code] Le Big Data s'accompagne du développement d'applications à visée analytique, qui traitent les données pour en tirer du sens[15]. Volume[modifier | modifier le code] Variété[modifier | modifier le code]

Scraping for Journalism: A Guide for Collecting Data Photo by Dan Nguyen/ProPublica Our Dollars for Docs news application lets readers search pharmaceutical company payments to doctors. We’ve written a series of how-to guides explaining how we collected the data. Most of the techniques are within the ability of the moderately experienced programmer. The most difficult-to-scrape site was actually a previous Adobe Flash incarnation of Eli Lilly’s disclosure site. These recipes may be most helpful to journalists who are trying to learn programming and already know the basics. If you are a complete novice and have no short-term plan to learn how to code, it may still be worth your time to find out about what it takes to gather data by scraping web sites -- so you know what you’re asking for if you end up hiring someone to do the technical work for you. The tools With the exception of Adobe Acrobat Pro, all of the tools we discuss in these guides are free and open-source. Ruby – The programming language we use the most at ProPublica.

Du rôle prédictif des données à la gouvernementalité algorithmique Sur Place de la Toile, le 12 décembre dernier, Xavier de la Porte recevait Guillaume Main, consultant et statisticien, qui s’occupe du site Statosphère ; Erick Alphonse, maître de conférences au Laboratoire d’Informatique de Paris-Nord (LIPN) et responsable d’Idaaas, une société qui construit des modèles prédictifs, notamment via PredictiveDB, un logiciel prédictif et Antoinette Rouvroy, chercheuse au Fonds national de la Recherche scientifique, qui travaille sur les formes de pouvoir induites par l’usage des données. Réécouter l’émission en ligne, ou parcourez le transcript augmenté de liens. Il y a de multiples formes de données, rappelle en préambule Xavier de la Porte : données sociales, messages, commentaires, celles qu’on publie chez les autres ou que les autres publient sur soi. Xavier de la Porte : Quels sont les modèles prédictifs ? Une autre étude récente a utilisé Twitter pour tenter d’anticiper de deux-trois jours les cours du Down Jones. Erick Alphonse : Oui.

Big Data : faire du sens à grande échelle » Article » OWNI, Digital Journalism Après l'open-data la nouvelle tendance tout droit venue des US sera-t-elle le « big data » ? D’un récent voyage dans la Silicon Valley (merci aux amis du Orange Institute), je rentre avec une conviction : tout ce que nous connaissions du web va changer à nouveau avec le phénomène des big data. Il pose à nouveau, sur des bases différentes, presque toutes les questions liées à la transformation numérique. En 2008, l’humanité a déversé 480 milliards de Gigabytes sur Internet. En 2010, ce furent 800 milliards de Gygabytes, soit, comme l’a dit un jour Eric Schmidt, plus que la totalité de ce que l’humanité avait écrit, imprimé, gravé, filmé ou enregistré de sa naissance jusqu’en 2003. Ces données ne sont pas toutes des œuvres. Naviguer dans ce nouveau web demande une nouvelle science. Qu’est-ce qui change avec les big data ? L’actualité de la semaine nous a donné une petite illustration de ce qui se passe à grande échelle. On sent bien que l’on est tout près d’un phénomène d’émergence.

Open Data: Paris place ses données publiques sous licence ODbL Les données publiques ouvertes (non, il ne s'agit pas de WikiLeaks :-)), on en parle dans le monde, des gouvernements ont créé des portails vers leurs données ouvertes comme aux Etats-Unis (data.gov) ou en Grande-Bretagne (data.gov.uk). Et en France? Ça avance au moins localement, puisque ce mardi le Conseil de Paris a voté une délibération (PDF) approuvant «la licence Open Data relative à la diffusion par la ville de Paris des données publiques en sa possession». L'Hôtel de ville de Paris, image de Benh Lieu Song (sur Wikipédia), sous licence Creative Commons by-sa Le principe en avait été validé lors du conseil de Paris des 7 et 8 juin 2010. il prépare les contrats de licence types adaptés à chaque catégorie de données et à leurs finalités en veillant à garantir, pour l’ensemble des données diffusées, les principes d’accès libre et non discriminatoire de réutilisation et de rediffusion des données pour tout usage non commercial.» Libre accès seulement ou libre usage? A suivre! Sur la Toile

The World According to LINQ Erik Meijer editor's note: This article uses many mathematical symbols that may not render propery in your browser. If the symbols do not display, you may wish to read the article in PDF format Programmers building Web- and cloud-based applications wire together data from many different sources such as sensors, social networks, user interfaces, spreadsheets, and stock tickers. Mathematicians long ago observed similarities between seemingly different mathematical structures and formalized this insight via category theory, specifically the notion of monads9 as a generalization of collections. LINQ was introduced in C# 3.0 and Visual Basic 9 as a set of APIs and accompanying language extensions that bridge the gap between the world of programming languages and the world of databases. Take, for example, Apache's Hadoop5 ecosystem. Standard Query Operators and LINQ The standard File.ReadAllText method provides the content of the file as a single giant string. Datacentric Interpretation

Quand nos requêtes aident à tracer les évolutions de la grippe Par Hubert Guillaud le 20/11/08 | 3 commentaires | 4,281 lectures | Impression Google vient de dévoiler un outil expérimental, baptisé Google Flu Trends, capable de tracer l’intensité et l’étendu des fluctuations de la grippe à travers les Etats-Unis, simplement en observant les requêtes sur ce sujet des utilisateurs de son moteur de recherche. Google Flu Trends s’appuie sur un constat simple : avant d’aller chez le docteur, nombre d’internautes ont tendance à chercher des informations sur les symptômes qu’ils ressentent. L’outil de Google se contente d’agréger les données relatives à la grippe tapées par les internautes dans son moteur et à les géolocaliser comme il le propose sur Google Insight, le service d’analyse des requêtes des internautes. D’autres systèmes existent encore comme HealthMap, qui permet de cartographier des informations de santé pour montrer comment se répandent des maladies.

La sérendipité est-elle un mythe La lecture de la semaine, il s’agit d’un article paru le 27 novembre dernier dans TechCrunch, sous la plume de Henry Nothaft, qui est le co-fondateur d’une entreprise qui développe un assistant personnel virtuel pour les contenus Web. Ce papier s’intitule « Le mythe de la sérendipité ». Selon l’auteur, un des concepts les plus intéressants ayant émergé ces derniers temps dans les médias et les nouvelles technologies est celui de sérendipité. Voici comment il définit le terme de sérendipité : « le fait de montrer aux gens ce qu’ils n’étaient pas conscients de chercher ». Je me permets juste une incise : cette définition de la sérendipité est assez étrange. On aurait plutôt tendance à considérer la sérendipité comme un effet du hasard : je cherche quelque chose et, par hasard, je tombe sur autre chose qui m’intéresse aussi (Wikipédia). Image : pour Google, Serendipity est un film, une romance de 2001 signée Peter Chelsom avec Kate Beckinsale et John Cusack. Xavier de la Porte

Web-mining.fr Big Data, Speed and the Future of Computing Big data is, yes, about more data — the rising flood from corporate databases, Web browsing trails, sensors and social network communications. But it is just as much about speed. If “big data” is more than a marketing term, it has to be the raw material for making smarter decisions, faster. And that means, as the big-data industry evolves, the need for groundbreaking new approaches to computing, both in hardware and software. A simple example: the Watson question-answering computer that beat two human “Jeopardy!” The speed requirement meant I.B.M.’s Watson had to do its near-instant data digging in memory instead of finding data on hard disks. But getting answers quickly in the world of big data necessitates this new approach, called in-memory processing. Early signs of the move toward this new architecture can be seen in recent announcements of new computer appliances designed for high-speed data applications. Mr. In discussing the path over the next decade, Mr.

The Good, the Sad and the Nerdy « Stop. Datatime. I do hope that most of you have paid attention to the first British election debate held last week on national television. The leaders of the three main parties were invited to discuss questions asked by a sample of British citizens and selected beforehand by broadcasters. A fortnight before the main event, a set of 76 detailed rules were announced, to prevent from any kind of uneven treatment. Just like for any other political live debate, the issue of airtime was most crucial. Besides, I found it worthy of interest that the audience was carefully selected in order not to favour a political party over the other two. It was ensured that at least 80% of them declared a voting intent, with the final selection to ensure a ratio of 7:7:5 between Labour, Conservative and Liberal Democrat voters. Many issues were addressed in this first electoral debate : Education, Immigration, Law and Order, NHS, Family, Defence… The full house, pretty much. Da-tax heaven : “Where Does My Money Go ?”

Où est passé la puissance de la “pensée visuelle” Dans le dernier numéro de Wired, l’éditorialiste Clive Thompson évoque la puissance de la pensée visuelle, c’est-à-dire celle qui s’exprime par le dessin plutôt que par les mots. Pour cela, il convoque le dernier livre de Dan Roam (blog), auteur du Retour de la serviette (The Back of the Napkin, évoquant la serviette en papier sur laquelle on griffonne souvent un petit schéma éclairant pendant un repas d’affaires), dans lequel ce dernier montre que notre culture repose trop fortement sur les mots. Nos systèmes scolaires et politiques sont conçus pour promouvoir des gens éloquents dont le mode de pensée est essentiellement verbal. Mais les problèmes dynamiques ou compliqués ne peuvent souvent pas se résumer à de simples récits. Image : à l’occasion d’une session sur le Mind Mapping, Fix avait commis ce petit dessin sur les cartes qui disent des choses et font parler. Clive Thompson estime que cela pourrait changer, car l’internet a montré l’utilité de l’image et des visualisations.

Related: