background preloader

Big Data : Making sense at scale

Big Data : Making sense at scale
D'un récent voyage dans la Silicon Valley (merci aux amis du Orange Institute), je rentre avec une conviction : tout ce que nous connaissions du web va changer à nouveau avec le phénomène des big data. Il pose à nouveau, sur des bases différentes, presque toutes les questions liées à la transformation numérique. En 2008, l’humanité a déversé 480 milliards de Gigabytes sur Internet. En 2010, ce furent 800 milliards de Gygabytes, soit, comme l’a dit un jour Eric Schmidt, plus que la totalité de ce que l’humanité avait écrit, imprimé, gravé, filmé ou enregistré de sa naissance jusqu’en 2003. Ces données ne sont pas toutes des oeuvres. Naviguer dans ce nouveau web demande une nouvelle science. L’actualité de la semaine nous a donné une petite illustration de ce qui se passe à grande échelle. Le web était globalement transactionnel. Le web, aujourd'hui, produit aujourd’hui des masses de données, des masses de sens, qui échappent complètement aux principaux acteurs.

Données libérées, chercheurs débridés, société impliquée » Article » OWNI, Digital Journalism Si les chercheurs avaient déjà pris conscience de la nécessité de libérer leurs publications, ils avaient négligé leurs données. Les scientifiques s'aperçoivent qu'il faut organiser leur diffusion. Jusqu’à très récemment, les données étaient les parents pauvres de la recherche scientifique, particulièrement en biologie. Données libérées Mais que sont exactement ces données ? Avec Internet, nous assistons en effet au développement de l’e-Science. Ce mouvement a véritablement décollé lorsque les généticiens du Consortium international de séquençage du génome humain se sont réunis aux Bermudes en février 1996 pour convenir, ensemble, du mode de publication de la séquence du génome humain. Dans la perspective de l’e-Science, les données autant que les articles doivent être ouverts, libérés. Chercheurs débridés Société impliquée De manière plus inattendue, l’ouverture des données issues de la recherche peut contribuer à impliquer de nouveau la société civile dans la science. Pour en savoir plus

A computational journalism reading list [Last updated: 18 April 2011 -- added statistical NLP book link] There is something extraordinarily rich in the intersection of computer science and journalism. It feels like there’s a nascent field in the making, tied to the rise of the internet. The last few years have seen calls for a new class of “programmer journalist” and the birth of a community of hacks and hackers. Meanwhile, several schools are now offering joint degrees. But we’ll need more than competent programmers in newsrooms. I’d like to propose a working definition of computational journalism as the application of computer science to the problems of public information, knowledge, and belief, by practitioners who see their mission as outside of both commerce and government. “Computational journalism” has no textbooks yet. Data journalism Data journalism is obtaining, reporting on, curating and publishing data in the public interest. Tamara Munzner’s chapter on visualization is the essential primer.

Partager des données pour mieux réagir face aux catastrophes naturelles » Article » OWNI, Digital Journalism Les catastrophes humanitaires pourraient, dans certains cas, être évitées si les gouvernements collectaient et partageaient les données sur les risques au niveau international. Titre original : Le partage des données pourrait permettre d’éviter certaines catastrophes Les catastrophes humanitaires provoquées par les tremblements de terre, inondations et autres phénomènes naturels pourraient dans certains cas être évitées si les gouvernements collectaient et partageaient les données sur les risques au niveau international. C’est ce que conclut un rapport produit par la Banque mondiale et les Nations unies. La collecte et le partage de données peuvent permettre d’élaborer une carte internationale des risques destinée à faciliter des prévisions plus sophistiquées au niveau local. De nombreux gouvernements et de nombreuses autorités publiques cachent leurs données ou ont besoin d’être persuadés de la nécessité de partager l’information, a-t-il dit. >> Retrouvez tous les articles d’OWNIsciences

Real-Time Data And A More Personalized Web - Smashing Magazine Advertisement As Web designers, we face a daily struggle to keep pace with advances in technology, new standards and new user expectations. We spend a large part of our working life dipping in and out of recent developments in an attempt to stay both relevant and competitive, and while this is what makes our industry so exciting to be a part of, it often becomes all too easy to get caught up in the finer details. Responsive Web design, improved semantics and rich Web typography have all seen their fair share of the limelight over the last year, but two developments in particular mark true milestones in the maturation of the Web: “real-time data” and a more “personalized Web.” Since the arrival of the new Web, we’ve been enraptured by social media. Web gurus and industry analysts are simultaneously arriving at the same conclusion: we are entering a new chapter in the evolution of the Web. Welcome to the new era. Real-Time Data Real-time data is making waves in Web analytics. Summary (al)

"Regards citoyens" révèle les secrets des administrations, actualité Tech & Net : Le Point Regards citoyens est une association qui publie des données publiques que l'administration voudrait parfois garder pour elle. À son actif, le projet NosDéputés.fr notamment, qui avait suscité la colère du président de l'Assemblée nationale car il mettait en lumière l'absentéisme de certains élus. Vendredi 26 novembre, l'association lance une "chasse aux trésors" pour recenser les données publiques disponibles et lancer de nouveaux projets. Le Point.fr : Qu'est-ce que l'OpenData ? Tangui Morlier : L'OpenData, c'est l'accessibilité des données publiques. Pourquoi cette "chasse aux trésors" des données publiques ? Nous voulons recenser les données existantes et ce qu'on a le droit de faire avec. Concrètement, comment faites-vous pour récolter les données ? C'est plus ou moins simple selon les cas. Justement, comment ça marche à l'étranger ? Les pays anglo-saxons sont très en avance, ils ont une réelle volonté politique de donner accès aux données publiques.

Tools to help bring data to your journalism « Michelle Minkoff NOTE: This entry was modified on the evening of 11/9/10 to deal with typos and missing words, resulting from posting this too late the previous night. Sleep deprivation isn’t always a good thing — although it allows one to do things more fun than sleep. Like play with data. Note to self: Be more careful in the future. Many of the stories we do every day, across beats, could benefit from a data component. Luckily, a lot of great design and programming folks have created tools to make it easier to organize, clean and display data. So, here’s a round up of some tools you can use to rapidly produce data pieces without programming knowledge. Prepping tables Tableizer – – Copy and paste cells from your Excel spreadsheet into this tool, and it’ll spit back a formatted HTML table that you can copy and paste into a CMS of your choice. Interactive viz – no programming Static viz Use programming to make custom charts

Reasons for not releasing data in government » Article » OWNI.eu, Digital Journalism We’re in the first workshop of the day at the CEBIT Gov 2.0 conference. It is led by Andrew Stott, the Director for Digital Engagement for the UK government. The first exercise of the day has been to come up with reasons that government may give for not releasing data online. I don’t know if I’m happy or disappointed that our table did the best – coming up with 36 reasons (second was a table with 27). I’ve listed them below – and added an additional set that Andrew says that he has also encountered in his role. Note there are no value-judgements implied as to the validity of these reasons in specific cases. Reasons for not releasing government data: 1. Here’s Andrew’s additional reasons: This article originally appeared on eGov AU Photo Credits: Flickr CC opensourceway

Orange - Data Mining Fruitful & Fun Tim Berners-Lee: “Les gouvernements devraient encourager l’ouverture des données” » Article » OWNI, Digital Journalism De l'ouverture des données publiques à l'avenir du réseau en passant par HTML 5, retour sur ce que devient le web avec l'un de ses principaux inventeurs. A l’occasion d’une conférence annuelle du W3C qui s’est tenue le 2 novembre dernier à Lyon, la rédaction du MagIT a rencontré Tim Berners-Lee, le père du Web et un des patrons du consortium. Au programme, le Web sémantique, l’ouverture des données, HTML 5 et la fondation W3. Le Web sémantique évolue-t-il au rythme que vous espériez ? Tim Berners-Lee : Je n’avais pas de prévisions à proprement dit. L’approche sémantique émerge également sur le desktop, comme Nepomuk (un projet de desktop sémantique qui fait une première apparition dans Mandriva 2010), peut être plus rapidement sur le Web. Quel est aujourd’hui le niveau de maturité des outils en place ? TBL : Quand on considère le Web sémantique, développer de nouveaux outils est toujours fascinant, tout se connecte et s’auto-alimente. Tim Berners-Lee, prophète de l'open data?

The 70 Online Databases that Define Our Planet Back in April, we looked at an ambitious European plan to simulate the entire planet. The idea is to exploit the huge amounts of data generated by financial markets, health records, social media and climate monitoring to model the planet’s climate, societies and economy. The vision is that a system like this can help to understand and predict crises before they occur so that governments can take appropriate measures in advance. There are numerous challenges here. Nobody yet has the computing power necessary for such a task, neither are there models that will can accurately model even much smaller systems. Today, we get a grand tour of this challenge from Dirk Helbing and Stefano Balietti at the Swiss Federal Institute of Technology in Zurich. It turns out that there are already numerous sources of data that could provide the necessary fuel to power Helbing’s Earth Simulator. WikipediaWikipedia is the most famous cooperatively edited encyclopedia. Where’s George?

Related: