background preloader

Du contenu roi aux données reines

Du contenu roi aux données reines
Souvenez-vous… il y a quelques années, le contenu était considéré comme la matière première du web : Celui qui maîtrisait le contenu maitrisait le web (les portails qui agrégeaient de très nombreuses sources de contenu concentraient également l’audience). Puis il y a eu MySpace, les Skyblogs, Facebook, Twitter, FourSquare… et maintenant il parait que c’est la communauté qui est reine. Certes, les plateformes sociales sont indéniablement en haut des tableaux d’audience, mais je reste convaincu que sans contenus une communauté n’est pas viable. Comprenez par là que ce sont les contenus qui alimentent les conversations et font tourner les communautés. De ce point de vue là, les plateformes sociales ne sont qu’un intermédiaire entre le contenu et les internautes. Les données à la base du… journalisme de données Nous parlons bien ici de données brutes en très grande quantité (des chiffres) qu’il serait trop coûteux de traiter. Après les portails de contenus, les portails de données

Wen Mining Course Unit on Web Log Analysis Web Mining Course Modules To get the presentations, add www.kdnuggets.com/web_mining_course/ in front of ppt files below Module 1: Introduction to Web Mining wm1-web-mining-intro.pptModule 2a: Web Server Log wm2a-web-server-log.pptModule 2b: Unix tools for web log analysis wm2b-unix-web-log-analysis.pptModule 3a: Hit Analysis wm3a-hit-analysis.ppt Module 3b: Gawk tools for web log analysis< wm3b-gawk-web-log-analysis.ppt Module 4a: Visit Analysis; Bot or Not? wm4a-visit-analysis.ppt Module 4b: Perl tools for web log analysis wm4b-perl-web-log-analysis.ppt Basic Perl script for web log parsing (web_log_parse.txt) Module 5: Behavior modeling wm5-behaviour-analysis.ppt Assignments Note: Professors using these modules can get answers by contacting Gregory Piatetsky directly at gregory at kdnuggets dot com. Data This data can be downloaded from kdlog.zip (0.6 MB) in www.kdnuggets.com/web_mining_course/ directory. First 100 log lines are in the unzipped file d100.log in the same directory.

L'exploration des données à la portée des non-initiés En téléchargeant un module d'extension du tableur Excel développé par 11Ants, les TPE-PME peuvent accéder à des outils d'analyse mathématiques auparavant réservés aux seuls experts. Pour amener les petites et moyennes entreprises (PME) à se servir d'outils de modélisation mathématiques et de prévision statistique, il faut intégrer ceux-ci dans des logiciels qu'elles connaissent. En suivant cette logique, 11Ants propose une solution qui intègre des fonctions de calculs de probabilités et d'analyse prédictive à Excel. "Nous éliminons l'intimidation des non-initiés en intégrant des outils de 'data mining' à un environnement qui leur est familier", explique à L'Atelier Tom Fuyala, l'un des responsables du projet. Plus concrètement, les fonctions introduites correspondent à une série de techniques mathématiques développées par l'université néo-zélandaise de Waikato. Des algorithmes ajoutés aux paramètres Une solution avantageuse pour les petites entreprises

Six Stunning Projects That Show the Power of Data Visualization Data visualization is taking the web by storm and, with a little luck, it might be the next big thing in online journalism. Buoyed by the open data movement and accelerating change in newsrooms around the country, it has become something more than just flashy graphics and charts — it is a new form of visual communication for the 21st century. In the coming months, I’ll be writing about this emerging field for MediaShift. What is Data Visualization? At its core, data visualization is the visual representation of information served up with a healthy dose of innovation and creativity. This periodic table of visualization methods by the folks over at VisualLiteracy.org illustrates a number of different elements or viz building blocks. Below, you’ll find six examples of data visualization from around the web and across the globe that provide an overview of the techniques and approaches to data visualization. 1. Hans Rosling makes stats come alive 2. An image from the Geography of a Recession 3.

Qu'est-ce que le Big Data Quand Henri Verdier, CEO de Cap Digital, revient de Silicon Valley en s'écriant «tout ce que nous connaissions du web va changer à nouveau avec le phénomène des big data», il est temps de faire un petit tour d'horizon. «Big Data» est une expression qui circule depuis quelque temps dans la niche hi-tech de l'informatique dématérialisée (computer in the cloud) et qui fait référence aux outils, processus et procédures permettant à une entreprise de créer, manipuler et gérer de très larges quantités de données. (What is "Big Data?" Si les géantes corporations (on pense à Google, Visa, eBay, Amazon) sont déjà sur ce terrain, la possibilité de gérer du «Big Data» commence à être accessible pour les plus petites entreprises (Big data analytics: From data scientists to business analysts, O'Reilly Radar). La démocratisation est en cours, et le «Big Data» s'installera au coeur des entreprises qui sauront y donner une valeur. La gestion de ces énormes bases ne se fait pas sans mal. Autres liens:

Le « journalisme artificiel » est en ligne C’était annoncé, c’est désormais chose faite. Les premiers articles entièrement rédigés par des « robots » sont en ligne sur le site de StatSheet. Pour l’instant, ces « journalistes artificiels » ne couvrent que le sport, mais Robbie Allen, le fondateur de cette startup américaine estime que cette technologie pourrait être utilisée à l’avenir dans d’autres domaines. Dans un article publié par Le Monde en mars 2009, Yves Eudes décrivait Stats Monkey, un programme d’intelligence artificielle développé par un laboratoire d’intelligence artificielle (infolab), rattaché à l’université de Northwestern, à Chicago: Il [Stats Monkey] travaille automatiquement de A à Z. À l’époque, l’article avait suscité une certaine émotion. Pour certains sujets, nous ne faisons appel ni à des journalistes, ni à des redacteurs humains. Les robots de StatSheet, vu par Robbie Allen, son fondateur Avec StatSheet, en tout cas, le pas est franchi [le site semble encore instable]. Le résultat est surprenant.

Planète Web Sémantique C Semantic Web Activity The Semantic Web is a web of data. There is lots of data we all use every day, and it is not part of the web. I can see my bank statements on the web, and my photographs, and I can see my appointments in a calendar. But can I see my photos in a calendar to see what I was doing when I took them? Can I see bank statement lines in a calendar? Why not? The Semantic Web is about two things. See also the activity news for an account of recent events, publications, etc. The following groups are part of the Semantic Web Activity. Active Groups Semantic Web Coordination Group The Semantic Web Coordination Group is tasked to provide a forum for managing the interrelationships and interdependencies among groups focusing on standards and technologies that relate to this goals of the Semantic Web Activity. RDFa Working Group RDF Working Group The mission of the RDF Working Group, is to update the 2004 version of the Resource Description Framework (RDF) Recommendation. Linked Data Platform Working Group

Les petites cases | Fourre-tout personnel virtuel de Got Web sémantique, Web de données : présentation On désigne généralement par le terme de Web sémantique un ensemble de technologies développé par le W3C (l'un des principaux organismes de normalisation du Web) visant à faciliter l'exploitation des données structurées, notamment en permettant leur interprétation par des machines. Le Web de données (Linked Data en anglais) combine les technologies du Web sémantique avec les principes fondamentaux du Web (protocole HTTP, identifiants URI), avec pour objectif la construction d'un réseau d'informations structurées, disponibles en ligne et facilement réutilisables dans de nombreux contextes. Le Web sémantique Le terme de Web sémantique a été proposé par Tim Berners Lee en 2001 (« The Semantic Web », Scientific American Magazine , May 17, 2001) pour désigner une évolution du Web qui permettrait aux données disponibles (contenus, liens) d’être plus facilement utilisables et interprétables automatiquement, par des agents logiciels . Le Web de données Autres ressources majeures :

Related: