open_data, web de données, indexation

FacebookTwitter

Pourquoi le dogme de la gratuité des données publiques freine la diffusion de l’open data

Toutes les entreprises qui exploitent de l’information publique à des fins commerciales, qui savent « faire parler » et valoriser les données publiques parviennent au même constat : pour développer un modèle économique viable à partir de l’open data, il faut que les données respectent un triptyque indissociable : fraîcheur, qualité documentaire et exhaustivité. Il suffirait d’ailleurs, pour s’en convaincre, de suivre le débat naissant sur la qualité des données issues de l’open data (1) . Toutefois, seules les administrations dont la diffusion des données fait partie intégrante de la mission (IGN, INSEE, INPI, DILA, Météo-France,…) disposent actuellement des compétences et des budgets pour satisfaire ledit triptyque. La grande majorité des autres administrations qui détiennent ces données publiques enfouies ne sont ni organisées, ni préparées pour les diffuser. http://www.lagazettedescommunes.com/149488/pourquoi-le-dogme-de-la-gratuite-des-donnees-publiques-freine-la-diffusion-de-l%e2%80%99open-data/
http://www.nonfiction.fr/article-5857-le_data_journalism_langage_dinformation_emergent.htm Le data journalism, langage d'information émergent [vendredi 01 juin 2012 - 17:00] Les Data Journalism Awards ont été décernés hier pour la première fois, récompensant les meilleurs projets de ce genre émergent. "Raconter une histoire à partir de données" : voilà comment on pourrait définir de manière simple le data journalism.

Le data journalism, langage d'information émergent

Les Inrocks - Les moteurs de recherche auront-ils bientôt réponse à tout?

Alors que les moteurs de recherche (Google, Bing…) permettent toujours d’obtenir un certain type de réponses (des liens identifiant les sites où se trouve peut-être l’info que l’on recherche), les initiatives se sont multipliées récemment pour améliorer leur pertinence et leurs champs de réponses. Google, qui ne cesse de chercher à perfectionner son algorithme – récemment en intégrant des résultats de son réseau social Google+ -, est en train de lancer Knowledge Graph. Via ce système, en plus de donner des liens renvoyant vers des sites, Google donnera instantanément des informations puisées dans diverses bases de données (dont celles de Wikipedia et du CIA World Factbook). Par exemple, pour une requête sur une personnalité, il fournira ses dates de naissance et de décès, ses domaines d’activité, le nom de ses parents, une liste de ses réalisations, des photos. http://www.lesinrocks.com/2012/06/23/medias/les-moteurs-de-recherche-auront-ils-reponse-tout-11269861/
Suite aux élections législatives du 17 juin 2012, le gouvernement possède désormais la majorité parlementaire nécessaire à la mise en œuvre de sa politique, notamment en matière d’ouverture des données publiques. Plusieurs éléments semblent propices au développement d’une politique nationale ambitieuse sur le sujet :

Open Data : 20 questions qui se posent au gouvernement français «

http://libertic.wordpress.com/2012/06/17/open-data-20-questions-qui-se-posent-au-gouvernement-francais/
La majorité du Web est destiné à être lu. Il n'est pas fait pour être manipulé de façon intelligente par des programmes informatiques, en général incapables de caractériser les informations qu’ils parcourent. Le Web sémantique vise à faciliter l'exploitation des données structurées, pour donner du sens au contenu des pages Web, en permettant leur interprétation par des machines. http://www.enssib.fr/le-dictionnaire/web-semantique

Web sémantique | Enssib

Accueil | Enssib

http://www.enssib.fr/le-dictionnaire/accueil L’accueil est un des mots polysémiques dont les bibliothécaires raffolent (comme service public, par exemple). Il désigne tantôt l’activité d’accueil (médiation, interaction) accomplie dans les bibliothèques, tantôt les services proposés à des publics spécifiques (et en fonction de leur spécificité), tantôt les opérations et outils de fidélisation ou d’extension des publics (communication, horaires, tarification…). Les deux premières acceptions sont traitées ici. Littérature abondante. Quelques ressources enssib sont listées ci-dessous.

Partager ne veut pas dire ouvrir

http://opendatarennes.wordpress.com/2012/05/09/partager-ne-veut-pas-dire-ouvrir/ Suite à plusieurs rencontres, faites aussi bien au sein du collectif ou d’autres engagements personnels ou professionnels, je rencontre, lis ou entend régulièrement des personnes intéressées par le partage de données ou de contenus en ligne, en particulier dans le milieu muséal ou patrimonial. Certains sont encore sceptiques quant aux avantages, craignant, qui pour son image, qui pour ses euros : pour une fois, ce billet ne les concerne (presque) pas. D’autres ont franchi le pas et se sont décidés à ouvrir leurs données, à les émanciper, à les rendre « libres ». Chouette !
Le portail français d'ouverture des données publiques, data.gouv.fr publie sur son site des données truffées d'erreurs, donc inutilisables. Le problème, identifié il y a plusieurs semaines, n'a toujours pas été traité. Nous avons demandé à Etalab, la mission chargée de la coordination du site, de s'expliquer. Depuis peu, le site data.gouv.fr met en avant sur sa page d’accueil trois sets de données particulièrement attractifs : la liste des attributaires des marchés publics d’État pour les années 2008 , 2009 et 2010 .

Les mauvaises données des marchés

http://owni.fr/2012/06/12/les-mauvaises-donnees-des-marches/

Banaliser l’Opendata

http://blog.grandesvilles.org/3055/administration-electronique/banaliser-l%e2%80%99opendata/ A dénombrer le nombre de colloques et de communiqués sur le sujet, force est de constater que le mouvement de l’open data est bien enclenché en France, comme en témoigne du reste la carte de France de l’open data remise à jour par Libertic . Si plus de 900 jeux de données sont désormais en libre accès, les retombées économiques promises par les experts semblent cependant encore loin. Les applications créées sont souvent redondantes et limitées géographiquement, empêchant les porteurs de projets de trouver une viabilité économique.
http://lafeuille.blog.lemonde.fr/2012/06/12/lavenir-du-livre-est-dans-les-donnees/

L’avenir du livre… est dans les données

Mike Shatzkin ( @MikeShatzkin ), de retour de la Foire du livre américain ( Book Expo America ), a publié sur son blog quelques réflexions en désordre sur ce qu'il y a entendu et ce que cela lui a inspiré. Deux d'entre elles m'ont semblé suffisamment inspirantes pour vous en faire part. De l'importance des métadonnées Les métadonnées qui décrivent les livres sont toujours aussi mal organisées, estime Mike Shatzkin. Or, comme l'expliquait Jonathan Nowell ( @JontyNowell ), président de Nielsen Book Data , 40 à 80 % des ventes d'un titre dépendent de la qualité des métadonnées. Selon une étude (.pdf) menée par Nielsen Books, les ventes d'un titre de fonds (au format papier) peuvent augmenter de 42 % avec des métadonnées appropriées.

Une définition simple du web sémantique | Why bioub?

Pour paraître savant, il m’arrive de temps à autre de présenter BaseClip très vaguement : « on fait du web sémantique »… Je me doute bien que dans 99,99% des cas mon interlocuteur ne sait pas ce qui se cache derrière cette phrase, quand bien même il aurait déjà vu ou entendu l’expression. Logo BaseClip Mais alors le web sémantique, qu’est-ce que c’est ? Pour comprendre il faut commencer par s’intéresser à deux concepts de linguistique qui sont mis en opposition : la syntaxe et la sémantique . En somme la syntaxe porte sur la forme des phrases, c’est à dire les caractères et les mots employés, tandis que la sémantique concerne le fond , le sens.
Edition du 03/05/2012 - par Quentin Renard Dans le but de faciliter l'accès à leurs différents catalogues, la Bibliothèque Nationale de France et le Centre Pompidou adoptent le web sémantique dans la conception de leurs sites internet. Les responsables de ces projets s'expriment à l'occasion des conférences SemWeb.Pro du 02 mai 2012, à Paris. Romain Weinz, expert métadonnées de la Bibliothèque National de France (BnF) et Emmanuelle Bermès, Chef du service multimédia du Centre Pompidou, travaillent autour d'un enjeu commun : ouvrir un catalogue provenant de divers silos de données à l'internaute. A l'occasion des conférences SemWeb.Pro du 02 mai 2012, à Paris, chacun a développé sa façon de penser.

La BnF et le Centre Pompidou cultivent le web sémantique

Retour sur le Web de données

J'ai écrit le texte de ce billet en guise d'introduction aux technologies du Web sémantique pour le projet de publication selon les règles du Web de données du thésaurus pour l'indexation des archives locales publié par les Archives de France que j'ai mené pour Atos Origin avec le Service Interministériel des Archives de France au printemps 2010 (et sur lequel il faudra que je trouve le temps de revenir sur ce blog pour vous en dire plus...). Claire Sibille, conservateur en chef au SIAF, m'a très gentiment donné l'autorisation de republier ces textes sur mon blog. Je l'en remercie. Il s'agit d'une introduction générale en trois parties dont ce billet est la troisième et dernière :
Frustration 1 : les liens ne sont pas typés Les pages Wikipedia de Jean-Paul Sartre et Paris sont liées par un lien hypertexte. Un ordinateur voit ce lien, mais ignore que .

Le web des données | Bibliolab

Les atouts de la connaissance libre

Traduction de l’article « The power of free knowledge » de Geoff Brigham, conseiller juridique de la Wikimedia Foundation, publié le 29 mars 2012. Crédit photographique : Lane Hartwell, CC-BY-SA. Après le récent blackout destiné à lutter contre SOPA/PIPA , de nombreux médias ont décrit le débat comme une lutte d’influence entre la Silicon Valley et Hollywood.