background preloader

Open_data, web de données, indexation

Facebook Twitter

Joconde - espace professionnel - vocabulaires scientifiques - télécharger les vocabulaires. Pourquoi le dogme de la gratuité des données publiques freine la diffusion de l’open data. Toutes les entreprises qui exploitent de l’information publique à des fins commerciales, qui savent « faire parler » et valoriser les données publiques parviennent au même constat : pour développer un modèle économique viable à partir de l’open data, il faut que les données respectent un triptyque indissociable : fraîcheur, qualité documentaire et exhaustivité.

Pourquoi le dogme de la gratuité des données publiques freine la diffusion de l’open data

Il suffirait d’ailleurs, pour s’en convaincre, de suivre le débat naissant sur la qualité des données issues de l’open data (1). Toutefois, seules les administrations dont la diffusion des données fait partie intégrante de la mission (IGN, INSEE, INPI, DILA, Météo-France,…) disposent actuellement des compétences et des budgets pour satisfaire ledit triptyque. La grande majorité des autres administrations qui détiennent ces données publiques enfouies ne sont ni organisées, ni préparées pour les diffuser. Le data journalism, langage d'information émergent. La révolution des données ouvertes. Les moteurs de recherche auront-ils bientôt réponse à tout? Alors que les moteurs de recherche (Google, Bing…) permettent toujours d’obtenir un certain type de réponses (des liens identifiant les sites où se trouve peut-être l’info que l’on recherche), les initiatives se sont multipliées récemment pour améliorer leur pertinence et leurs champs de réponses.

Les moteurs de recherche auront-ils bientôt réponse à tout?

Google, qui ne cesse de chercher à perfectionner son algorithme – récemment en intégrant des résultats de son réseau social Google+ -, est en train de lancer Knowledge Graph. Via ce système, en plus de donner des liens renvoyant vers des sites, Google donnera instantanément des informations puisées dans diverses bases de données (dont celles de Wikipedia et du CIA World Factbook). La Tribune des Archives. Open Data : 20 questions qui se posent au gouvernement français « Suite aux élections législatives du 17 juin 2012, le gouvernement possède désormais la majorité parlementaire nécessaire à la mise en œuvre de sa politique, notamment en matière d’ouverture des données publiques.

Open Data : 20 questions qui se posent au gouvernement français «

Web sémantique. Accueil. Accueil L’accueil est un des mots polysémiques dont les bibliothécaires raffolent (comme service public, par exemple).

Accueil

Il désigne tantôt l’activité d’accueil (médiation, interaction) accomplie dans les bibliothèques, tantôt les services proposés à des publics spécifiques (et en fonction de leur spécificité), tantôt les opérations et outils de fidélisation ou d’extension des publics (communication, horaires, tarification…). Partager ne veut pas dire ouvrir. Suite à plusieurs rencontres, faites aussi bien au sein du collectif ou d’autres engagements personnels ou professionnels, je rencontre, lis ou entend régulièrement des personnes intéressées par le partage de données ou de contenus en ligne, en particulier dans le milieu muséal ou patrimonial.

Partager ne veut pas dire ouvrir

Certains sont encore sceptiques quant aux avantages, craignant, qui pour son image, qui pour ses euros : pour une fois, ce billet ne les concerne (presque) pas. D’autres ont franchi le pas et se sont décidés à ouvrir leurs données, à les émanciper, à les rendre « libres ». Les mauvaises données des marchés. Le portail français d'ouverture des données publiques, data.gouv.fr publie sur son site des données truffées d'erreurs, donc inutilisables.

Les mauvaises données des marchés

Le problème, identifié il y a plusieurs semaines, n'a toujours pas été traité. Nous avons demandé à Etalab, la mission chargée de la coordination du site, de s'expliquer. Depuis peu, le site data.gouv.fr met en avant sur sa page d’accueil trois sets de données particulièrement attractifs : la liste des attributaires des marchés publics d’État pour les années 2008, 2009 et 2010. Open data : un moteur de l'économie numérique. Banaliser l’Opendata. A dénombrer le nombre de colloques et de communiqués sur le sujet, force est de constater que le mouvement de l’open data est bien enclenché en France, comme en témoigne du reste la carte de France de l’open data remise à jour par Libertic.

Banaliser l’Opendata

Si plus de 900 jeux de données sont désormais en libre accès, les retombées économiques promises par les experts semblent cependant encore loin. L’avenir du livre… est dans les données. Mike Shatzkin (@MikeShatzkin), de retour de la Foire du livre américain (Book Expo America), a publié sur son blog quelques réflexions en désordre sur ce qu'il y a entendu et ce que cela lui a inspiré.

L’avenir du livre… est dans les données

Deux d'entre elles m'ont semblé suffisamment inspirantes pour vous en faire part. De l'importance des métadonnées Les métadonnées qui décrivent les livres sont toujours aussi mal organisées, estime Mike Shatzkin. Or, comme l'expliquait Jonathan Nowell (@JontyNowell), président de Nielsen Book Data, 40 à 80 % des ventes d'un titre dépendent de la qualité des métadonnées. Une définition simple du web sémantique. Pour paraître savant, il m’arrive de temps à autre de présenter BaseClip très vaguement : « on fait du web sémantique »… Je me doute bien que dans 99,99% des cas mon interlocuteur ne sait pas ce qui se cache derrière cette phrase, quand bien même il aurait déjà vu ou entendu l’expression.

Une définition simple du web sémantique

Logo BaseClip Mais alors le web sémantique, qu’est-ce que c’est ? Pour comprendre il faut commencer par s’intéresser à deux concepts de linguistique qui sont mis en opposition : la syntaxe et la sémantique. La BnF et le Centre Pompidou cultivent le web sémantique. Le 03/05/2012, par Quentin Renard, Terminaux et Systèmes, 468 mots Dans le but de faciliter l'accès à leurs différents catalogues, la Bibliothèque Nationale de France et le Centre Pompidou adoptent le web sémantique dans la conception de leurs sites internet.

La BnF et le Centre Pompidou cultivent le web sémantique

Les responsables de ces projets s'expriment à l'occasion des conférences SemWeb.Pro du 02 mai 2012, à Paris. Romain Weinz, expert métadonnées de la Bibliothèque National de France (BnF) et Emmanuelle Bermès, Chef du service multimédia du Centre Pompidou, travaillent autour d'un enjeu commun : ouvrir un catalogue provenant de divers silos de données à l'internaute. A l'occasion des conférences SemWeb.Pro du 02 mai 2012, à Paris, chacun a développé sa façon de penser. Huis clos. Le Département de Saône-et-Loire libère ses données.

Retour sur le Web de données. J'ai écrit le texte de ce billet en guise d'introduction aux technologies du Web sémantique pour le projet de publication selon les règles du Web de données du thésaurus pour l'indexation des archives locales publié par les Archives de France que j'ai mené pour Atos Origin avec le Service Interministériel des Archives de France au printemps 2010 (et sur lequel il faudra que je trouve le temps de revenir sur ce blog pour vous en dire plus...). Le web des données. Frustration 1 : les liens ne sont pas typés Les pages Wikipedia de Jean-Paul Sartre et Paris sont liées par un lien hypertexte. Les atouts de la connaissance libre.

Traduction de l’article « The power of free knowledge » de Geoff Brigham, conseiller juridique de la Wikimedia Foundation, publié le 29 mars 2012. Crédit photographique : Lane Hartwell, CC-BY-SA. Wikimédia France signe un partenariat avec la BnF. Communiqué de presse 7 / 04/ 2010 Format PDF. Présentation de Wikimedia France. Wikimédia France — Association pour le libre partage de la connaissance est une association à but non lucratif de droit français (loi 1901), dont le but est de soutenir en France la diffusion libre de la connaissance et notamment les projets hébergés par la Wikimedia Foundation comme l'encyclopédie Wikipédia, la médiathèque Wikimedia Commons, le dictionnaire Wiktionnaire et plusieurs autres projets liés à la connaissance.

Créée le 23 octobre 2004, elle regroupe des utilisateurs et des participants des projets Wikimedia. Elle est reconnue comme une association locale par la Wikimedia Foundation. Présentation de SemanticPedia à SemWebPro 2012. Lod-datasets_2010-09-22_colored.png (1481×964) Jean-Michel Salaün - Une approche documentaire du Web.

Données publiques / Open Data. Valorisation des données publiques culturelles, moteur d’une économie numérique. L’accès, l’organisation, de l’espace public numérique est l’objet d’une concurrence accrue entre les acteurs du secteur et questionne les modèles économiques établis jusqu’alors. L’un des enjeux apparaît ainsi être pour ces acteurs le développement de services innovants et attrayants permettant une mise à disposition au public de contenus dans un environnement Internet interopérable et sans frontière. Cette problématique trouve un écho particulier à l’heure où la réflexion s’intensifie autour des sujets liés à la diffusion et la valorisation des contenus culturels et plus encore des données publiques culturelles, sur Internet et les réseaux. De la description des documents à l’exploitation des données : le projet data.bnf.fr. HDA-Lab : expérimenter le tagging sémantique.

Une expérimentation sur des données du site Histoiredesarts.culture.fr Le site histoiredesarts.culture.fr recense 5000 ressources éducatives en ligne produites par 350 institutions culturelles. Cet annuaire, mis en œuvre en septembre 2010, a pour vocation d’aider la communauté éducative (enseignants, médiateurs culturels…) à trouver des documents fiables dans le domaine de l’histoire des arts. Www.archivesdefrance.culture.gouv.fr/static/4698. Journée d'étude sur l'Ouverture et réutilisation des données culturelles.

Journée d’étude du 19 avril. Archives « Archives masala. Conference.ifla.org/past/ifla77/149-bermes-fr.pdf. Www.archivesdefrance.culture.gouv.fr/static/4997. Le Web de données - Une playlist. Dailymotion Sign in. HdA Lab > Accueil. Etalab, mission chargée de l'ouverture des données publiques et du développement de la plateforme française Open Data. Web sémantique, Web de données : présentation. Gallica, la Bibliothèque numérique de la BnF. Gallica est l’une des plus importantes bibliothèques numériques accessibles gratuitement sur l’internet. Elle offre l'accès à tous types de documents : imprimés (livres, presse et revues) en mode image et en mode texte, manuscrits, documents sonores, documents iconographiques, cartes et plans.

Mrim.imag.fr/publications/2005/KEF05/kefi_inforsid2005.pdf. Carnet de recherche visuel, par Patrick Peccatte. Site web des Archives départementales du Cantal - actualités - nouveautés - Nouveautés - Nouveautés. Adbs 5 à 7 : une nouvelle norme pour le thesaurus.