background preloader

Thésaurus / Vocabulaire / Ontologie

Facebook Twitter

Sur l’alignement et la mise en correspondance de terminologies. XML vs RDF : logique structurelle contre logique des données. XML et RDF sont deux modèles différents d'encodage de l'information et, pourtant, ils sont souvent confondus. Le dernier exemple en date est la mise à disposition par la British Library de 14 millions de notices bibliographiques au format, je cite, « RDF/DC ». La confusion est patente de par l'absence d'URI pour identifier les ressources décrites. Or, en tant que lecteur régulier de ce blog, vous savez que l'URI est un des fondements du modèle RDF.

Il est vrai que la distinction n'est pas forcément évidente à appréhender au premier abord et la syntaxe RDF/XML n'arrange pas les choses. J'ai à plusieurs reprises sur ce blog expliqué ce qui différencie les deux modèles : le modèle de l'arbre ou de l'arborescence pour l'un et le modèle de graphes pour l'autre. Mais, ainsi dit, cela n'est peut-être pas clair. Je vous propose donc d'aborder la distinction sous l'angle de la validation des informations pour faire suite à un commentaire sur le Figoblog et la réponse de Manue. Comprendre RDF en moins de cinq minutes.

Dans le prolongement de mes billets RDF pour les nuls et A la découverte du Web sémantique, je vous propose de découvrir RDF en cinq minutes à travers quelques slides créés pour des formations au Web sémantique, que j'ai données ces dernières semaines. Il faudrait que je l'accompagne de l'explication de texte, mais le temps me manque... Il faudra donc s'en contenter ou vous référer aux différents billets de ce blog sur la question. PS : pour s'amuser, on fait un concours avec Manue : celui qui aura le plus de hit sur un diaporama sur son sujet favori. Alors, cliquez ! RDF pour les nuls. Préambule du 27 août 2007 : à la suite d'un bon billet de David sur RDF, je voulais ajouter en commentaire la référence vers ce billet que j'avais écrit le 8 septembre 2006 ; je me suis alors aperçu qu'il n'avait pas été récupéré lors de l'import de mon ancien blog.

Comme j'avais un peu la flemme de rechercher dans mes archives persos, mon sauveur se nomme Internet Archive dont le crawler salutaire avait indexé cette page. Qu'il en soit remercié. Le voici donc republié en l'état, en espérant que les commentateurs de l'époque m'excuseront le fait que je ne récupère pas leur prose ;-). Pour vous faire apprécier pleinement toute la substantifique moelle du prochain billet, je me suis dit qu'il serait peut-être utile de réexpliquer le principe général de RDF1. RDF n'est pas un langage de programmation, ni même un langage à balises permettant de structurer une information. Évidemment, il n'est pas possible d'exprimer toutes les informations avec des phrases simples. RDF pour tous : du publicateur au développeur web.

Forest : SPARQL Query. Les vocabulaires du Ministère de la Culture et de la Communication. 6286. Archives de France. Définir une ontologie avec OWL. De nombreux langages informatiques sont apparus pour construire et manipuler des ontologies. Dans le but de mettre au point un langage standardisé, le W3C a créé en novembre 2001 un groupe de travail, WebOnt rassemblant les acteurs du domaine dont la DARPA (Defense advanced Research Projects Agency) qui avait mis au point le langage DAML+OIL basé sur XML et RDF. Le travail de ce groupe a abouti à la recommandation OWL en février 2004. OWL définit donc une syntaxe RDF pour décrire et construire des vocabulaires pour créer des ontologies. On pourrait le comparer à XML schéma pour définir des grammaires XML. Il existe donc deux langages basées sur RDF pour définir des vocabulaires : OWL et RDF schema.

Leur différence est la même qu'entre un thésaurus et une ontologie, ce qui, vous allez me dire, est une lapalissade. Il existe 3 déclinaisons de OWL : OWL Lite, OWL DL et OWL Full. Une classe, c'est à dire un groupe d'individus partageant les mêmes caractéristiques. Arborescence de descripteurs. Ginco – Un éditeur SKOS Open Source | Thomas Francart. Le Ministère de la Culture et de la Communication a récemment annoncé la mise à disposition de la première version de GINCO (Gestion Informatisée de Nomenclatures Collaboratives et Ouvertes), un outil collaboratif et open-source de gestion de thesaurus et de vocabulaires contrôlés – et capable d’exporter ceux-ci en format SKOS (dont je rappelle la traduction en français).

Première Impression… Première impression à l’installation : la procédure d’installation, certes documentée (seulement en anglais, dommage pour un projet qui sort du ministère de la culture français !) , n’est pas à la portée de tout le monde. Si les mots WAR, JDBC, LDAP ou les outils comme Tomcat ou Postgresql ne vous disent rien, vous allez avoir du mal à faire fonctionner l’application. Deuxième impression… Deuxième impression, à l’usage cette fois-ci : hou là, mais il y a beaucoup de boutons ! Parmi les fonctionnalités avancées, je retiens : Troisième impression… Et pour finir… Schémas de classification : thésaurus, taxonomie, ontologie… « D. Au cœur de l’architecture de l’information et du Knowledge Management, les techniques de classification sont particulièrement d’actualité alors que les volumes d’information en ligne augmentent et que ce que nous cherchons est de plus en plus noyé parmi ce que nous ne cherchons pas.

La plupart de ces techniques nous viennent de l’ingénierie documentaire. Avec le Web sémantique, l’ingénierie informatique nous apporte d’autres approches telles que les ontologies et les topic maps, souvent associées à des formalismes et outils définis. Tour d’horizon des schémas de classification… (non exhaustif) La méta-donnée, brique de base de la classification Les méta-données sont des données décrivant les données elles-mêmes (informations, documents, images…). Elles servent donc à décrire et expliquer l’information, mais également à la trouver, l’utiliser et la gérer.

D’après la traduction de Anne-Marie Vercoustre, INRIA, disponible à partir de ce lien. Méta-données “administratives” vs “substantielles” Langages documentaires et ontologies — Intranet du service PRATI. Synthèse sur les ontologies et langages documentaires élaboré lors de mon stage de fin d'étude à l'ENS et l'INRP au printemps 2007. Cet article a été revu et mis en ligne au printemps 2008, il est extrait de mon rapport de stage: Je travaille pour mon stage de master 2 à l’Inrp et à l’Ens sciences de Lyon à améliorer des taxonomies, que les concepteurs, des scientifiques de différentes disciplines appelaient thésaurus.

J’ai à l’origine cherché des informations sur ces sujets pour réussir à définir et à donner un nom exact aux outils qui avaient été élaborés. Au fil de mes lectures, je me suis intéressée aux ontologies, je propose ici une synthèse de mes lectures sur ces sujets. Certains auteurs cités par Brunon Menon, proposent de nommer tous ces outils « systèmes d’organisation des connaissances » ou « schémas de concept ». Taxonomie Thésaurus Ontologies Web sémantique Bibliographie : L’harmonisation des vocabulaires / Les vocabulaires scientifiques et techniques / Référentiels / HADOC / Ressources. Les vocabulaires scientifiques et techniques (listes d'autorités, thésaurus, nomenclatures diverses) constituent un élément fort de mise en cohérence de l'ensemble de la production documentaire du ministère. C'est pourquoi l'harmonisation des vocabulaires est au cœur du programme HADOC.

Enjeux et objectifs du projet Utilisés pour l'indexation et la recherche, les nombreux vocabulaires scientifiques et techniques servant à la description des Biens culturels sont généralement enfermés dans les outils de production, de gestion ou de diffusion des informations documentaires. L'enjeu initial du projet d'harmonisation des vocabulaires est de les « libérer », de les faire sortir des outils en vue d'en partager l'usage entre différents métiers et applications, d'en faciliter la réutilisation et d'en faire de véritables référentiels terminologiques. Un nouvel environnement de production des vocabulaires L'application de gestion GINCO est actuellement en cours de développement.