background preloader

Doc

Facebook Twitter

PDF to Word Online Converter — The Easiest to Edit — 100% Free. Moteur de recherche sémantique & text mining. Catégorisation Opération consistant à placer un document à un ou plusieurs endroits d’un plan de classement. Voir aussi Indexation Lingway KM peut effectuer une catégorisation automatique dans un plan de classement définit par l’utilisateur. [à ne pas confondre avec Clustering]En savoir plus Clustering Le clustering ou "classification" consiste à extraire des groupes ("clusters") de documents à partir d'un ensemble de documents non classifiés.

Lingway KM réalise le clustering de l'ensemble de documents retrouvés suite à une requête (bouton "groupe").En savoir plus Concept Un concept est un objet qui représente l'abstraction d'un terme ou plus généralement d'un ensemble de termes synonymes dans une ou plusieurs langues, cet objet étant indépendant de sa réalisation linguistique (la façon de le nommer).

Dans Lingway KM, le dictionnaire décrit 150.000 concepts qui sont reliés à 5 langues. Haut de page Descripteur Terme ou Entité nommée utilisé pour caractériser (Indexation2) un document. Taxonomie. Gestion d’une terminologie d’entreprise : utilisations, enjeux et différentes formes d’organisation. L’accès efficace aux contenus et connaissances au sein de l’entreprise, à destination de ses clients ou de ses partenaires est un enjeu de tous les jours.

Intranet, sites internet, accès aux documentations techniques, centres d’appel, partage de connaissances, réutilisation de contenus, partage de contenus avec les filiales étrangères, veille économique et technique sont autant de facettes de cette problématique unique. Les investissements pour répondre à ces enjeux sont nombreux et souvent dispersés : moteurs de recherche, portails, intranets, systèmes de gestion documentaire, outils de texte mining, outils d’aide à la traduction, bases de connaissance. Tous ces outils participent à l’acquisition des connaissances, des contenus, à leur organisation et à leur accès. L’objectif de cette présentation est de décrire les apports d’une terminologie d’entreprise dans le processus de rédaction, capitalisation, organisation et accès aux contenus et connaissances.

Les besoins Liens Terminologie. BiblioDoc.Francophonie.org. Shiyali Ramamrita Ranganathan. Indexation des ressources numériques en général. Qu’est-ce que le Web Sémantique ? Introduction au Web Sémantique. Www.bnf.fr/documents/afnor2011_intro_menon.pdf. Www.bnf.fr/documents/afnor2011_bermes.pdf. Www.bnf.fr/documents/afnor2011_poupeau.pdf. Tagging thd. Séminaire folksonomies et tagging au Cnam. Les folksonomies 1 et l’activité d’indexation de ressources par les usagers deviennent aujourd’hui objets d’étude pour différentes communautés de chercheurs. Dans ce contexte, la journée du 26 mars 2010, organisée par Alexandre Monnin et Évelyne Bourdoux, de l’équipe de recherche Dicen 2 du Centre national des arts et métiers, visait à « amorcer un questionnement et un dialogue entre [ces] différentes communautés scientifiques pour créer des passerelles entre les approches ».

Sujets – et querelles ! – de laboratoires se sont mêlés au cours de cette journée passionnante. L’ambiance était sérieuse dans cet amphithéâtre du Cnam bien rempli par des chercheurs et de nombreux praticiens, mais qui aurait pu être bondé avec des étudiants. La journée était organisée en deux temps : une matinée réservée à des exposés théoriques de chercheurs, et une après-midi dédiée à des présentations de réalisations par d’autres chercheurs. Les techniques informatiques au service d’un dispositif social.

DICEN – Séminaire Folksonomies et Tagging: « Des balbutiements du Web2.0 à nos jours, premiers bilans interdisciplinaires » DICEN – Séminaire Folksonomies et Tagging Des balbutiements du Web2.0 à nos jours, premiers bilans interdisciplinaires 26 mars 2010 – CNAM : amphi Z Robert-Faure accès 1 -1 (Escaliers devant l’entrée principale) Organisé par Alexandre Monnin et Evelyne Broudoux (Dicen) 9h30 – 12h30 et 14h – 17h L’activité d’étiquetage des contenus par les internautes est devenue partie prenante de l’écriture-lecture pendant la consultation de sites web. Les collections d’étiquettes – communément dénommées « tags » – réalisées par les internautes les associant à des ressources ou des situations dans l’objectif de les médiatiser ou de les thésauriser, ont été nommées « folksonomies ».

Ces nouvelle formes d’auto-organisation censées traduire l’adaptation des systèmes à la diversité des classements réalisables par les internautes ont stimulé l’intérêt de différentes communautés professionnelles et scientifiques. Programme : Un automne de rencontres autour du Web sémantique. Il y a un temps pour tout : la découverte, la réflexion et l'expérimentation sur ce blog, le partage et la dissémination auprès de nouveaux publics au cours d'événements divers et le temps de l'accomplissement de projets mettant en œuvre ces différentes idées. Ainsi, le silence de ce blog trouve ses raisons dans d'autres activités non moins essentielles qui, à leur tour, vont alimenter de nouvelles réflexions.

Mais, avant de vous en faire part et en guise de conclusion à cette riche période, je voulais partager avec vous les présentations qui ont ponctué mon automne. La préparation d'une conférence pour le salon Ecommerce 2010 a été pour moi l'occasion non seulement de découvrir ce marché, dans lequel Antidot est actif depuis plusieurs années, mais aussi la richesse des perspectives pour les technologies du Web sémantique. Optimiser le référencement des données du catalogue ;Exposer les données du catalogue ;Agréger des données hétérogènes ;Décrire et organiser les informations ; Bridging Social Web and Sem Web : 2 application cases in the field ... Web sémantique et développement durable - Mondeca. Enrichissement des moteurs de recherche: technologie. L’apport du Web sémantique à la recherche d’informations. Indexation sémantique. Une très grande confusion règne autour du mot « sémantique » qui est utilisé à toutes les sauces dès qu’il s’agit de moteurs de recherche, et force est de constater que les discours marketing des acteurs ne vont pas dans le sens de la clarté.

Tout d’abord, il y a l’indexation sémantique : celle qui consiste, lors de l’analyse d’un document, à rattacher chaque mot à un concept sous-jacent. Ainsi, par exemple, pour le mot jaguar, il faut déterminer s’il s’agit du félin, de la voiture ou de l’avion. Et ça, c’est compliqué. Tout d’abord, il faut une “liste” de concepts cibles (le sens du truc qui est derrière le mot) pour pouvoir transformer le mot en concept. Il faut donc avoir modélisé tous les concepts… Autant dire que c’est peine perdue : cela sous entendrait que tout le monde pense de la même façon et se représente le monde à l’identique. Puis il y a l’extension sémantique. Là, plus de concepts, mais seulement des vocabulaires : dictionnaires de synonymes, thésaurus, taxinomies. INSI Folksonomies, Ontologies du tag - Artist. De Artist. Page rédigée par Alexandre Monnin L'un des résultats du VoCamp de Nice organisé par l'INRIA les 24 et 25 septembre derniers fut la création d'une ontologie du tag produite (la NiceTag Ontology) par David Laniado de l'École Polytechnique de Milan, Freddy Limpens de l'INRIA et moi-même, assistés de Thomas Lörtsch et Ricardo Tasso.

L'intérêt de cette ontologie : On trouvera la première esquisse de cette ontologie sur le wiki du VoCamp: D'autres développements suivront (site, spécifications, publications), l'INRIA s'étant d'ores et déjà manifestée pour héberger les spécifications de cette ontologie. D'autres ontologies du tag : Autres projets assimilés : Annotation. Lors d’un billet précédent, nous avons soulevé la question de l’avenir des référentiels dans un contexte où la recherche en texte intégral et l’avènement du Web 2.0 remettent en cause l’utilité et donc l’existence même de référentiels. Ce que sont les référentiels Référentiel : données structurées qui sont de référence (donc qui font autorité) et qui permettent à des applications de fonctionner ensemble.

Les plus connus sont certainement les référentiels terminologiques : dictionnaires, thésaurus, listes de synonymes… Ils contiennent du vocabulaire, ils font référence pour l’orthographe et la définition des mots et ils permettent aux hommes de communiquer ensemble en définissant un sens commun au langage. Pas de doute, ils répondent à la définition : ce sont des référentiels. Ces référentiels terminologiques peuvent être : Les systèmes d’information des entreprises regorgent également de référentiels qui parfois ne se savent pas eux-mêmes : Bonnes pratiques Like this: Like Loading...

L'interopérabilité et l'implémentation de la norme. Thésaurus et informatique documentaires. Notes Nous employons le terme de thésaurus documentaires pour les distinguer des thésaurus de langue, comme le Roget’s Thesaurus ou le Thésaurus Larousse. Autre formulation employée : thésaurus de descripteurs, par Georges Van Slype (Conception et gestion des systèmes documentaires, Les Éditions d’Organisation, 1987, page 89) ou Michèle Hudon (Le thésaurus : conception, élaboration, gestion, ASTED, 1994, page 35). De nombreuses ressources allemandes disponibles sur le Web montrent que ces outils y sont également utilisés et étudiés.

Mentionnons le logiciel SuperThes pour le thésaurus GEMET, mais aussi les produits IC INDEX 5.0, MIDOSThesaurus ou THESMain/THESshow, bien souvent associés à une problématique de terminologie et de traitement multilingue comme l’indiquent les présentations des produits (mehrsprachigen / multilingualer). Voir les publications du cabinet Tosca Consultants aux éditions de l’ADBS ou les Guides pratiques édités par le magazine Archimag. Voir Otaren pages 89-92. Memsic.ccsd.cnrs.fr/docs/00/52/39/42/PDF/GUY-DUCHE. Le classement sémantique par tags | Le blog de Maxime Viry. Il y a quelques années naquit un nouveau système de description de l’information : la navigation par tags (ou étiquettes, marqueurs, libellés). Un tel système de classification est né du besoin de référencer ce qui ne pouvait pas être retrouvé par un moteur de recherche classique : les images et puis les liens (notamment dans le contexte du social bookmarking qui consiste à partager ses URL).

Il est amusant de penser que les tags auraient pu ne jamais voir le jour, au profit des catégories (bien que cela semble peu probable). En effet, lorsqu’on cherche un moyen de retrouver un grand nombre de choses dans le monde physique, on pense avant tout aux catégorisations. Ce système pose évidemment des problèmes de stockage : pour des questions de place, on ne peut pas dupliquer des livres qui pourtant devraient être proposés dans plusieurs catégories. Si les tags ont été créés, c’est donc bien pour permettre aux internautes de créer leur propre catégorisation. Les langages documentaires. De la théorie à l’ingénierie ontologique Rappelons tout d’abord que l’ontologie est la branche de la philosophie qui s’intéresse à la notion d’existence, aux catégories fondamentales de l’existant, et qui étudie les propriétés générales de l’être.

L’idée de s’appuyer sur une approche ontologique pour fonder une démarche de représentation des connaissances est relativement ancienne. Barry Smith et Christopher Welty [42] datent du début des années quatre-vingt les réflexions concluant à la nécessité de cette approche. Nicola Guarino [22] développe et argumente par la suite cette idée, et défend le rôle en ingénierie des connaissances d’une ontologie chargée des problèmes de représentation, aux côtés de l’épistémologie davantage occupée de problèmes de raisonnement.

Une littérature de plus en plus abondante leur est consacrée. Figure 1 - Nombre d’articles répondant a une requête sur le mot « ontologies » Flou terminologique Figure 2 - Objets pouvant être qualifies d’ontologies. Www.enssib.fr/bibliotheque-numerique/document-809. Les ontologies. Notes René-Charles Cros, Jean-Claude Gardin, Francis Lévy. L’automatisation des recherches documentaires. Un modèle général : le SYNTOL. Paris : Gauthier-Villars, 1964. André Demailly. « Robert Pagès et l’analyse codée ». James Whitney Perry, Allen Kent, Madeline M. Maurice Coyaud. Bruno Bachimont, Véronique Malaisé, Pierre Zweigenbaum. « Vers une combinaison de méthodologies pour la structuration de termes en corpus : premier pas vers des ontologies dédiées à l’indexation de documents audiovisuels ».

Voir les propos de Bruno Menon sur ce sujet, pages 23-26. Mike Uschold, Michael Grüninger. « Ontologies: Principles, Methods and Applications ». Wilfried Schmitz-Esser. « Thesaurus and beyond: an advanced formula for linguistic engineering and information retrieval ». Brian Campbell Vickery. Georges Van Slype. Marion Créhange et al. Bruno Bachimont, Jean Charlet, Raphaël Troncy. « Ontologies pour le Web sémantique ». Jean-Marie Pinon. Frédéric Fürst. Ian Davis on Why Tagging Is Expensive. Last week Ian Davis wrote an interesting post on Why Tagging is Expensive: On the surface tagging seems to offer a new paradigm of organising information, one that reduces the cost of entry and so enables a long tail of participation to emerge.

I’ve come to realise that the cost isn’t removed, instead it’s displaced and possibly increased. Tagging bulldozes the cost of classification and piles it onto the price of discovery. There’s a saying I’ve heard once or twice (I wish I could attribute it): “The cost of metadata is in its application, but the value of metadata is in its use.”

Not exactly something you’ll be quoting at dinner parties, but it nicely captures the cost/benefit gaps of metadata. The arguments against professional classification (including Clay’s views on tagging) have almost always worked on the cost side of the equation. In my view the total cost of an information retrieval system is the cost of classification plus the cost of discovery. Here’s an analogy. Ic2009.inria.fr/docs/papers/Monnin_IC2009_41.pdf.