background preloader

R&D Onyme

Facebook Twitter

Lemmatisation et Racinisation en Français : Flexion, Lemme et Racine d’un mot. Par: Benoît TROUVILLIEZ Introduction Nous allons nous intéresser à deux techniques largement employées dans le cadre de l’analyse sémantique : La lemmatisation et la racinisation parfois appelée stemmatisation.

Lemmatisation et Racinisation en Français : Flexion, Lemme et Racine d’un mot

Nous verrons notamment quelques outils utiles dans le cas du Français. Si vous voulez en savoir plus sur ce qu’est l’analyse sémantique, vous pouvez consulter cet article du blog qui explicite ce terme et quelques autres. Les Flexions et le Lemme Les flexions sont les différentes formes fléchies d’un même mot. Par exemple, le mot “jouer” , verbe à l’infinitif ni accordé, ni conjugué est un lemme.

Un autre exemple? Racine d’un mot La racine d’un mot correspond à la partie du mot restante une fois que l’on a supprimé son préfixe et son suffixe, à savoir son radical. Par exemple, le mot “chercher” a pour radical ou stemme “cherch” qui ne correspond pas à un mot réel. Le problème des flexions Lemmatisation Parmi ces choix, TreeTagger se démarque pour deux raisons : Lemmatisation en contexte. Etude de l’ontologie EuroWordnet. Par: Benoît TROUVILLIEZ Rappel EuroWordnet est un projet visant à construire des ontologies similaires au projet Wordnet de l’université de Princeton pour 8 langues européennes dont le français, sujet de cet étude.

Etude de l’ontologie EuroWordnet

Un précédent article du blog peut être consulté pour plus de détails sur les ontologies et le projet EuroWordnet. Format de distribution L’ontologie EuroWordnet est distribuée sous deux formats différents (et ce quelque soit la langue choisie) : sous la forme d’une base de données et sous la forme d’un fichier texte. Test d’EuroWordnet Des tests ont donc été menés sur cette ressources afin de mesurer sa pertinence par rapport à nos besoins.

Pour présenter simplement les résultats, nous allons utiliser une convention d’écriture pour indiquer les liens trouvés : £ indique la généricité ; + signifie la spécificité ; rien signifie que c’est un synonyme. Lexeme pomme pomme : £ fruit comestible (£ fruit) Lexeme salaire Lexeme bagage Lexeme politesse Résultats Conclusion. Etude de l’ontologie Wordnet Libre du Français (WOLF) Par: Benoît TROUVILLIEZ Cette étude concerne une version obsolète du WOLF.

Etude de l’ontologie Wordnet Libre du Français (WOLF)

Veuillez vous référer à ce billet du blog pour une étude sur une version plus récente. Rappel Le WOLF (Wordnet Libre du Français) est une ontologie développée pour le français par l’Inria. Cette ontologie est en licence libre et est développé depuis 2008 à partir de la traduction du Wordnet de Princeton, développé pour la langue anglaise. Format de distribution et explications Intéressons nous tout d’abord au format de publication de cette ressource. Ce fichier xml respecte bien sûr une DTD qui est celle utilisée pour le projet Balkanet, projet de construction de wordnets pour les langues des Balkans. Cette DTD est présentée ci dessous : L’ontologie se compose donc d’un noeud principal : Wordnet ayant pour fils des noeuds Synset. D’un identifiant unique, présent dans sa sous balise ID.

Tests du WOLF Des tests ont donc été menés sur cette ressources afin de mesurer sa pertinence par rapport à nos besoins. Lexème pomme. Ontologies, Wordnet, Eurowordnet et WOLF. Par: Benoît TROUVILLIEZ Ontologie Une ontologie dans son sens le plus large est une structure en forme de graphe permettant d’exprimer des connaissances.

Ontologies, Wordnet, Eurowordnet et WOLF

Pour cela, deux types d’éléments sont utilisés : - les concepts : ce sont les nœuds du graphe. De manière général, il s’agit des éléments sur lesquels porte la connaissance. - les relations : ce sont les arcs du graphe. Elles permettent de définir des liens caractérisés entre les concepts et d’exprimer ainsi une connaissance reliant les concepts mis en jeu. Dans un cadre sémantique, les concepts de base sont les mots de la langue et les relations correspondent aux différents liens sémantiques pouvant exister dans cette langue entre les mots. Wordnet Le Wordnet est une ontologie pour la langue anglaise développée par les linguistes de l’Université de Princeton.

La structure du Wordnet repose sur des ensembles de synonymes (“synonym set” en anglais) appelés synset. Le projet EuroWordnet Le Wordnet Libre du Français (WOLF) Démarches futures.

Publications