Contributions

Facebook Twitter

Lemmatisation et Racinisation en Français : Flexion, Lemme et Racine d’un mot. Par: Benoît TROUVILLIEZ Introduction Nous allons nous intéresser à deux techniques largement employées dans le cadre de l’analyse sémantique : La lemmatisation et la racinisation parfois appelée stemmatisation.

Lemmatisation et Racinisation en Français : Flexion, Lemme et Racine d’un mot

Nous verrons notamment quelques outils utiles dans le cas du Français. Si vous voulez en savoir plus sur ce qu’est l’analyse sémantique, vous pouvez consulter cet article du blog qui explicite ce terme et quelques autres. Les Flexions et le Lemme Les flexions sont les différentes formes fléchies d’un même mot. Par exemple, le mot “jouer” , verbe à l’infinitif ni accordé, ni conjugué est un lemme. Un autre exemple? Racine d’un mot La racine d’un mot correspond à la partie du mot restante une fois que l’on a supprimé son préfixe et son suffixe, à savoir son radical. Par exemple, le mot “chercher” a pour radical ou stemme “cherch” qui ne correspond pas à un mot réel. Le problème des flexions Lemmatisation Parmi ces choix, TreeTagger se démarque pour deux raisons : Lemmatisation en contexte.

Etude de l’ontologie EuroWordnet. Par: Benoît TROUVILLIEZ Rappel EuroWordnet est un projet visant à construire des ontologies similaires au projet Wordnet de l’université de Princeton pour 8 langues européennes dont le français, sujet de cet étude.

Etude de l’ontologie EuroWordnet

Un précédent article du blog peut être consulté pour plus de détails sur les ontologies et le projet EuroWordnet. Format de distribution L’ontologie EuroWordnet est distribuée sous deux formats différents (et ce quelque soit la langue choisie) : sous la forme d’une base de données et sous la forme d’un fichier texte. Test d’EuroWordnet Des tests ont donc été menés sur cette ressources afin de mesurer sa pertinence par rapport à nos besoins. Pour présenter simplement les résultats, nous allons utiliser une convention d’écriture pour indiquer les liens trouvés : £ indique la généricité ; + signifie la spécificité ; rien signifie que c’est un synonyme. Lexeme pomme pomme : £ fruit comestible (£ fruit) Lexeme salaire Lexeme bagage Lexeme politesse Résultats Conclusion.

Etude de l’ontologie Wordnet Libre du Français (WOLF) Par: Benoît TROUVILLIEZ Cette étude concerne une version obsolète du WOLF.

Etude de l’ontologie Wordnet Libre du Français (WOLF)

Veuillez vous référer à ce billet du blog pour une étude sur une version plus récente. Rappel Le WOLF (Wordnet Libre du Français) est une ontologie développée pour le français par l’Inria. Cette ontologie est en licence libre et est développé depuis 2008 à partir de la traduction du Wordnet de Princeton, développé pour la langue anglaise. Format de distribution et explications Intéressons nous tout d’abord au format de publication de cette ressource. Ce fichier xml respecte bien sûr une DTD qui est celle utilisée pour le projet Balkanet, projet de construction de wordnets pour les langues des Balkans.

Ontologies, Wordnet, Eurowordnet et WOLF. Par: Benoît TROUVILLIEZ Ontologie Une ontologie dans son sens le plus large est une structure en forme de graphe permettant d’exprimer des connaissances.

Ontologies, Wordnet, Eurowordnet et WOLF

Pour cela, deux types d’éléments sont utilisés : - les concepts : ce sont les nœuds du graphe. De manière général, il s’agit des éléments sur lesquels porte la connaissance. - les relations : ce sont les arcs du graphe. Elles permettent de définir des liens caractérisés entre les concepts et d’exprimer ainsi une connaissance reliant les concepts mis en jeu. Dans un cadre sémantique, les concepts de base sont les mots de la langue et les relations correspondent aux différents liens sémantiques pouvant exister dans cette langue entre les mots. Wordnet Le Wordnet est une ontologie pour la langue anglaise développée par les linguistes de l’Université de Princeton. La structure du Wordnet repose sur des ensembles de synonymes (“synonym set” en anglais) appelés synset. Le projet EuroWordnet. TALN / Recital / DEFT 2010 : Quand le TAL s’invite à Montréal.

Par: Benoît TROUVILLIEZ Introduction Les conférences TALN, RECITAL et DEFT, éditions 2010, ont eu lieu à Montréal au Canada du 19 au 23 Juillet 2010.

TALN / Recital / DEFT 2010 : Quand le TAL s’invite à Montréal

J’ai eu la chance d’y assister et d’y présenter mon article sur la fouille d’opinions. Je vous propose un petit compte-rendu de ces 5 jours riches en contenu. Déroulement des conférences Les trois conférences se sont déroulées en deux temps principaux : Du 19 au 22, les journées ont été consacrées aux conférences TALN et Recital dont les différentes présentations étaient mélangées. Les thèmes abordés Beaucoup de thèmes différents du TAL ont été abordés. La fouille d’opinionsLa correction automatique (orthographique et syntaxique)Analyse morpho-syntaxique et syntaxiqueTraduction automatique et résumés de textesExtraction de textes (entitées nommées, indices temporelles, détermination de l’auteur)Intéraction entre le TAL et le TIL.

Recital 2010 : Onyme présente un article sur la fouille d’opinions. Par: Benoît TROUVILLIEZ Introduction Cet article inaugure la catégorie “Conférences” du blog par la présentation de la conférence Recital 2010 à laquelle la société va participer à travers mon article “Représentation vectorielle de textes courts d’Opinions.

Recital 2010 : Onyme présente un article sur la fouille d’opinions

Analyse de traitements sémantiques pour la fouille d’opinions par clustering” accepté au format poster. Présentation de l’auteur et de l’article Présentation de l’auteur Avant de vous parler de la conférence, je vais d’abord vous parler de l’auteur (donc de moi) et de mon article. Je m’appelle Benoît Trouvilliez, j’ai 23 ans et je suis en première année de doctorat en contrat Cifre avec la société Onyme et le Centre de Recherche en Informatique de Lens (CRIL). Taln2010_submission_109.