background preloader

TAL

Facebook Twitter

Web semantique

Séminaire Digital Humanities : Traitement Automatique des Langues et Apprentissage automatique pour la fouille de textes : comment la connaissance peut jaillir du désordre. La prochaine séance du séminaire Digital Humanities, les transformations numériques du rapport aux savoirs aura lieu le mercredi 15 décembre 2010 de 17h à 19h au 96 bd Raspail, Paris 6e, en salle informatique.

Séminaire Digital Humanities : Traitement Automatique des Langues et Apprentissage automatique pour la fouille de textes : comment la connaissance peut jaillir du désordre

Nous accueillerons Patrice Bellot, maître de conférences à l’Université d’Avignon. Ce séminaire sera l’occasion de présenter, dans leurs grandes lignes, les approches récentes de traitement automatique des langues et d’apprentissage automatique qui permettent à des systèmes informatiques de rechercher, classer et extraire de l’information dans de (très) grandes collections de documents écrits.

On s’intéressera aux évolutions historiques des méthodes et hypothèses en oeuvre dans ces systèmes. Elles souligneront les interactions entre les disciplines que sont l’informatique, la linguistique, les mathématiques et les sciences de l’information. Page de présentation de Patrice Bellot sur le site du LIA : La participation au séminaire est ouverte, mais sur inscription.

Imprimer ce billet. Veille Stratégique, Intelligence Economique. Le 23 novembre 2010 se tenait le Co-Lab Sémantique à la cantine, organisé par X-Wiki et Silicon Sentier avec pour sponsor le consortium Scribo qui regroupe différents acteurs autours de projets sémantiques : l’Epita, Nuxeo, Proxem, l’INRIA, X-Wiki, le CEA, Tagmatica, et Mandriva.

Veille Stratégique, Intelligence Economique

Lors de cette journée, Jérôme Charron et moi-même avions été conviés pour donner notre point de vue sur l’état actuel de la recherche d’information. Jérôme est bien placé pour parler sur le sujet puisqu’il est le fondateur de la liste de diffusion Motrech qui est aussi devenu aujourd’hui un “blog” qui tourne sous Posterous et auquel l’hyperactive Emilie Ogez et moi-même avons l’occasion de collaborer. Nous avons donc pendant trois quarts d’heure un peu courts évoqué : La taille des index et les types de fichiers indexésL’ergonomie des moteurs de rechercheLa pertinence des moteurs de rechercheLe search et le sémantique Bien évidemment nous avons parlé beaucoup de Google. En 2005 le ton était donné. #pdlt : Quand la machine apprend le langage. Xavier de la Porte, producteur de l’émission Place de la Toile sur France Culture, réalise chaque semaine une intéressante lecture d’un article de l’actualité dans le cadre de son émission.

#pdlt : Quand la machine apprend le langage

Une lecture accessible chaque lundi matin sur InternetActu.net. La lecture de la semaine, il s’agit d’un article du New York Times, dernier article en date d’une série consacrée à l’intelligence artificielle et à ses impacts potentiels sur la société. Celui que j’ai choisi de traduire concerne l’apprentissage du langage par la machine, un enjeu essentiel dans le cadre de ce qu’on appelle depuis quelques années déjà le web sémantique. L’article commence par rappeler que si l’on donne à un ordinateur une tâche qui est clairement définie – comme gagner aux échecs ou prédire le temps qu’il fera demain – la machine dépasse l’homme de manière presque systématique. Parmi ces problèmes compliqués à résoudre pour l’ordinateur, il y a évidemment la compréhension du langage.

Ensuite, NELL part au travail. Destination web sémantique. Travaillant actuellement sur un projet de gestion sémantique de l’information, je me suis rendu compte que peu de personnes savent exactement de quoi il s’agit et que même les experts ne sont pas forcement d’accords sur la définition de cette discipline.

Destination web sémantique

Web sémantique & enrichissement sémantique Il faut d’abord bien faire la différence entre la notion de web sémantique et celle d’enrichissement sémantique de l’information. Le web sémantique est une évolution coordonnée du web (lancée entre autre par le W3C), une initiative collective dans laquelle chacun à son niveau travaille pour rendre les contenus web plus intelligibles, plus accessibles par les programmes et les machines.L’enrichissement sémantique de l’information est une méthode de travail consistant à donner du sens aux fichiers/informations afin qu’elles soient traitées plus intelligemment par les machines et les applications.

L’enrichissement sémantique est une étape vers le web sémantique.