Analyse des contenus & sémantisation

TwitterFacebook
Get flash to fully experience Pearltrees
In recent weeks I tested out all 3 Outwits and put all 3 in my Apollo! Pack collection because all 3 rock and roll! I have found no flaws and they all are extremely user friendly! https://addons.mozilla.org/en-US/firefox/addon/outwit-hub/

OutWit Hub :: Firefox Add-ons

OF - Outwit, un plugin Firefox pour collecter et structurer les

http://www.outilsfroids.net/news/outwit-un-plugin-firefox-pour-collecter-et-structurer-les-donnees-du-web Outils Knowledge Worker - Outils Veille Outwit Hub est un plugin Firefox proposé par la société Outwit qui devrait ravir les super-crunchers . Il s'agit en effet d'un outil qui permet de récupérer des données sur une ou plusieurs pages web et de les structurer, par exemple sous forme de tableau.
http://www.oezratty.net/wordpress/2008/moissonner-le-web-avec-outwit/ Le web, ses sites et les moteurs de recherche ont une par­ti­cu­la­rité : ils pré­sentent des tonnes d’information, mais en géné­ral, fai­ble­ment structurées. La couche de pré­sen­ta­tion “web/HTML” détruit la struc­ture ori­gi­nelle des infor­ma­tions, très sou­vent sto­ckées dans des bases de don­nées. Il en résulte des silos de don­nées dis­pa­rates dif­fi­ciles à exploi­ter. Pour­tant, des tré­sors d’informations sont dis­po­nibles qui pour­raient être mieux exploi­tées : don­nées finan­cières, listes diverses, com­pa­rai­sons de prix, listes d’objets à vendre, etc. Cela fait des années que les cher­cheurs et spé­cia­listes des stan­dards du web cherchent une réponse. Elle s’appelle le plus sou­vent “web séman­tique”, voire “web ser­vices”.

Moissonner le web avec Outwit - Le blog d'Olivier Ezratty

On lance par exemple au sein d’Outwit une recherche de “Cou­chers de soleils” dans Google Image en pré­ci­sant que l’on sou­haite des images de grande taille. Le résul­tat de Google s’affiche, comme ci-dessous. On obtient la liste des images détec­tées dans la page de Google. Nous allons main­te­nant récu­pé­rer ces images.

Tutorial Outwit - récupération d’images

http://www.oezratty.net/wordpress/2008/tutorial-outwit-rcupration-dimages/

Tutorial Outwit - récupération de listes

Après avoir décrit l’objet du logi­ciel Out­wit Hub , pas­sons à un petit tuto­rial qui vous per­met­tra de l’expérimenter pour une appli­ca­tion pra­tique: la récu­pé­ra­tion de listes de sites web. Il vous fau­dra d’abord ins­tal­ler ou dis­po­ser de Fire­fox 3.x de Fire­fox. Ensuite, vous ins­tal­le­rez la bêta d’Outwit Hub . Elle fonc­tionne sur Win­dows, MacOS comme sur Linux. Je vais uti­li­ser ici un exemple de récu­pé­ra­tion de don­nées struc­tu­rées déjà exploité pour la pré­pa­ra­tion de mes sup­ports de cours sur l’économie de l’innovation : la liste du Forbes 2000 qui regroupe les 2000 plus grandes entre­prises mon­diales. Elle est por­teuse d’une très grande richesse d’informations. http://www.oezratty.net/wordpress/2008/tutorial-outwit-rcupration-de-listes/

Explorer des séquences audio et vidéo - Journalistiques

Conçu pour le marketing et la publicité, le moteur Pluggd mérité d'être détourné à des fins journalistiques. Il fonctionne sur une technologie de reconnaissance de la parole, exploitée notamment par les outils numériques de traduction ainsi que par différents dispositifs de surveillance et d'espionnage. Rien d'illégal, ni même de répréhensible, dans l'usage qu'un journaliste peut faire de cette technologie. http://www.journalistiques.fr/post/2007/11/28/Explorer-des-sequences-audio-et-video

Wordle - Beautiful Word Clouds

http://www.wordle.net/ Wordle is a toy for generating “word clouds” from text that you provide. The clouds give greater prominence to words that appear more frequently in the source text. You can tweak your clouds with different fonts, layouts, and color schemes.
an online tool for generating beautiful “word clouds” from user-provided texts, such as plain text files or del.icio.us tags. the clouds give greater prominence to words that appear more frequently in the source text. users can tweak their clouds with different fonts, layouts & color schemes. users can also print them out, or save them to the Wordle gallery to share with friends. http://infosthetics.com/archives/2008/06/wordle_elegant_word_clouds.html

wordle elegant word clouds - information aesthetics

http://www.journalistiques.fr/post/2009/04/30/Grippe%3A-les-souches-de-la-desinformation-virale Les trois matrices de désinformation réactivées à l'occasion de l'alerte sanitaire mondiale peuvent être comparées à des souches virales. Filons la métaphore jusqu'au bout: les mots soulignés par mes soins sont les équivalents sémantiques des signatures ADN dans les structures biologiques d'un virus. Les rumeurs et la désinformation sont d'ailleurs des phénomènes viraux, à étudier comme tels, avec différents outils et méthodes d'analyse textuelle (1). J'ai effacé de ce nuage de mots le nom d'un universitaire français dont les propos sont exploités par les conspirationnistes car je ne sais pas (encore) si cet universitaire a été piégé ou s'il est un adepte de la théorie du complot. Les néologismes "yankistan" et "sionistan" trahissent une des orientations idéologiques d'un contenu qui se veut également anticapitaliste et conspirationniste.

Grippe: les souches de la désinformation virale - Journalistique

De quoi parle ce nouveau "continent" des blogs de loisirs créatifs qui semble littéralement exploser la blogosphère ces derniers temps ? Pour le savoir, j'ai mouliné avec l'aide de Thomas (développeur chez Wikio, avec qui c'est un grand plaisir de travailler !) les 100 premiers blogs de la catégorie Loisirs , et j'ai injecté tous les mots dans la superbe application Wordle , que vous connaissez certainement. Voilà le résultat : Je l'offre en hommage à nos fières tricoteuses !

Technologies du Langage: Web: De quoi parlent les blogs ?

http://aixtal.blogspot.com/2009/04/web-de-quoi-parlent-les-blogs.html
L'incertitude demeurant au sujet de l'identification du "Comité Invisible" à Julien Coupat , j'ai décidé de me pencher sur leurs écrits respectifs, en me demandant quelle était la proximité sémantique des différents textes. Pour ce faire, je me suis servi de l'intéressante application Wordle [ 1 ] , qui permet de créer en ligne des nuages sémantiques à partir de contenus écrits. J'ai ainsi sélectionné les textes de "L'insurrection qui vient" et de la "Mise au point" pour le Comité Invisible, et le texte de l'interview écrite réalisée par Le Monde avec Julien Coupat alors en prison [ 2 ] , sachant que ces deux derniers textes sont de longueur comparable - contrairement à "L'insurrection qui vient", beaucoup plus long.

Les mots du Comité Invisible et de Julien Coupat - Miscellanée d

TreeCloud - Nuage arboré - Build your own tree clouds from any text!

This website helps you to generate tree clouds from a text, that is word clouds where the words are arranged on a tree which reflects their semantic proximity inside the text. The first tree cloud appeared on Jean Véronis's blog in December 2007, you can now create your own with this website , or with the TreeCloud software . Create your own tree cloud online! Ce site web vous permet de générer des nuages arborés à partir d'un texte, c'est à dire des nuages de mots disposés autour d'un arbre qui indique leur proximité dans le texte. Le premier nuage arboré est apparu sur le blog de Jean Véronis en décembre 2007, vous pouvez maintenant créer les vôtres avec ce site web , ou avec le logiciel TreeCloud . Créez vos propres nuages arborés en ligne !

Technologies du Langage: Outil: TreeCloud

Vous vous souvenez peut-être de mes nuages en forme d'arbre (je crois que le premier que j'ai publié était celui de la rumeur autour de Laurence Ferrari en décembre 2007, suivie de près par le buzz Laure Manaudou nue un peu plus tard). Philippe Gambette , étudiant au LIRMM, a développé un outil Open Source qui permet à tout un chacun de générer de tels nuages. C'est ici : Voici par exemple le nuage de l'ensemble des discours de campagne de Barack Obama. On peut faire différentes choses avec la coloration des mots. Ici elle reflète la position dans le temps. Le rouge correspond au début de la campagne ( children, Irak, war, world ), le bleu à la fin ( McCain, Wall Street, crisis, taxes ).
Vous avez vu le concept apparaître sur le blog de Jean , et quelques exemples sur ce blog , mais ça fait quelque temps que je n'en ai pas parlé ici, des nuages arborés de mots. Après quelques semaines de test d'une interface web de construction de ces outils de visualisation, il est temps de dévoiler le nouveau site web de TreeCloud : treecloud.org ! Alors quelle utilité pour ces nuages de mots grimpés aux arbres ? Simple aperçus esthétiques du contenu d'un texte ? Eh bien pas seulement, comme nous l'avons montré avec Delphine, ma co-autrice dans notre article présenté en juin aux JADT 2010 à Rome . C'est maintenant dans la foire aux questions de TreeCloud, ces visualisations peuvent également servir à analyser des textes dans le cadre d'une démarche assistée par ordinateur :

Nuages arborés en ligne

Voir la structure thématique d'un document - Journalistiques

Il ne s'agit plus seulement des occurences comparées de certains termes, ni des proximités de significations qui déterminent les nuages de mots. Le "moteur de connaissance" développé par CiriLab's repère , lui aussi, les mots les plus fréquents mais, grâce à une architecture sophistiquée d'algorithmes, ce scanner textuel reconnaît les structures du langage humain qui caractérisent les propositions importantes. Ces structures relèvent à la fois de la rhétorique - une affirmation n'a pas la même organisation qu'un questionnement - et du regroupement de mots par hiérarchies de pertinence. Ayant analysé le document, Theme Reader en propose une visualisation cartographique. J'ai testé cette application sur un document de 30 feuillets Word, soit 1294 lignes et 81228 mots.Il s'agit de l'enquête sur la crise boursière publiée dans "The Economist" du 18 octobre.

Le Dico

"Extraire le lexique des formes qui apparaissent dans un fichier texte." by moktarama Jun 8

Home | OpenCalais

Comme on le voit ici, les premiers outils disponibles pour le grand public concernent la sémantisation et l'analyse des contenus. by moktarama Jun 3

Page d'accueil d'Open Calais, le grand projet de sémantisation de l'agence de presse Reuters. by moktarama Jun 3

Open Calais - Semantic Proxy

Fonctions similaires à l'extension Gnosis, mais pour une seule URL : semble fonctionner avec le français. by moktarama Jun 3

ClearForest Gnosis :: Modules pour Firefox

Analyse du contenu des pages web à la volée, avec extraction et présentation classée des métadonnées : noms de personnes, de lieux, évènements, globalement tout ce qui permet de saisir instantanément la pertinence de contenus écrits. by moktarama Jun 3

Réservé à l'anglais, malheureusement by moktarama May 27

Media Cloud

Le projet a pour objectif l'analyse fine des contenus produits par les médias, et permet déjà de faire d'intéressantes constatations, même si l'usage en est pour le moment peu ergonomique. by moktarama Jun 3

Tout comme Open Calais, Media Cloud en est à ses balbutiements. by moktarama Jun 3