
Analyse des contenus & sémantisation
Outwit, un plugin Firefox pour collecter et structurer les
Moissonner le web avec Outwit - Le blog d'Olivier Ezratty
Tutorial Outwit - récupération d’images
Tutorial Outwit - récupération de listes
Après avoir décrit l’objet du logiciel Outwit Hub , passons à un petit tutorial qui vous permettra de l’expérimenter pour une application pratique: la récupération de listes de sites web. Il vous faudra d’abord installer ou disposer de Firefox 3.x de Firefox. Ensuite, vous installerez la bêta d’Outwit Hub . Elle fonctionne sur Windows, MacOS comme sur Linux. Je vais utiliser ici un exemple de récupération de données structurées déjà exploité pour la préparation de mes supports de cours sur l’économie de l’innovation : la liste du Forbes 2000 qui regroupe les 2000 plus grandes entreprises mondiales. Elle est porteuse d’une très grande richesse d’informations.Explorer des séquences audio et vidéo
Conçu pour le marketing et la publicité, le moteur Pluggd mérité d'être détourné à des fins journalistiques. Il fonctionne sur une technologie de reconnaissance de la parole, exploitée notamment par les outils numériques de traduction ainsi que par différents dispositifs de surveillance et d'espionnage. Rien d'illégal, ni même de répréhensible, dans l'usage qu'un journaliste peut faire de cette technologie.wordle elegant word clouds
Grippe: les souches de la désinformation virale - Journalistique
Technologies du Langage: Web: De quoi parlent les blogs ?
Les mots du Comité Invisible et de Julien Coupat - Miscellanée d
TreeCloud - Nuage arboré - Build your own tree clouds from any text!
This website helps you to generate tree clouds from a text, that is word clouds where the words are arranged on a tree which reflects their semantic proximity inside the text. The first tree cloud appeared on Jean Véronis's blog in December 2007, you can now create your own with this website , or with the TreeCloud software . Create your own tree cloud online! Ce site web vous permet de générer des nuages arborés à partir d'un texte, c'est à dire des nuages de mots disposés autour d'un arbre qui indique leur proximité dans le texte. Le premier nuage arboré est apparu sur le blog de Jean Véronis en décembre 2007, vous pouvez maintenant créer les vôtres avec ce site web , ou avec le logiciel TreeCloud . Créez vos propres nuages arborés en ligne !Technologies du Langage: Outil: TreeCloud
Vous vous souvenez peut-être de mes nuages en forme d'arbre (je crois que le premier que j'ai publié était celui de la rumeur autour de Laurence Ferrari en décembre 2007, suivie de près par le buzz Laure Manaudou nue un peu plus tard). Philippe Gambette , étudiant au LIRMM, a développé un outil Open Source qui permet à tout un chacun de générer de tels nuages. C'est ici : Voici par exemple le nuage de l'ensemble des discours de campagne de Barack Obama. On peut faire différentes choses avec la coloration des mots. Ici elle reflète la position dans le temps. Le rouge correspond au début de la campagne ( children, Irak, war, world ), le bleu à la fin ( McCain, Wall Street, crisis, taxes ).Nuages arborés en ligne
Voir la structure thématique d'un document
Pour quelques dizaines d'euros, l'application Theme Reader dévoile l'anatomie d'un document rédigé en anglais. Il ne s'agit plus seulement des occurences comparées de certains termes, ni des proximités de significations qui déterminent les nuages de mots. Le "moteur de connaissance" développé par CiriLab's repère , lui aussi, les mots les plus fréquents mais, grâce à une architecture sophistiquée d'algorithmes, ce scanner textuel reconnaît les structures du langage humain qui caractérisent les propositions importantes. Ces structures relèvent à la fois de la rhétorique - une affirmation n'a pas la même organisation qu'un questionnement - et du regroupement de mots par hiérarchies de pertinence. Ayant analysé le document, Theme Reader en propose une visualisation cartographique.Une dépêche de l'AFP projette la technophobie française sur un s
ThemeReader en français
Le Dico
"Extraire le lexique des formes qui apparaissent dans un fichier texte." by Jun 8
Home
Comme on le voit ici, les premiers outils disponibles pour le grand public concernent la sémantisation et l'analyse des contenus. by Jun 3
Page d'accueil d'Open Calais, le grand projet de sémantisation de l'agence de presse Reuters. by Jun 3
Open Calais - Semantic Proxy
Fonctions similaires à l'extension Gnosis, mais pour une seule URL : semble fonctionner avec le français. by Jun 3
ClearForest Gnosis :: Modules pour Firefox
Analyse du contenu des pages web à la volée, avec extraction et présentation classée des métadonnées : noms de personnes, de lieux, évènements, globalement tout ce qui permet de saisir instantanément la pertinence de contenus écrits. by Jun 3
Réservé à l'anglais, malheureusement by May 27
Media Cloud
Le projet a pour objectif l'analyse fine des contenus produits par les médias, et permet déjà de faire d'intéressantes constatations, même si l'usage en est pour le moment peu ergonomique. by Jun 3
Tout comme Open Calais, Media Cloud en est à ses balbutiements. by Jun 3

