![]() |
|
Analyse des contenus & sémantisation
Fix - Fast scraping works on very large selections of datasheet or catch rows. Fix - Fixed the overwriting of existing files when manually saving export files. Fix - Corrected problem displaying some records with very large fields in the Detail panel. Fix - Large number of fixes and performance optimizations throughout the code. Fix - Corrected encoding problems in the Dynamic Source that could happen if the meta declaration was not UTF-8. Fix - Several fixes in scrapers, in particular unwanted blank lines added in fast scraping mode.
OutWit Hub :: Firefox Add-ons
OF - Outwit, un plugin Firefox pour collecter et structurer les
des liens des adresses emails, des images (avec possibilité de lancer un diaporama) du texte non-structuré (qui sera ensuite structuré) Outwit Hub est un plugin Firefox proposé par la société Outwit qui devrait ravir les super-crunchers . Il s'agit en effet d'un outil qui permet de récupérer des données sur une ou plusieurs pages web et de les structurer, par exemple sous forme de tableau.
Cela fait des années que les chercheurs et spécialistes des standards du web cherchent une réponse. Elle s’appelle le plus souvent “web sémantique”, voire “web services”. Le “ web sémantique ” consiste à publier les données sur le web avec des informations sur leur structure, leur sens, permettant une exploitation intelligente par les logiciels. Il s’appuie notamment sur le standard W3C “RDF” qui permet de spécifier la structure des données et leur sémantique (tel champ est un nom, tel autre est une adresse, etc).
Moissonner le web avec Outwit - Le blog d'Olivier Ezratty
On obtient la liste des images détectées dans la page de Google. Nous allons maintenant récupérer ces images. Il faut d’abord cliquer dans la liste des images en haut puis la sélectionner en entier avec CTRL-A (ou partiellement).
Tutorial Outwit - récupération d’images
Tutorial Outwit - récupération de listes
Il faut d’abord sélectionner la checkbox “ Catch selection ” qui indique que dans toute ouverture de page ou sélection de page suivante, le contenu identifié sera automatiquement basculé dans le catch. Ensuite, on cliquera sur la “ double flèche droite ” (fast forward) qui est dans la barre d’outils en haut de Outwit. Elle déclenchera l’analyse automatique des pages suivantes jusqu’à la vingtième. Si on veut le faire à la main, on peut utiliser le bouton “flèche droite” (“Play”) page par page. On peut aussi arrêter le scan automatique des pages avec ESC ou en cliquant à nouveau sur la double flèche.
Pluggd Podcast Search Engine - Clips, Audio & Video Podcasts - S
Explorer des séquences audio et vidéo - Journalistiques
Rien d'illégal, ni même de répréhensible, dans l'usage qu'un journaliste peut faire de cette technologie. Au contraire: Pluggd est un outil de productivité pour la collecte, l'analyse et la vérification des contenus audiovisuels qui prolifèrent désormais sur le web. Le principe de Pluggd est celui du dérushage semi automatique: le logiciel reconnait, dans des documents audio ou vidéo, les mots qui caractérisent une séquence de la manière la plus pertinente. S'agissant d'une séquence vidéo, il y a de fortes chances pour que les mots ainsi détectés correspondent aux images recherchées. Dans le schéma ci-dessous, les termes les plus pertinents sont en orange; les moins pertinents sont en bleu. Conçu pour le marketing et la publicité, le moteur Pluggd mérité d'être détourné à des fins journalistiques.
Wordle - Beautiful Word Clouds
build #1356 More... View some examples created by others... Create your own. Wordle is a toy for generating “word clouds” from text that you provide. The clouds give greater prominence to words that appear more frequently in the source text.
. data cloud . word news . groop.us
wordle elegant word clouds - information aesthetics
Les rumeurs et la désinformation sont d'ailleurs des phénomènes viraux, à étudier comme tels, avec différents outils et méthodes d'analyse textuelle (1). Les mots clés soulignés par moi dans les visualisations révèlent l'orientation idéologique des contenus. Filons la métaphore jusqu'au bout: les mots soulignés par mes soins sont les équivalents sémantiques des signatures ADN dans les structures biologiques d'un virus. Voici une visualisation de la souche conspirationniste : Les trois matrices de désinformation réactivées à l'occasion de l'alerte sanitaire mondiale peuvent être comparées à des souches virales.
Grippe: les souches de la désinformation virale - Journalistique
Je l'offre en hommage à nos fières tricoteuses ! Le mot le plus utilisé est printemps . Joli, non? Maman, bébé, enfants, créations, que du bonheur. Est-ce que vous vous y retrouvez, les filles ?
Technologies du Langage: Web: De quoi parlent les blogs ?
L'incertitude demeurant au sujet de l'identification du "Comité Invisible" à Julien Coupat , j'ai décidé de me pencher sur leurs écrits respectifs, en me demandant quelle était la proximité sémantique des différents textes. Pour ce faire, je me suis servi de l'intéressante application Wordle [ 1 ] , qui permet de créer en ligne des nuages sémantiques à partir de contenus écrits. J'ai ainsi sélectionné les textes de "L'insurrection qui vient" et de la "Mise au point" pour le Comité Invisible, et le texte de l'interview écrite réalisée par Le Monde avec Julien Coupat alors en prison [ 2 ] , sachant que ces deux derniers textes sont de longueur comparable - contrairement à "L'insurrection qui vient", beaucoup plus long. Une fois les nuages de mots obtenus, je les ai "nettoyés" manuellement afin d'éliminer toutes les locutions françaises non pertinentes, à la manière d'un antidictionnaire sémantique [ 3 ] .
Les mots du Comité Invisible et de Julien Coupat - Miscellanée d
TreeCloud - Nuage arboré - Build your own tree clouds from any text!
Delphine Amstutz et Philippe Gambette: Utilisation de la visualisation en nuage arboré pour l'analyse littéraire , Statistical Analysis of Textual Data, Proc. of JADT'10 (10th International Conference on statistical analysis of textual data) , p. 227-238, 2010 ( matériel supplémentaire ). Pour des exemples d'utilisation de la visualisation en nuage arboré, vous pouvez lire : If you use TreeCloud or this website, please cite www.treecloud.org or: Philippe Gambette et Jean Véronis: Visualising a Text with a Tree Cloud , In Locarek-Junge H. and Weihs C., editors, Classification as a Tool of Research, Proc. of IFCS'09 (11th Conference of the International Federation of Classification Societies) , p. 561-570, 2010 ( supplementary material ). Créez vos propres nuages arborés en ligne ! Le premier nuage arboré est apparu sur le blog de Jean Véronis en décembre 2007, vous pouvez maintenant créer les vôtres avec ce site web , ou avec le logiciel TreeCloud .
Technologies du Langage: Outil: TreeCloud
A vous de jouer maintenant... des journées entières dans les arbres et les nuages ! Vous vous souvenez peut-être de mes nuages en forme d'arbre (je crois que le premier que j'ai publié était celui de la rumeur autour de Laurence Ferrari en décembre 2007, suivie de près par le buzz Laure Manaudou nue un peu plus tard). Philippe Gambette , étudiant au LIRMM, a développé un outil Open Source qui permet à tout un chacun de générer de tels nuages. C'est ici : Voici par exemple le nuage de l'ensemble des discours de campagne de Barack Obama.
en représentant les résultats de l'analyse. Et maintenant, à vous de jouer, pour trouver d'autres usages ! Contactez-moi si ça vous donne des idées, ou suscite des questions . En tout cas ces nouvelles visualisations sous forme de nuages de mots sont à la mode, et des chercheurs d'IBM et de Microsoft qui ont évoqué les nuages arborés dans des articles à InfoVis l'an dernier et cette année planchent sur de nouvelles améliorations et de nouveaux usages des nuages de mots. en hiérarchisant l'utilisation d'autres outils textométriques,
Nuages arborés en ligne
Mindsystems - Products - Mindsystems ThemeReader
Voir la structure thématique d'un document - Journalistiques
Une dépêche de l'AFP projette la technophobie française sur un s
ThemeReader en français - Journalistiques
Les outils de Text Mining - Les critères de choix
Liste de fréquence des mots de la langue française écrite - EduS
Dig Up Political Influence | Poligraft
The transparency tool set to make investigative journalism easier | Journalism.co.uk Editors' Blog
Analyse lexicale d'un texte ou d'un discours avec Antconc - Bafo
Stylometry - Wikipedia, the free encyclopedia
PhiloComp: The Signature Stylometric System
Acetic : Espace de download de Tropes Zoom
Tropes Zoom : guide d'utilisation
Fidel Castro sur le web: outils d'analyses urgentes - Journalist
"Extraire le lexique des formes qui apparaissent dans un fichier texte." by Jun 8
Outil: Les discours de politique générale de la Ve République [Technologies du Langage]
Fillon: Réforme, fiscalité, crise [Technologies du Langage]
Comme on le voit ici, les premiers outils disponibles pour le grand public concernent la sémantisation et l'analyse des contenus. by Jun 3
Page d'accueil d'Open Calais, le grand projet de sémantisation de l'agence de presse Reuters. by Jun 3
Adscriptor: Open Calais : Reuters nous rapproche du Web sémantiq
Fonctions similaires à l'extension Gnosis, mais pour une seule URL : semble fonctionner avec le français. by Jun 3
ClearForest Gnosis :: Modules pour Firefox
Analyse du contenu des pages web à la volée, avec extraction et présentation classée des métadonnées : noms de personnes, de lieux, évènements, globalement tout ce qui permet de saisir instantanément la pertinence de contenus écrits. by Jun 3
Réservé à l'anglais, malheureusement by May 27
Extension de Firefox, Gnosis analyse les pages web en anglais -
Le projet a pour objectif l'analyse fine des contenus produits par les médias, et permet déjà de faire d'intéressantes constatations, même si l'usage en est pour le moment peu ergonomique. by Jun 3
Tout comme Open Calais, Media Cloud en est à ses balbutiements. by Jun 3
Introducing Media Cloud: A new tool to track how news gets cover
MediaCloud passe les médias au microscope » [Tueletemps.net]



