background preloader

Analyse sémantique / text mining

Facebook Twitter

L'Europe dans la campagne 2012 : qui en parle le plus ? Analyse sémantique des discours des candidats républicains à la présidentielle. Ouvrons les archives des journaux. Quelle est la couverture que les journaux donnent à tel ou tel évènement ?

Ouvrons les archives des journaux

Existe-t-il des règles quant à la quantité de couverture donnée à un lieu ou une personne ? En 2008, j’avais fait l’expérience en montrant ‘le monde dans les yeux d’un rédac chef’, en comptant le nombre de fois où un pays était mentionné dans la presse. Résultat : Plus un pays est riche et plus il est peuplé, plus les médias en parlent. Rien de très surprenant, si ce n’est les exceptions à la règle (surreprésentation de l’Espagne et de l’Italie, sous-représentation du Japon et de l’Allemagne). Pour rendre ce genre de recherche accessible à tous, j’ai codé un programme, dans le cadre d’un projet OWNI, permettant d’extraire le nombre d’occurrences d’un mot dans 3 médias (Libération, Le Monde et Le Figaro) en fonction de la date. Il permet par exemple de vérifier si Le Monde s’est plié à la volonté du gouvernement, votée par le parlement en 2010, de parler de ‘vidéoprotection’ et non plus de ‘vidéosurveillance’.

Analyse sémantique des télégrammes diplomatiques Wikileaks. Les télégrammes diplomatiques de Wikileaks, on en a mangé pendant des semaines – sûr qu’il n’y a plus rien à en tirer.

Analyse sémantique des télégrammes diplomatiques Wikileaks

Pourtant, les documents contiennent encore de nombreuses informations que les journalistes ne pourront, individuellement, exploiter en les lisant. Un corpus de cette taille (1,5 gigaoctets de documents diplomatiques, quand même) peut être traité avec des outils statistiques, comme une grande base de données. A ma connaissance, aucun média ne l’a fait. Stefan Candea, du Centre Roumain pour le Journalisme d’Investigation, m’a transmis les documents en sa possession (disponibles ici) pour que je joue avec. Avec le programme MALLET, j’ai séparé les télégrammes en 8 groupes thématiques distincts, comme ‘diplomatie’, ‘économie’ etc. en fonction des contenus des documents.

Grâce à cette manip’, on voit que l’intérêt des diplomates américains à Bucarest pour la politique intérieure roumaine a culminé en 2009, probablement du fait de l’élection présidentielle. Text mining sur les discours d’investiture de la Vème. Pour ce test, j’ai choisi les discours prononcés par les présidents de la Vème République lors de leur (première) investiture afin de pouvoir comparer des textes énoncés dans un même contexte.

Text mining sur les discours d’investiture de la Vème

Ils sont tous accessibles et exportables en PDF (faut pas trop en demander non plus…) sur le site de l’Elysée. Pour lire le détail des textes :Discours de Charles De Gaulle, 8 janvier 1959Discours de Georges Pompidou, 20 juin 1969Discours de Valéry Giscard d’Estaing, 27 mai 1974Discours de François Mitterrand, 21 mai 1981Discours de Jacques Chirac, 17 mai 1995Discours de Nicolas Sarkozy, 16 mai 2007 Premier élément à comparer : la longueur des discours, dont la différence saute aux yeux une fois le nombre de mots extrait grâce au logiciel de traitement de texte. mots Pour rentrer un peu plus dans le détail des textes, j’ai essayé OpenCalais qui crée des metadonnées sur les noms d’entités, faits et évènements repérés dans un texte.

République Général De Gaulle : Georges Pompidou : Jacques Chirac :