background preloader

Analyse de texte

Facebook Twitter

Latent semantic indexing. Latent semantic indexing (LSI) is an indexing and retrieval method that uses a mathematical technique called singular value decomposition (SVD) to identify patterns in the relationships between the terms and concepts contained in an unstructured collection of text. LSI is based on the principle that words that are used in the same contexts tend to have similar meanings. A key feature of LSI is its ability to extract the conceptual content of a body of text by establishing associations between those terms that occur in similar contexts.[1] LSI is also an application of correspondence analysis, a multivariate statistical technique developed by Jean-Paul Benzécri[2] in the early 1970s, to a contingency table built from word counts in documents.

Called Latent Semantic Indexing because of its ability to correlate semantically related terms that are latent in a collection of text, it was first applied to text at Bell Laboratories in the late 1980s. Benefits of LSI[edit] LSI timeline[edit] . Of. Analyse des donnees.pdf. CaipA.pdf. St-m-explo-afc.pdf. Analyse factorielle des correspondances. Un article de Wikipédia, l'encyclopédie libre. Pour les articles homonymes, voir AFC. L'analyse factorielle des correspondances, en abrégée AFC, est une méthode statistique d'analyse des données mise au point par Jean-Paul Benzecri alors professeur à la faculté des sciences de Rennes[1].

Par la suite, il fut professeur à l'Université Pierre-et-Marie-Curie à Paris (ISUP et Laboratoire de statistique multidimensionnelle). Introduction[modifier | modifier le code] Dit grossièrement, une méthode AFC admet en entrée un "tableau croisé dynamique", et produit en sortie une ou plusieurs cartes ou images de répartition des valeurs et des variables. La technique de l'AFC est essentiellement utilisée pour de grands tableaux de données toutes comparables entre elles (si possible exprimées toutes dans la même unité, comme une monnaie, une dimension, une fréquence ou toute autre grandeur mesurable). Principe[modifier | modifier le code] Exemple d'application[modifier | modifier le code] On note . .