background preloader

Data Science

Facebook Twitter

Un article de Wikipédia, l'encyclopédie libre.

Illustration de la méthode des moindres carrés. Les données suivent la courbe figurée en pointillés et sont affectées par un bruit gaussien centré, de variance 1. Le meilleur ajustement déterminé par la méthode des moindres carrés est représenté en rouge. La méthode des moindres carrés, indépendamment élaborée par Legendre et Gauss au début du xixe siècle, permet de comparer des données expérimentales, généralement entachées d’erreurs de mesure, à un modèle mathématique censé décrire ces données.

Ce modèle peut prendre diverses formes. Présentation de la méthode[modifier | modifier le code] Dans le cas le plus courant, le modèle théorique est une famille de fonctions d’une ou plusieurs variables muettes x, indexées par un ou plusieurs paramètres inconnus. La méthode consiste en une prescription (initialement empirique), qui est que la fonction. . , les paramètres où les sont les résidus du modèle, i.e. Méthode des moindres carrés. Analyse en composantes principales. Un article de Wikipédia, l'encyclopédie libre.

Analyse en composantes principales

L'analyse en composantes principales (ACP ou PCA en anglais), ou selon le domaine d'application la transformation de Karhunen–Loève (KLT)[1], est une méthode de la famille de l'analyse des données et plus généralement de la statistique multivariée, qui consiste à transformer des variables liées entre elles (dites "corrélées" en statistique) en nouvelles variables décorrélées les unes des autres. Ces nouvelles variables sont nommées "composantes principales", ou axes principaux. Elle permet au praticien de réduire le nombre de variables et de rendre l'information moins redondante. variables aléatoires, les. Un article de Wikipédia, l'encyclopédie libre.

Pour les articles homonymes, voir Variance. En statistique et en théorie des probabilités, la variance est une mesure servant à caractériser la dispersion d'un échantillon ou d'une distribution. Elle indique de quelle manière la série statistique ou la variable aléatoire se disperse autour de sa moyenne ou son espérance. Une variance de zéro signale que toutes les valeurs sont identiques. Une petite variance est signe que les valeurs sont proches les unes des autres alors qu'une variance élevée est signe que celles-ci sont très écartées. Pour calculer la variance d'une série statistique ou d'une variable aléatoire, on calcule les écarts entre la série, ou la variable, et sa moyenne, ou espérance, puis on prend la moyenne, ou l'espérance, de ces écarts élevés au carré. Variance (statistiques et probabilités) Écart type. Un article de Wikipédia, l'encyclopédie libre.

Écart type

Histoire[modifier | modifier le code] fig. 01 - Exemple de deux échantillons ayant la même moyenne mais des écarts types différents illustrant l'écart type comme mesure de la dispersion autour de la moyenne. L'écart type est une grandeur dont l'invention remonte à la période du XIXe siècle qui vit la statistique se développer au Royaume-Uni.

C'est à Abraham de Moivre qu'est attribuée la découverte du concept de mesure de la dispersion qui apparaît dans son ouvrage The Doctrine of Chances en 1718[b 1]. Mais le terme d'écart type (« standard deviation ») a été employé pour la première fois par Karl Pearson en 1893 devant la « London Royal Society »[b 2]. Contexte général[modifier | modifier le code] Dans la pratique, on préfère l'écart type (lettre grecque sigma) à la variance , car l'écart type peut être comparé à l'ordre de grandeur des valeurs, ce qui n'est pas le cas de la variance[b 5]. Applications[modifier | modifier le code] [b 6]. [i 7]. Corrélation (statistiques) Un article de Wikipédia, l'encyclopédie libre.

Corrélation (statistiques)

En probabilités et en statistiques, étudier la corrélation entre deux ou plusieurs variables aléatoires ou statistiques numériques, c’est étudier l'intensité de la liaison qui peut exister entre ces variables. Le type le plus simple de liaison est la relation affine. Dans le cas de deux variables numériques, elle se calcule à travers une régression linéaire.

La mesure de la corrélation linéaire entre les deux se fait alors par le calcul du coefficient de corrélation linéaire, noté r. Ce coefficient est égal au rapport de leur covariance et du produit non nul de leurs écarts types. Le fait que deux variables soient « fortement corrélées » ne démontre pas qu'il y ait une relation de causalité entre l'une et l'autre. Un article de Wikipédia, l'encyclopédie libre.

Ne pas confondre avec la covariance d'un tenseur en algèbre ou en géométrie différentielle, ou d'un foncteur en théorie des catégories. En théorie des probabilités et en statistique, la covariance entre deux variables aléatoires est un nombre permettant de quantifier leurs écarts conjoints par rapport à leurs espérances respectives.

Elle s’utilise également pour deux séries de données numériques (écarts par rapport aux moyennes). Ce concept se généralise naturellement à plusieurs variables (vecteur aléatoire) par la matrice de covariance (ou matrice de variance-covariance) qui, pour un ensemble de p variables aléatoires réelles À titre d'exemple, la dispersion d'un ensemble de points aléatoires dans un espace à deux dimensions ne peut pas être totalement caractérisée par un seul nombre, ni par les seules variances dans les directions x et y ; une matrice 2 × 2 permet d’appréhender pleinement la nature bidimensionnelle des variations. où et on a. Covariance.