Files
cours/S2 LOGOS . analyse exploratoire de données.md

2.2 KiB

up, tags, aliases
up tags aliases
S2 LOGOS
s/informatique
title: "Sous-notes"
type: tree
collapse: false
show-attributes: [field]
field-groups: [downs]
depth: [0, 0]
  • tidy evaluation

Outils de visualisation intéressants

  • mosaic plots (pour des données catégorielles vs numériques)
  • boites à moustache (pour les données catégorielles vs numériques)
    • dont la largeur change selon la taille de l'échantillon
    • qui afficheraient aussi les intervalles de confiance à 95% pour la médiane

Correlations

On considère 2 colonnes numériques : (x_1, \dots, x_{n}) et (y_1, \dots, y_{n}) z = \left[ \begin{array}{cc} x_1 & y_1 \\ \vdots&\vdots \\ x_{n} & y_{n} \end{array} \right]

  • ? y a-t-il une "association" entre les x_{i} et les y_{i}

Cas le plus simple : colinéarité

Quand \begin{pmatrix}x_1\\ \vdots\\ x_{n}\end{pmatrix} et \begin{pmatrix}y_1\\ \vdots\\ y_{n}\end{pmatrix} sont vecteurs colinéaires autrement dit : \exists a, b,\quad y_{i} = ax_{i} + b pour tout i

Quand il n'y a pas colinéarité parfaite

On cherchera (a, b) qui minimisent \begin{pmatrix} a \\ b\end{pmatrix} \mapsto \sum\limits_{i=1}^{n}(y_{i} - (ax_{i}+b))^{2}

  • "critère des moindres carrés ordinaires" (ordinary least squares, OLS)
  • pour obtenir la meilleure approximation affine des y_{i} à partir des x_{i}

La recherche de \begin{pmatrix}a \\ b\end{pmatrix} se fait par régression linéaire simple de \begin{pmatrix}y_1 \\ y_{n}\end{pmatrix} par rapport à \begin{pmatrix}x_1 \\ x_{n}\end{pmatrix}

  • def variance empiriques : \sigma _{x}^{2} = \frac{1}{n} \sum\limits_{i = 1}^{n} (x_{i} - \overline{X})^{2} et \sigma _{y}^{2} = \frac{1}{n}\sum\limits_{i = 1}^{n} (y_{i} - \overline{Y})^{2}
  • def covariance : \operatorname{Cov}(X, Y) = \frac{1}{n} \sum\limits_{i=1}^{n} (x_{i} - \overline{X})(y_{i} - \overline{Y}) = \frac{1}{n}\sum\limits_{i = 1}^{n}x_{i}y_{i} -\overline{X} \cdot\overline{Y} = \overline{XY} - \overline{X}\cdot \overline{Y}
  • def coefficient de correlation linéaire de Pearson : \displaystyle\rho = \frac{\operatorname{Cov}(X, Y)}{\sigma _{x} \sigma _{y}}