---
up:
  - "[[S2 LOGOS]]"
tags:
  - s/informatique
aliases:
---

```breadcrumbs
title: "Sous-notes"
type: tree
collapse: false
show-attributes: [field]
field-groups: [downs]
depth: [0, 0]
```

 - tidy evaluation

# Outils de visualisation intéressants
 - mosaic plots (pour des données catégorielles vs numériques)
 - boites à moustache (pour les données catégorielles vs numériques)
     - dont la largeur change selon la taille de l'échantillon
     - qui afficheraient aussi les intervalles de confiance à 95% pour la médiane


# Correlations

On considère 2 colonnes numériques : $(x_1, \dots, x_{n})$ et $(y_1, \dots, y_{n})$  $z = \left[ \begin{array}{cc} x_1 & y_1 \\ \vdots&\vdots \\ x_{n} & y_{n} \end{array} \right]$
 - ? y a-t-il une "association" entre les $x_{i}$ et les $y_{i}$

## Cas le plus simple : colinéarité
Quand $\begin{pmatrix}x_1\\ \vdots\\ x_{n}\end{pmatrix}$ et $\begin{pmatrix}y_1\\ \vdots\\ y_{n}\end{pmatrix}$ sont [[vecteurs colinéaires|colinéaires]]
autrement dit : $\exists a, b,\quad y_{i} = ax_{i} + b$ pour tout $i$

### Quand il n'y a pas colinéarité parfaite
On cherchera $(a, b)$ qui minimisent $\begin{pmatrix} a \\ b\end{pmatrix} \mapsto \sum\limits_{i=1}^{n}(y_{i} - (ax_{i}+b))^{2}$
 - "**critère des moindres carrés ordinaires**" (*ordinary least squares*, OLS)
 - pour obtenir la **meilleure approximation affine** des $y_{i}$ à partir des $x_{i}$
 
La recherche de $\begin{pmatrix}a \\ b\end{pmatrix}$ se fait par régression linéaire simple de $\begin{pmatrix}y_1 \\ y_{n}\end{pmatrix}$ par rapport à $\begin{pmatrix}x_1 \\ x_{n}\end{pmatrix}$

 - def **[[variance|variances]] empiriques** :  $\sigma _{x}^{2} = \frac{1}{n} \sum\limits_{i = 1}^{n} (x_{i} - \overline{X})^{2}$ et $\sigma _{y}^{2} = \frac{1}{n}\sum\limits_{i = 1}^{n} (y_{i} - \overline{Y})^{2}$
 - def **[[covariance]]** : $\operatorname{Cov}(X, Y) = \frac{1}{n} \sum\limits_{i=1}^{n} (x_{i} - \overline{X})(y_{i} - \overline{Y}) = \frac{1}{n}\sum\limits_{i = 1}^{n}x_{i}y_{i} -\overline{X} \cdot\overline{Y} = \overline{XY} - \overline{X}\cdot \overline{Y}$
 - def **[[coefficient de correlation linéaire de Pearson]]** : $\displaystyle\rho = \frac{\operatorname{Cov}(X, Y)}{\sigma _{x} \sigma _{y}}$