Files
cours/statistiques univariées.md
2026-01-27 01:31:53 +01:00

3.8 KiB

up, tags, aliases, number headings, share_link, share_updated
up tags aliases number headings share_link share_updated
analyse exploratoire de données
s/maths/statistiques
first-level 1, start-at 0, max 3, 1.1 - https://share.note.sx/fqycb8gr#dFBGzDh82OioC5G0yuSETyqCwN4P+heXt5AGqvfibSo 2026-01-27T01:26:28+01:00

I - Motivation

Lorsque l'on travaille sur des données tabulaires.

!statistiques univariées données tabulaires 2026-01-26 16.09.21.excalidraw

  • phase préliminaire de l'analyse exploratoire
    • examen de chaque colonne (échantillon multivarié)
  • phase II : examiner les colonnes paire par paire
  • phase III : recherche de relations \begin{cases} \text{entre 1 colonne et les autres}\\ \text{entre 2 groupes de colonnes} \end{cases} (analyse multivariée)

II - Lexique / vocabulaire

  • échantillon (sample)
    • souvent obtenu à partir d'une population
    • ! bien distinguer un sondage (qui vient d'un tirage sur un recensement de la population) d'une enquête d'opinion (qui admet des refus, ce qui ne permet pas de connaître la distribution de l'échantillon)
  • mesures/variables sur chaque individu, de 2 types :
    • variables numériques (à valeurs dans les nombres)
    • variables catégorielles/qualitatives (à valeurs dans un ensemble fini)
    • I échelle de Likert : réponse (sur 5 ou 7 items), pour évaluer des perceptions/attitudes/opinions
      • = "que pensez vous de la politique de Macron ?" : très bonne, plutôt bonne, neutre, plutôt mauvaise, très mauvaise

III - échantillons quantitatifs / numériques

étant donnés n individus, et soient x_1, \dots, x_{n} les n mesures sur chacun de ces individus.

cet échantillon donne une loi empirique P_{n} :

  • loi sur \mathbb{R} (muni de la tribu...)
  • \displaystyle P_{n}(A) = \sum\limits_{i=1}^{n} \frac{1}{n} \mathbb{1}_{\{ x_{i} \in A \}} donne un poids \frac{1}{n} à chaque point x_{i} Fonction de répartition empirique (ecrf) : \begin{align} F_{n} : \mathbb{R} & \to (0, 1)\\ x &\mapsto P_{n}(]-\infty, x[) = \sum\limits_{i = 1}^{n} \frac{1}{n}\mathbb{1}_{x_{i}\leq x} \end{align}

[!info] caractérisations équivalentes Entre l'échantillon et la fonction de répartition empirique, il y à perte d'information Si les (x_{i}) sont distincts, toutes les n! permutations de l'échantillon donnent la même fonction de répartition. La fonction de répartition donne autant d'information que l'échantillon trié.

soient x_{1:n} \leq x_{2:n} \leq \cdots \leq x_{n:n} les "statistiques d'ordre" (les (x_{i}) ordonnés) x \in [x_{i:n}; x_{n:n}[ \iff F_{n}(x) = \frac{i}{n}

Les statistiques d'ordre, la loi empirique et la fonction de répartition empirique, donnent la même information sur les mesures.

IV - résumés numériques

essentiellement : \begin{cases} \text{localisation (espérance/moyenne)} \\ \text{dispersion (ecart type)} \end{cases}

espérance \leftrightarrow moyenne empirique \overline{X} = \frac{1}{n}\sum\limits_{i = 1}^{n} x_{i} = \frac{1}{n}\sum\limits_{i = 1}^{n}x_{i:n} si on ajoute \mu a chaque élément de (x_1, \dots, x_{n}) , la moyenne empirique est augmentée de \mu (translation)

dispersion : s^{2} = \frac{1}{\color{darkorange}n-1} \sum\limits_{i = 1}^{n}(x_{i} - \overline{X})^{2}

  • so ces indicateurs marchent pour des lois normales (gaussiennes), mais il en faut d'autres pour d'autres lois

quantiles (dont la médiane)

paramètres de dispersion :

soit m la médiane

  • MAD = \frac{1}{n} \sum\limits_{i = 1}^{n} |X_{i} - m| déviation absolue moyenne
  • MED = \operatorname{Mediane}(|X_1 - m|, |X_2-m|, \dots, |X_{n}-m|)
  • IQR = F^{\leftarrow}_{n}\left( \frac{3}{4} \right) - F^{\leftarrow}_{n}\left( \frac{1}{4} \right) interquantile range

V - graphiques

VI - échantillons catégoriels