Séance 9, le 3 juin 2024

Le thème central de cette séance était les mauvais usages de la statistique. Sur la feuille il y a huit exercices dont on n’a traité que quatre.

Les premiers deux considèrent la différence entre l’approche fréquentiste et bayesienne. Le premier exercice concerne l’affaire de Sally Clark (Wikipedia). Hygiène Mentale a produit un excellent video traitent cette affaire. La présence d’un média est le sujet de la deuxième tâche. Ce qui est particulier ici, c’est que nous considérons un prieur discret-continue.

L’excès de pessimisme est le thème du troisième exercice. Ici, nous développons un modèle pour le nombre de morts sur les routes afin de relativiser un article de journal.

Les trois exercices suivantes examinent les biais des échantillons. Dans l’exercice 5, nous commençons par le paradoxe de Simpson. Des vidéos de TED-Ed et d’arte sont disponibles à ce sujet. L’exercice suivante traite de la différence entre la question du nombre moyen d’enfants et celle du nombre moyen de frères et sœurs. Enfin, le sixième exercice analyse les performances d’un joggeur.

Enfin, les deux dernières exercices traitent des mauvais usages de la régression linéaire. Dans le septième exercice, nous examinons la distance de freinage à différentes vitesses et dans le huitième exercice, l’influence de la consommation de chocolat sur l’espérance de vie. Nous cherchons (et trouvons) toujours des relations linéaires qui n’en sont pas.

Séance 8, le 27 mai 2024

Dans le premier exercice, nous avons effectué une régression linéaire. Cependant, nous nous sommes concentrés sur la significativité de la pente. Une fois de plus, nous avons dû faire face à la loi de Student.

Le célèbre jeu de données de l’iris de Fisher a fait l’objet du deuxième exercice. Ce je de données joue un rôle important dans la science des données et l’apprentissage automatique. Vous pouvez jeter un coup d’œil aux pages de scikitlearn et plotly express.

Séance 7, le 13 mai 2024

Le thème central de cette séance était les intervalles de confiance et le $p$-valeur.

Le premier exercice concerne le test de Wilcoxon-Mann-Whitney. Dans les documents de Chris Wild (anglais), vous trouverez des informations supplémentaires sur ce test. Erik Marsja et stikpet ont produit de courtes vidéos montrant comment réaliser le test de Wilcoxon-Mann-Whitney en python.

Le deuxième exercice portait sur la loi de Poisson et donc sur le cas particulier d’une loi discrète.

Le dernier exercice, que nous n’avons malheureusement pas pu aborder, traite trois modèles. Comme l’a dit George Box, “all models are wrong”.

Séance 6, le 6 mai 2024

Nous avons examiné les tests statistiques. Les deux premiers exercices portaient sur des tests classiques avec des variables à distribution binomiale. Le troisième porte sur la question de l’hétéroscédasticité. Le dernier exercice consiste à établir un tableau de contingence. Cet exercice classique demande s’il existe une corrélation entre les classes individuelles.

Sur la correction, R a été utilisé comme langage de programmation. Dans les TD, j’ai utilisé un Jupyter Notebook ainsi que les bibliothèques Pandas et SciPy. Dans l’exercice 4, une heatmap a été créée en utilisant la bibliothèque Plotly. Mais vous pouvez aussi utiliser Seaborn pour cela.

Séance 5, le 15 avril 2024

Séance 4, le 8 avril 2024

Séance 3, le 25 mars 2024

Séance 2, le 18 mars 2024

Séance 1, le 11 mars 2024