Manfred Madritsch -- Inférence statistique

Séance 9, le 3 juin 2024

Le thème central de cette séance était les mauvais usages de la statistique. Sur la feuille il y a huit exercices dont on n’a traité que quatre.

Les premiers deux considèrent la différence entre l’approche fréquentiste et bayesienne. Le premier exercice concerne l’affaire de Sally Clark (Wikipedia). Hygiène Mentale a produit un excellent video traitent cette affaire. La présence d’un média est le sujet de la deuxième tâche. Ce qui est particulier ici, c’est que nous considérons un prieur discret-continue.

L’excès de pessimisme est le thème du troisième exercice. Ici, nous développons un modèle pour le nombre de morts sur les routes afin de relativiser un article de journal.

Les trois exercices suivantes examinent les biais des échantillons. Dans l’exercice 5, nous commençons par le paradoxe de Simpson. Des vidéos de TED-Ed et d’arte sont disponibles à ce sujet. L’exercice suivante traite de la différence entre la question du nombre moyen d’enfants et celle du nombre moyen de frères et sœurs. Enfin, le sixième exercice analyse les performances d’un joggeur.

Enfin, les deux dernières exercices traitent des mauvais usages de la régression linéaire. Dans le septième exercice, nous examinons la distance de freinage à différentes vitesses et dans le huitième exercice, l’influence de la consommation de chocolat sur l’espérance de vie. Nous cherchons (et trouvons) toujours des relations linéaires qui n’en sont pas.

Séance 8, le 27 mai 2024

Dans le premier exercice, nous avons effectué une régression linéaire. Cependant, nous nous sommes concentrés sur la significativité de la pente. Une fois de plus, nous avons dû faire face à la loi de Student.

Le célèbre jeu de données de l’iris de Fisher a fait l’objet du deuxième exercice. Ce je de données joue un rôle important dans la science des données et l’apprentissage automatique. Vous pouvez jeter un coup d’œil aux pages de scikitlearn et plotly express.

Séance 7, le 13 mai 2024

Le thème central de cette séance était les intervalles de confiance et le $p$-valeur.

Le premier exercice concerne le test de Wilcoxon-Mann-Whitney. Dans les documents de Chris Wild (anglais), vous trouverez des informations supplémentaires sur ce test. Erik Marsja et stikpet ont produit de courtes vidéos montrant comment réaliser le test de Wilcoxon-Mann-Whitney en python.

Le deuxième exercice portait sur la loi de Poisson et donc sur le cas particulier d’une loi discrète.

Le dernier exercice, que nous n’avons malheureusement pas pu aborder, traite trois modèles. Comme l’a dit George Box, “all models are wrong”.

Séance 6, le 6 mai 2024

Nous avons examiné les tests statistiques. Les deux premiers exercices portaient sur des tests classiques avec des variables à distribution binomiale. Le troisième porte sur la question de l’hétéroscédasticité. Le dernier exercice consiste à établir un tableau de contingence. Cet exercice classique demande s’il existe une corrélation entre les classes individuelles.

Sur la correction, R a été utilisé comme langage de programmation. Dans les TD, j’ai utilisé un Jupyter Notebook ainsi que les bibliothèques Pandas et SciPy. Dans l’exercice 4, une heatmap a été créée en utilisant la bibliothèque Plotly. Mais vous pouvez aussi utiliser Seaborn pour cela.

Séance 5, le 15 avril 2024

Nous avons parlé des estimateurs. En particulière l’estimateur du maximum de vraisemblance et l’estimateur par moment.

Pour l’exercice trois Lé Nguyén Hoang et Heu?reka ont collaboré à la réalisation d’une vidéo sur le biais et la variance des estimateurs et leur relation avec la sous-apprentissage et la sur-apprentissage. Comme le suggère le mot “apprentissage”, il y a ici un lien fort avec l’apprentissage automatique (machine learning).

Séance 4, le 8 avril 2024

Cette semaine, nous avons examiné les cas extrêmes. Dans le premier exercice, nous avons étudié un nouveau médicament et ses effets secondaires graves. Comme ce taux est défini sur l’intervalle $[0,1]$ et qu’il existe peu de lois appropriées sur cet intervalle, nous avons utilisé la fonction logit pour transformer l’intervalle vers les réels tout entier. À cette fin, nous avons examiné deux prieurs différents fondées sur la loi normale et la loi de student respectivement. Les deux sont concentrés autour de 0,5 et 2 %. Cependant, notre observation a suggéré des effets secondaires de 90 % et nous avons observé deux postérieurs complètement différents. Voir aussi mon outil sur le choix des priors.

Le deuxième exercice est basé sur un test de réaction. En partant de 65 personnes, nous essayons d’interpoler à l’ensemble du monde et nous constatons que notre modèle présente certains défauts.

Séance 3, le 25 mars 2024

Dans le premier exercice, nous avons analysé une élection. Dans une village, 444 personnes votent et nous essayons de faire une projection du résultat des élections à partir des 100 premières voix. Dans ce cadre, nous avons calculé plusieurs paramètres tels que la loi à posteriori, l’espérance et un intervalle de confiance pour l’observation future.

Après nous avons commencé le problème du char d’assaut allemand.

Séance 2, le 18 mars 2024

La deuxième session s’est concentrée sur le théorème de Bayes et ses conséquences pour l’inférence statistique. Dans le premier exercice, nous avons considéré le handicap d’un golfeur. Celle-ci suit une loi gamma et conduit donc à une loi bêta pour la vraisemblance. Nous avons déduit un postérieur et avons pu donner un intervalle de 80% pour son taux de réussite. Pour cet exercice, j’ai également montré mon outil.

Les tubes électroniques ont fait l’objet du deuxième exercice. Le but était d’estimer la durée de vie d’un tel tube en considérant une période finie. Cela a conduit à une distribution mixte (continue et discrète). En utilisant notre postérieur, nous pouvions déduire la durée de vie estimée.

Séance 1, le 11 mars 2024

Dans le premier exercice, nous nous sommes familiarisés avec le vocabulaire de l’inférence statistique. Nous avons appris ce qu’est un paramètre du modèle, une statistique et quantité d’intérêt explicative et prédictive.

Le deuxième exercice concerne le problème classique de Monty Hall. Ici, nous n’avons utilisé que des distributions discrètes et avons également traité une variante dans laquelle il était préférable de ne pas changer.