TD 1 — Modèle de Poisson (R)
Année universitaire 2025–2026 • Parcours Économie de la santé & Développement durable
Fiche d’énoncé — Questions
1 Contexte
On étudie d’anciennes données reliant tabagisme et décès par cancer du poumon.
Variables : age (classes), smoking status (4 classes), population (centaines de milliers), deaths (décès annuels).
2 Préparation
2.1 Objectifs de ce TD
- Importer et préparer un tableau « comptages + exposition » (population à risque).
- Ajuster un GLM Poisson avec offset (log-exposition).
- Évaluer l’ajustement : déviance (vs modèle saturé) & Pearson.
- Comparer des modèles via tests de rapport de vraisemblance (LR).
- Interpréter en ratios de taux d’incidence (IRR) et produire des comptes attendus.
3 Import et manipulation des données
Importer les données
smoking_dat.xlsx.Décrire et commenter le dictionnaire des variables :
age: classes d’âge.smoking status: 4 classes.population: en centaines de milliers.deaths: décès annuels.
Coder les variables
ageetsmoking statusen facteurs.Justifier l’unité d’exposition retenue (population ou population × 100 000).
4 Estimations
4.1 Modèle de base
- Ajuster un modèle Poisson log-linéaire avec effets de
smoking_statusetageet offsetlog(exposure).- Q1 : Pourquoi utiliser des variables indicatrices plutôt que des codes numériques continus ?
- Calculer la déviance du modèle ajusté.
- Q2 : Interpréter la déviance et le p-value (DEV1).
- Interpréter l’effet de l’âge sur la probabilité de décès.
- Q3 : Que disent les coefficients d’âge en termes d’IRR ?
4.2 Ajustement du modèle
- Réaliser les deux tests d’ajustement : déviance GOF et Pearson GOF.
- Q4 : Justifier les degrés de liberté.
- Q5 : Discuter les conditions d’application du test du χ².
4.3 Comparaison de modèles
- Ajuster un modèle sans la variable tabac et effectuer un test LR entre les deux modèles.
- Q6 : Conclure sur l’impact de l’usage du tabac sur la probabilité de décès.
4.4 Variable binaire « cigarette »
- Créer une variable binaire
cigarette_user(=1 si l’individu fume des cigarettes, 0 sinon). - Ajuster un modèle avec
age+cigarette_user. - Comparer ce modèle avec le modèle initial par un test LR.
- Q7 : Le type de produit fumé influence-t-il différemment le taux de décès ?
4.5 Extensions (facultatif)
- Calculer et présenter les IRR avec IC à 95 %.
- Présenter les comptes observés vs attendus et commenter.
- Vérifier la présence éventuelle de sur-dispersion et proposer, si nécessaire, un modèle adapté (Quasi-Poisson ou Négative Binomiale).