TD 1 — Modèle de Poisson (R)

Année universitaire 2025–2026 • Parcours Économie de la santé & Développement durable

Fiche d’énoncé — Questions
Author

Pierre Beaucoral

1 Contexte

On étudie d’anciennes données reliant tabagisme et décès par cancer du poumon.
Variables : age (classes), smoking status (4 classes), population (centaines de milliers), deaths (décès annuels).

2 Préparation

2.1 Objectifs de ce TD

  • Importer et préparer un tableau « comptages + exposition » (population à risque).
  • Ajuster un GLM Poisson avec offset (log-exposition).
  • Évaluer l’ajustement : déviance (vs modèle saturé) & Pearson.
  • Comparer des modèles via tests de rapport de vraisemblance (LR).
  • Interpréter en ratios de taux d’incidence (IRR) et produire des comptes attendus.

3 Import et manipulation des données

  1. Importer les données smoking_dat.xlsx.

  2. Décrire et commenter le dictionnaire des variables :

    • age : classes d’âge.
    • smoking status : 4 classes.
    • population : en centaines de milliers.
    • deaths : décès annuels.
  3. Coder les variables age et smoking status en facteurs.

  4. Justifier l’unité d’exposition retenue (population ou population × 100 000).

4 Estimations

4.1 Modèle de base

  1. Ajuster un modèle Poisson log-linéaire avec effets de smoking_status et age et offset log(exposure).
    • Q1 : Pourquoi utiliser des variables indicatrices plutôt que des codes numériques continus ?
  2. Calculer la déviance du modèle ajusté.
    • Q2 : Interpréter la déviance et le p-value (DEV1).
  3. Interpréter l’effet de l’âge sur la probabilité de décès.
    • Q3 : Que disent les coefficients d’âge en termes d’IRR ?

4.2 Ajustement du modèle

  1. Réaliser les deux tests d’ajustement : déviance GOF et Pearson GOF.
    • Q4 : Justifier les degrés de liberté.
    • Q5 : Discuter les conditions d’application du test du χ².

4.3 Comparaison de modèles

  1. Ajuster un modèle sans la variable tabac et effectuer un test LR entre les deux modèles.
    • Q6 : Conclure sur l’impact de l’usage du tabac sur la probabilité de décès.

4.4 Variable binaire « cigarette »

  1. Créer une variable binaire cigarette_user (=1 si l’individu fume des cigarettes, 0 sinon).
  2. Ajuster un modèle avec age + cigarette_user.
  3. Comparer ce modèle avec le modèle initial par un test LR.
    • Q7 : Le type de produit fumé influence-t-il différemment le taux de décès ?

4.5 Extensions (facultatif)

  1. Calculer et présenter les IRR avec IC à 95 %.
  2. Présenter les comptes observés vs attendus et commenter.
  3. Vérifier la présence éventuelle de sur-dispersion et proposer, si nécessaire, un modèle adapté (Quasi-Poisson ou Négative Binomiale).