Quiz de révision – Introduction à l’économétrie (L3)
Objectif : quiz de 2h pour réviser Introduction à l’économétrie en vue de l’examen (questions de cours + applications, sans EViews).
- Coche les réponses directement dans la page.
- Clique sur « Corriger le quiz » pour voir ton score global.
- Les encadrés verts = bonnes réponses ; rouges = à retravailler.
- Certains exercices (calculs, mini-études de cas, tests sur les erreurs, IV) ne sont pas scorés automatiquement : entraîne-toi comme pour l’examen.
Score non calculé.
1 1. Notions de base
1.1 Q1 – Variables et échantillon
Q1.1 – Comment définir une variable expliquée (dépendante) dans un modèle de régression ?
Solution et commentaire
La variable expliquée (ou dépendante) est celle dont on cherche à modéliser la variation en fonction des variables explicatives (ou régressseurs).
Par exemple, le salaire en fonction du niveau d’éducation, de l’expérience, etc.
Q1.2 – Qu’est-ce qu’un estimateur sans biais ?
Solution et commentaire
Un estimateur \(\hat\theta\) est sans biais si \(\mathbb E[\hat\theta] = \theta\), où \(\theta\) est le vrai paramètre à estimer.
Cela ne veut pas dire que dans un échantillon donné, \(\hat\theta = \theta\), mais qu’en moyenne (sur des échantillons répétés), l’estimateur « vise juste ».
Q1.3 – Erreur de mesure classique sur la variable expliquée \(Y\)
On observe \(Y^{obs} = Y + u\), où \(u\) est un bruit de mesure indépendant de tout. Que se passe-t-il pour l’estimation MCO (OLS) d’un modèle linéaire ?
Solution et commentaire
Une erreur de mesure classique sur \(Y\) ajoute du bruit au côté gauche mais n’introduit pas de corrélation entre les régressseurs et l’erreur.
Les MCO restent donc sans biais mais moins précis (variance plus grande).
2 2. Modèle de régression linéaire simple
Considère le modèle :
\[
Y_i = \beta_0 + \beta_1 X_i + u_i.
\]
2.1 Q2 – Interprétation et hypothèses
Q2.1 – Interprétation de \(\beta_1\)
Solution et commentaire
Dans un modèle linéaire simple, \(\beta_1\) mesure la pente de la relation moyenne entre \(Y\) et \(X\) :
une augmentation d’une unité de \(X\) est associée à une variation moyenne de \(\beta_1\) unités de \(Y\).
Q2.2 – Quelles hypothèses sont nécessaires pour obtenir un estimateur MCO sans biais de \(\beta_1\) ? (plusieurs réponses)
Solution et commentaire
Pour l’absence de biais en MCO, on a besoin notamment de : - Exogénéité conditionnelle : \(\mathbb E[u_i \mid X_i] = 0\) ; - Variation dans \(X\) (pas de colinéarité parfaite) ; - Échantillon i.i.d. dans la plupart des cadres.
La normalité des erreurs n’est pas nécessaire pour le sans biais (elle sert plutôt pour certains résultats exacts en petits échantillons).
Q2.3 – Coefficient de détermination \(R^2\)
Solution et commentaire
Le \(R^2\) est défini comme : \[ R^2 = \frac{\text{SCR}}{\text{SCT}} = 1 - \frac{\text{SCE}}{\text{SCT}}, \] c’est-à-dire la fraction de la variance totale de \(Y\) expliquée par la régression.
3 3. Régression multiple et interprétation des coefficients
On considère maintenant : \[ Y_i = \beta_0 + \beta_1 X_{1i} + \beta_2 X_{2i} + u_i. \]
3.1 Q3 – Effets partiels et variables omises
Q3.1 – Interprétation de \(\beta_1\) dans une régression multiple
Solution et commentaire
Dans une régression multiple, \(\beta_1\) mesure un effet partiel : la variation de \(Y\) lorsque \(X_1\) augmente, toutes choses égales par ailleurs (c’est-à-dire à \(X_2\) fixé).
Q3.2 – Biais de variable omise (plusieurs réponses)
On omet une variable \(Z\) pertinente. Dans quelles situations le coefficient estimé \(\tilde\beta_1\) sur \(X_1\) est-il biaisé ?
Solution et commentaire
Le biais de variable omise apparaît quand la variable manquante : - a un effet sur \(Y\) et - est corrélée avec \(X_1\).
Dans ce cas, l’effet de \(Z\) est « absorbé » dans le coefficient de \(X_1\), qui devient biaisé.
Q3.3 – Multicolinéarité parfaite
Solution et commentaire
La multicolinéarité parfaite (par ex. \(X_3 = 2X_1 + X_2\) pour toutes les observations) empêche l’inversion de \(X'X\).
Le logiciel ne peut alors pas estimer tous les coefficients ; il en « enlève » au moins un.
4 4. Tests sur les coefficients : \(t\), \(F\), intervalles de confiance
4.1 Q4 – Tests sur les coefficients
Q4.1 – Statistique de test \(t\) pour \(H_0 : \beta_j = 0\)
Solution et commentaire
Pour tester \(H_0 : \beta_j = 0\), on utilise : \[
t = \frac{\hat\beta_j - 0}{\text{se}(\hat\beta_j)}.
\] On compare ensuite \(|t|\) à la valeur tabulée \(t^{*}_{\alpha/2,\ \text{ddl}}\) (par exemple au seuil de 5 %, avec les degrés de liberté adaptés).
Si \(|t| > t^{*}\), on rejette \(H_0\) ; sinon, on ne la rejette pas.
Q4.2 – Règle de décision avec la table de Student (seuil 5 %)
On teste \(H_0 : \beta_1 = 0\) dans un modèle avec 100 observations et 4 coefficients estimés (constante incluse). On obtient \(t = 2{,}30\).
On rappelle que la valeur tabulée à 5 % (bilatéral) pour environ 96 degrés de liberté est \(t^* \approx 1{,}98\).
Solution et commentaire
Degrés de liberté \(\text{ddl} = n - K = 100 - 4 = 96\).
Au seuil de 5 % (bilatéral), la valeur tabulée est \(t^* \approx 1{,}98\).
Comme \(|t| = 2{,}30 > 1{,}98\), on rejette \(H_0\) et on conclut que \(\beta_1\) est significativement différent de 0 au seuil de 5 %.
Q4.3 – Test \(F\) pour plusieurs restrictions linéaires
Solution et commentaire
Le test \(F\) permet de tester plusieurs restrictions linéaires en même temps, par exemple : \[ H_0 : \beta_2 = 0 \quad\text{et}\quad \beta_3 = 0. \] On compare la qualité d’ajustement du modèle restreint et du modèle non restreint, puis la statistique \(F\) à une valeur tabulée de la loi \(F\) (selon les degrés de liberté).
4.2 Exercice calculé (non scoré automatiquement)
Considère un estimateur \(\hat\beta_1 = 0{,}8\) avec \(\text{se}(\hat\beta_1) = 0{,}25\) et un échantillon de taille \(n = 120\).
- Calcule la statistique \(t\) pour \(H_0 : \beta_1 = 0\).
- Donne la règle de décision au seuil de 5 % (en utilisant la table de Student, avec \(n-K\) degrés de liberté).
- Construis un intervalle de confiance à 95 % pour \(\beta_1\) et interprète-le.
Fais ces calculs sur papier : c’est exactement le type de raisonnement de l’examen.
5 5. Tests d’hypothèses sur les erreurs : hétéroscédasticité & autocorrélation
5.1 Q5 – Hétéroscédasticité
Q5.1 – Hétéroscédasticité (définition)
Solution et commentaire
L’hétéroscédasticité correspond à : \[
\text{Var}(u_i \mid X_i) = \sigma_i^2
\] qui varie avec \(i\) (et donc avec les régressseurs).
Elle rend les erreurs standards MCO classiques incorrectes, d’où l’usage d’erreurs standards robustes.
Q5.2 – Tests pour l’hétéroscédasticité (plusieurs réponses)
Quels tests sont classiquement utilisés pour détecter l’hétéroscédasticité des erreurs dans un modèle MCO ?
Solution et commentaire
- Breusch–Pagan et White sont des tests standard pour l’hétéroscédasticité.
- Durbin–Watson teste l’autocorrélation des résidus (séries temporelles).
- Jarque–Bera teste la normalité des résidus.
- Le graphique « résidus vs valeurs ajustées » peut aider à détecter des motifs de variance non constante.
Q5.3 – Décision pour un test de type \(\chi^2\) (Breusch–Pagan / White)
On effectue un test de Breusch–Pagan d’homoscédasticité. On obtient une statistique de test \(BP = 7{,}2\) avec 2 degrés de liberté.
Au seuil de 5 %, la valeur tabulée de \(\chi^2_2\) est environ \(5{,}99\).
Solution et commentaire
Les tests de Breusch–Pagan / White sont basés sur une statistique \(\chi^2\).
Comme \(BP = 7{,}2 > 5{,}99\), on rejette l’hypothèse d’homoscédasticité au seuil de 5 % et on conclut à la présence d’hétéroscédasticité.
On utilisera alors par exemple des erreurs standards robustes pour les tests sur les coefficients.
5.2 Q6 – Autocorrélation
Q5.4 – Autocorrélation des erreurs
Solution et commentaire
L’autocorrélation (ou corrélation sérielle) est un problème typique des données de séries temporelles : les erreurs \(u_t\) sont corrélées entre périodes.
Les MCO restent en général sans biais mais inefficients, et les erreurs standards classiques sont fausses.
Q5.5 – Tests pour l’autocorrélation (plusieurs réponses)
Solution et commentaire
- Durbin–Watson : test spécifique (principalement pour une autocorrélation d’ordre 1).
- Breusch–Godfrey : plus général, permet de tester plusieurs retards.
- Breusch–Pagan et White concernent l’hétéroscédasticité, pas l’autocorrélation.
Q5.6 – Utiliser la table de Durbin–Watson (dL, dU)
On estime un modèle de régression sur une série temporelle, avec :
- taille d’échantillon : (n = 50)
- nombre de régressseurs (constante incluse) : (k = 3)
- statistique de Durbin–Watson observée : (DW = 1{,}20)
Pour un test au seuil de 5 % (bilatéral), la table de Durbin–Watson fournit, pour ces valeurs de (n) et (k) :
- borne inférieure : (d_L = 1{,}33)
- borne supérieure : (d_U = 1{,}65)
On rappelle que pour tester l’hypothèse d’absence d’autocorrélation positive des erreurs :
- si (DW < d_L) : on rejette (H_0) (on conclut à une autocorrélation positive) ;
- si (d_L DW d_U) : zone d’indétermination ;
- si (DW > d_U) : on ne rejette pas (H_0).
Quelle conclusion tirer ici ?
Solution et commentaire
Ici, (DW = 1{,}20) et les bornes tabulées au seuil de 5 % sont (d_L = 1{,}33) et (d_U = 1{,}65).
On a (DW < d_L), donc on est dans la zone où on rejette l’hypothèse d’absence d’autocorrélation positive des erreurs.
On conclut qu’il y a des indices d’autocorrélation positive.
Rappel de la règle (test d’autocorrélation positive) :
- si (DW < d_L) : rejet de (H_0 : ) ;
- si (d_L DW d_U) : zone d’indétermination ;
- si (DW > d_U) : on ne rejette pas (H_0).
6 6. Endogénéité & variables instrumentales (VI)
6.1 Q7 – Idée générale
Q6.1 – Endogénéité d’un régressseur
Solution et commentaire
L’endogénéité viole l’hypothèse clé \(\mathbb E[u_i \mid X_i] = 0\) (ou \(\text{Cov}(X,u)=0\)).
Elle peut venir d’une variable omise, d’une causalité inverse, d’une erreur de mesure, etc.
Dans ce cas, les MCO sont en général biaisés et inconsistants.
Q6.2 – Conditions pour un instrument valide (plusieurs réponses)
On souhaite instrumenter une variable endogène \(x_i\) à l’aide d’une variable \(z_i\). Quelles sont les deux grandes conditions pour que \(z_i\) soit un instrument valide ?
Solution et commentaire
Un bon instrument doit être : 1. Pertinent : corrélé à la variable endogène \(x_i\). 2. Exogène (valide) : non corrélé au terme d’erreur \(u_i\).
La normalité ou le caractère binaire ne sont pas des conditions nécessaires.
Q6.3 – Exact-identification et sur-identification
On note \(K\) le nombre de variables endogènes à instrumenter et \(L\) le nombre d’instruments disponibles (hors régressseurs exogènes).
Quel cas correspond à un modèle sur-identifié ?
Solution et commentaire
- \(L < K\) : modèle sous-identifié (pas assez d’instruments).
- \(L = K\) : exactement identifié.
- \(L > K\) : sur-identifié : on a plus de conditions d’exogénéité que nécessaire, ce qui permet en principe de tester la validité globale des instruments (test de sur-identification type Sargan/Hansen).
6.2 Cas « exogénéité de \(x\) » (question ouverte, non scorée)
On suspecte que la variable revenu est endogène dans une équation de demande. On propose d’utiliser comme instruments :
revenu_moyen_region(revenu moyen dans la région de résidence)
distance_travail(distance domicile–travail)
- Discute si ces instruments sont plausiblement pertinents.
- Discute si ces instruments sont plausiblement exogènes (peuvent-ils affecter la demande autrement que via
revenu?).
- Propose un exemple d’instrument qui serait clairement non valide.
7 7. Mini-cas « examen » (questions ouvertes, non scorées)
Ces questions imitent le style de l’épreuve finale : réponse rédigée + raisonnement.
7.1 Cas 1 – Salaire et éducation
On estime le modèle \[
\log(\text{wage}_i) = \beta_0 + \beta_1 \text{educ}_i + \beta_2 \text{exp}_i + u_i,
\] où wage est le salaire horaire, educ le nombre d’années d’étude et exp l’expérience professionnelle.
- Comment interpréter le coefficient \(\beta_1\) dans ce modèle semi-log ?
- Propose deux variables supplémentaires qu’il serait pertinent d’ajouter, et explique pourquoi.
- Donne un exemple de source possible d’endogénéité dans ce modèle (par rapport à
educ). Quelle conséquence sur l’estimation de \(\beta_1\) ?
Réponds en quelques lignes comme tu le ferais à l’examen.
Voir des éléments de réponse
1. Interprétation de \(\beta_1\) dans un modèle semi-log
- Le modèle est de type log-linéaire :
\[\log(\text{wage}) = \beta_0 + \beta_1 \text{educ} + \dots\] - Une augmentation d’une année d’éducation est associée à une variation approximative de \(100 \times \beta_1\) % du salaire horaire.
- Plus précisément, l’effet en pourcentage est \(100 \times (\exp(\beta_1) - 1)\) %, mais pour des valeurs « raisonnables » de \(\beta_1\) la différence est faible.
2. Variables supplémentaires possibles
Exemples de variables pertinentes (au moins deux) :
- Secteur d’activité (industrie, services, public/privé) : les salaires sont très différents selon le secteur.
- Région ou ville de résidence : le niveau de salaire dépend du marché du travail local et du coût de la vie.
- Taille de l’entreprise, type de contrat, genre, etc.
Idée : ajouter des variables qui expliquent le salaire et qui sont corrélées à educ pour réduire le biais de variable omise.
3. Source d’endogénéité sur educ
Exemples :
- Capacité innée / motivation : les individus plus capables ou plus motivés font plus d’études et gagnent plus, même à niveau d’étude égal.
- Origine sociale / milieu familial : les familles favorisées financent plus d’études et offrent des réseaux professionnels.
Si ces facteurs ne sont pas dans le modèle, ils se retrouvent dans l’erreur \(u_i\) et sont corrélés avec educ.
Conséquence : l’estimateur MCO de \(\beta_1\) est biaisé et inconsistant (souvent biais vers le haut si les capacités non observées augmentent à la fois education et salaire).
7.2 Cas 2 – Effet d’un programme de formation sur l’emploi
Une politique publique propose une formation à certains chômeurs. On dispose d’une variable train_i (1 si l’individu a suivi la formation, 0 sinon) et d’une variable employ_i (1 si l’individu est en emploi 6 mois plus tard, 0 sinon). On estime : \[
\text{employ}_i = \gamma_0 + \gamma_1 \text{train}_i + \gamma_2 \text{age}_i + \gamma_3 \text{female}_i + v_i.
\]
- Que mesure \(\gamma_1\) dans ce modèle linéaire avec variable dépendante binaire ?
- Pourquoi l’estimation de \(\gamma_1\) pourrait-elle être biaisée (donne au moins une raison) ?
- Propose une stratégie (même simple) pour réduire ce biais.
Voir des éléments de réponse
1. Interprétation de \(\gamma_1\)
employvaut 0 ou 1, on est dans un modèle de probabilité linéaire.
- \(\gamma_1\) mesure l’effet moyen de la formation sur la probabilité d’être en emploi :
> suivre la formation augmente (en moyenne) la probabilité d’être en emploi de \(\gamma_1\) points de pourcentage par rapport à ceux qui ne la suivent pas (à âge et sexe donnés).
2. Pourquoi \(\gamma_1\) peut être biaisé ?
Au moins une raison :
- Sélection des participants : les personnes les plus motivées ou les plus employables sont plus susceptibles de demander / obtenir la formation.
- La formation n’est pas assignée de façon aléatoire : elle dépend d’un conseiller, de critères administratifs, etc.
- Ces facteurs (motivation, employabilité, réseau, santé…) influencent aussi
employ, donctrainest corrélée avec l’erreur \(v_i\) → endogénéité.
3. Stratégies pour réduire le biais
Idées à citer (même si ce n’est pas parfait) :
- Ajouter davantage de variables de contrôle : niveau d’éducation, expérience, historique d’emploi, etc.
- Utiliser un panel avant/après avec groupe de contrôle et faire une approche type différences-en-différences (si données sur plusieurs périodes).
- Approche expérimentale : assignation aléatoire des formations (RCT).
- Approche quasi-expérimentale : variable instrumentale qui influence la participation à la formation mais pas directement l’emploi (par exemple, distance au centre de formation, règles d’éligibilité… sous conditions).
7.3 Cas 3 – Tests de significativité
On te fournit un tableau de résultats de régression MCO (comme dans les TD). Pour une variable X :
- Coefficient estimé \(\hat\beta_X = 0{,}45\)
- Erreur standard robuste \(\text{se}(\hat\beta_X) = 0{,}18\)
- Taille d’échantillon \(n = 250\)
- Calcule la statistique \(t\) et commente la significativité au seuil de 5 % (en utilisant la table de Student).
- Explique la différence entre significativité statistique (au sens des tests \(t\)) et importance économique.
- Donne un exemple de situation où un effet statistiquement faible peut être économiquement important.
Voir des éléments de réponse
1. Statistique \(t\) et significativité
On teste \(H_0 : \beta_X = 0\) avec \[ t = \frac{\hat\beta_X - 0}{\text{se}(\hat\beta_X)} = \frac{0{,}45}{0{,}18} = 2{,}5. \]
- Les degrés de liberté sont environ \(n - K \approx 250 - K\) (par ex. \(\approx 245\)).
- Au seuil de 5 % (bilatéral), la valeur tabulée de Student est environ 2.
- Comme \(|t| = 2{,}5 > 2\), on rejette \(H_0\) au seuil de 5 % : le coefficient est statistiquement différent de 0.
2. Significativité statistique vs importance économique
- Significativité statistique : le test \(t\) indique si l’on peut rejeter \(H_0 : \beta_X = 0\) en comparant \(|t|\) à la valeur tabulée de Student.
- Elle dépend de la taille de l’effet mais aussi de la précision (erreur standard) et de la taille d’échantillon.
- Elle dépend de la taille de l’effet mais aussi de la précision (erreur standard) et de la taille d’échantillon.
- Importance économique : taille pratique de l’effet.
- Un effet peut être statistiquement significatif mais très faible en magnitude → peu d’intérêt économique.
- À l’inverse, un effet peut être économiquement important mais mal mesuré (échantillon trop petit, mesure bruitée) → difficulté à obtenir un \(t\) élevé.
- Un effet peut être statistiquement significatif mais très faible en magnitude → peu d’intérêt économique.
3. Exemple d’effet statistiquement faible mais économiquement important
Exemples possibles :
- Une politique qui réduit la probabilité de chômage de 1 point de pourcentage.
- Statistiquement, c’est un petit effet (surtout si l’erreur standard est grande), mais pour un grand nombre d’individus, cela signifie beaucoup d’emplois supplémentaires.
- Statistiquement, c’est un petit effet (surtout si l’erreur standard est grande), mais pour un grand nombre d’individus, cela signifie beaucoup d’emplois supplémentaires.
- Une petite baisse du taux de mortalité due à une intervention de santé publique (ex.: vaccination) :
- L’effet individuel est faible, mais à l’échelle d’un pays, cela représente un grand nombre de vies sauvées.
Idée à retenir : toujours combiner lecture des tests \(t\) et des valeurs tabulées avec une réflexion sur la taille de l’effet et le contexte économique.
8 8. Mini-sondages « type Wooclap » (pour la discussion en classe)
Ces questions n’ont pas de « bonne » réponse unique : elles servent à lancer le débat.
Poll 1 – Quelle erreur te semble la plus grave dans une étude empirique ?
En groupe, justifiez votre choix : que se passe-t-il si on viole les hypothèses du modèle ? si les données ne sont pas bien documentées ?
Poll 2 – Quand tu lis un résultat empirique, qu’est-ce que tu regardes en premier ?
Discutez : comment hiérarchiser ces éléments pour juger de la crédibilité d’un résultat ?
Score non calculé.