\(\beta_1\) Représente ici la magnitude de “l’effet” de la variable \(X_1\) sur \(Y\). \(\varepsilon\_i\) Représente la partie non expliquée de la relation (ou terme d’erreur)
1.1.1 Terme d’erreur
L’introduction du terme d’erreur recouvre deux grands types d’erreurs :
▶ Erreur de spécication :
Les variables introduites ne sont pas susantes pour expliquer toutes les variations de Y
▶ Erreur de mesure :
La variable expliquée (Y) est mesurée de manière imparfaite (bruitée)
Call:
lm(formula = y ~ x1 + x2, data = d)
Residuals:
Min 1Q Median 3Q Max
-1.78604 -0.62855 -0.05144 0.66068 2.06691
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 1.87289 0.26031 7.195 6.43e-11 ***
x1 0.61541 0.03088 19.931 < 2e-16 ***
x2 -0.37545 0.04565 -8.224 3.07e-13 ***
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Residual standard error: 0.9416 on 117 degrees of freedom
Multiple R-squared: 0.7792, Adjusted R-squared: 0.7755
F-statistic: 206.5 on 2 and 117 DF, p-value: < 2.2e-16
Note
Ceci est un exemple de tableau de régression, sur Eviews, le tableau sera similaire, mais un peu différent, celui-là a été fait dans R pour l’exemple.
2 Procédure sur EViews
2.1 Estimation
Faire Object →New Object →Equation
Autre méthode :
1. Sélectionner les variables en débutant par la variable dépendante (Y)
2. Faire Open →as Equation
La fenêtre ouverte a deux onglets :
▶ Specification : Entrer la spécification choisie
▶ Options :
Cet onglet sert pour la correction de la matrice de variance-covariance
Nous ignorons pour le moment cet onglet
2.2 Estimation
Equation specification : Permet d’entrer l’équation estimée
▶ Il faut mettre d’abord la variable expliquée (Y) puis les variables explicatives (X1 ; X2, . . .) : Y X1 X2 ... c
▶ c sert à spécier l’introduction d’une constante
▶ Nota : Si la deuxième méthode est utilisée, l’équation est déjà spéciée mais peut être modiée
Estimation Settings :
▶ Method : Permet de choisir l’estimateur (MCO [LS] par défaut)
▶ Sample : Permet de choisir l’échantillon retenu
2.3 Commandes post-estimations
Les coeficients estimés sont conservés dans l’objet c
Les résidus estimés de la dernière équation sont stockés dans”resid”
Name :
Permet de conserver la régression dans un workfile
View →representation :
Permet de visualiser la ligne de commande eectuée, l’équation théorique et l’équation avec les valeurs estimées des coeficients
View →estimation output :
Permet de visualiser les résultats bruts de la régression.
2.4 Commandes post-estimations
View →actual, fitted, residual :
▶ actual : valeur de la variable dépendante utilisée dans la régression,
▶ fitted : valeurs de la variable dépendante prédites par la régression en appliquant les coeficients de la régression sur les variables explicatives,
▶ residual (actual-tted) : indication sur les erreurs de prévisionéventuelles, bornes à 5%.
Freeze :
Permet de conserver les résultats.
2.5 Commandes post-estimations
Il est possible de vouloir conserver plusieurs éléments de l’équation estimée
▶ Ex : Pour calculer des points de retournement ou pour certains tests il faut conserver les R2, la SCR, . . .
Pour ce faire, il sut généralement de créer un objet (scalaire, matrice) qui puisse accueillir ces nouveaux éléments
▶ Exemples :
Scalaire : scalar nom=nomequation.operation
Matrice : matrix nom=nomequation.operation
Ex : scalar rsq=eq1.@r2
Ex : matrix coefficients=eq1.@coefs
Tip
L’opération commence par .@ en général
2.6 Commandes post-estimations
Quelques éléments disponibles (non exhaustif):
Élément
Opération
Type d’objet
R²
@r2
scalar
R² ajusté
@rbar2
scalar
SCR
@ssr
scalar
Coefficient pour la i-ème variable
c(i)
scalar
t-stat pour la i-ème variable
@tstats(i)
scalar
Matrice de variance-covariance
@coefcov
matrix
Matrice des coefficients
@coefs
matrix
Matrice des t-stat
@tstats
matrix
Une liste plus complète est disponible dans Users Guide II page 16
2.7 Le coeficient de détermination : Le \(R^2\)
Le pouvoir explicatif du modèle
▶ L’économétrie cherche à expliquer les variations de Y. Ceci est la variabilité totale (SCT pour somme des carrés totale) et est donnée par : \(SCT=\sum_{i=1}^N(y_i - \bar y)^2= SCE + SCR\)
▶ Cette variabilité se décompose en :
Variabilité expliquée : SCE (pour somme des carrés expliquée)
Variabilité non expliquée : SCR (pour somme des carrés des résidus)
2.8 Le coefficient de détermination : le \(R^2\)
Le coefficient de détermination mesure le pouvoir explicatif du modèle et se calcule comme suit :
La statistique de test calculée \(t_{\beta_j}\)est comparée à la statistique théorique\(t\alpha\) tabulée pour un risque de première espèce \(\alpha\).
Remarque : il s’agit en général d’un test bilatéral.
Figure 2: Test bilatéral : α/2 décalés vers l’extérieur, -t* et t* en graduations de l’axe X.
3.4 La significativité simple — procédure
Calculer la statistique de Student (Coef / SE) : \(t_{\beta_j} = \hat{\beta}j / {\sigma}{\hat\beta}\).
Choisir un niveau de risque de première espèce \(\alpha\).
Déterminer la valeur critique tabulée \(t_{\alpha/2, \nu}\) pour un test bilatéral, avec \(\nu = N - p \quad (\text{ddl : nb d'observations } N \text{ moins nb de paramètres } p)\) .
Conclure sur la significativité selon la règle de décision :
si \(|t| < t_{\alpha/2, \nu}) (\Rightarrow) \text{ non-rejet de }H_0\)
si \(|t| \ge t_{\alpha/2, \nu}) (\Rightarrow)\text{ rejet de }(H_0)\)
3.4.1Tableau de décision test bilatéral
Décision / Réalité
\(H_0\) vraie
\(H_0\) fausse
Rejeter\(H_0\)
Erreur\(\alpha\)
Décision correcte
Ne pas rejeter\(H_0\)
Décision correcte
Erreur\(\beta\)
Caution
On parle de rejet ou non rejet d’une hypothèse, pas d’acceptation.
3.5 La significativité conjointe
Tip
Dans un modèle, nous pouvons nous intéresser à déterminer si nos différentes variables ont un effet significatif sur notre variable \(Y\), dépendemment les unes des autres. C’est à dire, est-ce que mes variables sont significatives conjointement ( \(X_1\) significative ET \(X_N\) …)
Dans ce cadre, les simples tests de Student ne sont pas suffisants, pour tester plusieurs restrictions, il faut recourir à d’autres tests:
▶ Test de Fisher dans le cas des modèles linéaires
▶ Tests de Wald, du log de vraisemblance ou du multiplicateurs de Lagrange dans les cas plus complexes
3.6 La significativité conjointe le test de Fisher (F-test)
Le F-test permet de tester la significativité conjointe de plusieurs paramètres, voire la significativité globale d’un modèle linéaire. La statistique de test est la suivante :
\(q\) : nombre de restrictions testées (sans la constante),
\(p\) : nombre de paramètres dans le modèle non restreint (avec la constante),
\(N\) : nombre d’observations.
\(SCR_r\) : somme des carrés des résidus du modèle restreint (les paramètres imposés sont fixés),
\(SCR_{nr}\) : somme des carrés des résidus du modèle non restreint (modèle usuel non contraint).
3.7 La significativité conjointe — F-test (unilatéral)
Le test de Fisher est unilatéral (rejet dans la queue droite).
Sous (H_0), la statistique suit une loi de Fisher–Snedecor : \(F \sim F(q, N-p)\) , où \(q\) = nb de restrictions testées et \(N-p\) = ddl résiduels du modèle non restreint.
Les logiciels (EViews, R, etc.) donnent directement (F), la p-value et la table ANOVA.
Figure 3: Loi F(3,30) — test unilatéral : étiquettes lisibles.
3.8 La significativité conjointe — hypothèses usuelles du F-test
On teste généralement la contrainte selon laquelle tous les coefficients (hors constante) sont nuls.
\(H_0\) : tous les coefficients du modèle sont égaux à 0 (sauf l’intercept), c.-à-d. \(H_0\) : \(\beta_1=\beta_2=\cdots=\beta_p=0\)
\(H_1\) : au moins un coefficient est différent de 0.
Dans ce cas, le modèle contraint est le modèle avec seule la constante. Règle de décision :
si \(F > F_{\text{table}}\) (au niveau \(\alpha)\)et ddl \((q, N-p)\)) \(\Rightarrow\)rejet de\(H_0\).
Interprétation :
Non-rejet de\(H_0\)\(\Rightarrow\) pas de relation linéaire significative entre la variable expliquée et l’ensemble des variables explicatives.
Autrement dit, la SCE (somme des carrés expliquée) n’est pas significativement différente de 0 ; la variabilité de (Y) demeure essentiellement aléatoire.
3.9 La significativité conjointe — F-Test : procédure EViews
Procédure à suivre :
Régresser le modèle non contraint et relever la SCR.
Régresser le modèle contraint et relever la SCR.
Calculer la statistique de Fisher.
Comparer la valeur obtenue à la valeur théorique (table de Fisher).
3.10 La significativité conjointe — F-Test : Exemple de commandes EViews
eqnr : estimation du modèle non restreint (toutes les variables).
eqr : estimation du modèle restreint.
scrnr et scrr : sommes des carrés des résidus respectivement non restreint et restreint.
F : statistique de Fisher calculée manuellement.
3.11 La significativité conjointe — Wald-test
La procédure selon le Wald-test est pré-enregistrée dans EViews :
Ouvrir les résultats de l’estimation.
Menu :View → Coefficient diagnostic → Wald test.
Saisir les contraintes de la forme :
c(numéro_coef1) = 0
c(numéro_coef2) = 0
par exemple :
c(3) = 0
c(5) = 0
4 Significativité économique
Important
Une variable peut avoir une très grande significativité statistique mais une faible significativité économique. Ici nous ne nous intéréssons pas à la “robustesse” de l’estimation de l’effet, mais à sa “magnitude”
L’interprétation du coefficient estimé \(\beta\) dépend de la manière dont Y (variable expliquée) et X (variable explicative) sont exprimées : en niveau ou en logarithme.
4.1 Significativité économique - un tableau récapitulatif :
Variable expliquée (Y)
Variable explicative (X)
Interprétation du coefficient \(\beta\)
Niveau
Niveau
Une augmentation de 1 unité de X entraîne une variation moyenne de \(\beta\) unités de Y.
Niveau
Logarithme
Une augmentation de 1 % de X entraîne une variation moyenne de \(\beta / 100\) unités de Y.
Logarithme
Niveau
Une augmentation de 1 unité de X entraîne une variation moyenne de \(\beta \times 100\) % de Y.
Logarithme
Logarithme
Une augmentation de 1 % de X entraîne une variation moyenne de \(\beta\) % de Y.
4.2 Questions – Réponses TD3 (Module 3)
4.2.1 Question : Importez la base de données sur les compagnies aériennes.
Afficher la réponse
Menu File → Open → Foreign Data as Workfile puis sélectionner le fichier de données.
4.2.2 Question : Créez le logarithme du nombre de passagers. Quelle est l’utilité de cette transformation ?
Afficher la réponse
Commande : genr logpassagers = log(passagers)
Cette transformation :
réduit l’impact des valeurs extrêmes en compressant l’échelle,
rapproche la distribution d’une loi normale,
stabilise les variances,
permet une interprétation en pourcentage : une variation d’une unité du log ≈ une variation d’environ 100 % de la variable d’origine,
aide à linéariser les relations et donc facilite l’usage de la régression linéaire.
4.2.3 Question : Estimez l’équation suivante par les MCO. Dans quelle mesure cette équation peut-elle être considérée comme linéaire ?
Afficher la réponse
Menu Object → New Object → Equation, choisir « Linear ».
Même si la variable dépendante est en logarithme, l’équation reste linéaire car les variables explicatives apparaissent en première puissance et la relation est additive.
4.2.4 Question : Distinguez les variables dépendantes, indépendantes, d’intérêt et de contrôle.
Afficher la réponse
Variable dépendante (expliquée) : logpass (log du nombre de passagers).
Variables explicatives : Ratio, croissance annuelle du trafic aérien de la destination principale (2010-2013), public, low cost, age, intercontinental, croissance annuelle du trafic aérien du pays d’origine (2010-2013).
Variable d’intérêt : Ratio.
Variables de contrôle : toutes les autres variables explicatives listées ci-dessus.
4.2.5 Question : D’après le R² de l’estimation, l’équation a-t-elle un pouvoir explicatif correct ?
Afficher la réponse
Le R² obtenu est ≈ 0,39 : le modèle explique environ 40 % de la variabilité du nombre de passagers.
⇒ pouvoir explicatif modéré, le modèle reste relativement peu explicatif.
4.2.6 Question : Le nombre d’accidents par passagers est-il significativement différent de zéro ?
donc les deux variables sont conjointement significatives.
4.2.9 Question : Quelle variable semble la plus importante d’un point de vue économique ? Comment interpréter le coefficient obtenu ?
Afficher la réponse
Procédure :
Dans EViews → View → Coefficient diagnostics → Scaled coefficient.
Le coefficient standardisé indique de combien d’écarts-types Y varie quand X varie d’un écart-type.
Cela permet de comparer directement l’importance relative des variables.
Résultat :
La variable intercontinentale a le plus grand coefficient standardisé (~0,42).
Comme Y est en logarithme et X en niveau, cela signifie qu’une compagnie qui devient intercontinentale augmente en moyenne le nombre de passagers d’environ 10 %, toutes choses égales par ailleurs.
⇒ C’est la variable la plus importante d’un point de vue économique.