- Le processus est incrémental et consiste à ajouter pas à pas une variable explicative au modèle tant qu'on améliore sa qualité.
- On commence par établir les coefficients de corrélation entre les variables et on privilégie la plus corrélée en premier
- Exemple :
- Matrice de corrélation :
> cor(reg2)
Y X1 X2 X3 X4
Y 1.0000000 0.7306330 -0.5349410
X1 0.7306330 1.0000000 0.2285795 -0.8241338 -0.2454451
X2 0.2285795 1.0000000 -0.1392424
X3 -0.5349410 -0.8241338 -0.1392424 1.0000000 0.0295370
X4 -0.2454451 0.0295370 1.0000000
X4 et X2 sont les deux variables les plus corrélées avec Y
- Régression simple avec X4
> summary(lm(Y~X4, reg2))
Call:
lm(formula = Y ~ X4, data = reg2)
Residuals:
Min 1Q Median 3Q Max
-12.623 -8.233 1.493 4.688 17.514
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 117.5441 5.2565 22.362 1.61e-10 ***
X4 -0.7369 0.1544 -4.772 0.000579 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 8.954 on 11 degrees of freedom
Multiple R-squared: 0.6742, Adjusted R-squared: 0.6446
F-statistic: 22.77 on 1 and 11 DF, p-value: 0.0005793
- Régression simple avec X2
> summary(lm(Y~X2, reg2))
Call:
lm(formula = Y ~ X2, data = reg2)
Residuals:
Min 1Q Median 3Q Max
-10.737 -5.849 -1.673 3.802 21.370
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 57.5026 8.4795 6.781 3.03e-05 ***
X2 0.7878 0.1682 4.685 0.000667 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 9.065 on 11 degrees of freedom
Multiple R-squared: 0.6661, Adjusted R-squared: 0.6358
F-statistic: 21.94 on 1 and 11 DF, p-value: 0.0006667
- Régression multiple avec X2 et X4
> summary(lm(Y~X2+X4, reg2))
Call:
lm(formula = Y ~ X2 + X4, data = reg2)
Residuals:
Min 1Q Median 3Q Max
-11.2221 -7.2765 0.6263 4.1102 19.0023
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 94.0638 56.5614 1.663 0.127
X2 0.3119 0.7477 0.417 0.685
X4 -0.4548 0.6951 -0.654 0.528
Residual standard error: 9.311 on 10 degrees of freedom
Multiple R-squared: 0.6798, Adjusted R-squared: 0.6158
F-statistic: 10.62 on 2 and 10 DF, p-value: 0.003365
Baisse de la qualité du modèle !
- Régression multiple avec X1 et X4
> cor(reg2$X1, reg2$X4)
[1] -0.2454451
> cor(reg2$X1, reg2$Y)
[1] 0.730633
> summary(lm(Y~X1+X4, reg2))
Call:
lm(formula = Y ~ X1 + X4, data = reg2)
Residuals:
Min 1Q Median 3Q Max
-5.0694 -1.4530 0.1022 1.8334 3.7718
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 103.09701 2.13397 48.31 3.48e-13 ***
X1 1.43762 0.13907 10.34 1.17e-06 ***
X4 -0.61285 0.04887 -12.54 1.93e-07 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 2.747 on 10 degrees of freedom
Multiple R-squared: 0.9721, Adjusted R-squared: 0.9666
F-statistic: 174.4 on 2 and 10 DF, p-value: 1.683e-08
- Régression multiple avec X1 et X2 ??
- Régression multiple avec 3 variables ??