diaporamaMiscDM
 
◃  Ch. 8 Régression linéaire  ▹
 

Production du meilleur modèle

  • Le processus est incrémental et consiste à ajouter pas à pas une variable explicative au modèle tant qu'on améliore sa qualité.
  • On commence par établir les coefficients de corrélation entre les variables et on privilégie la plus corrélée en premier
  • Exemple :
  • Matrice de corrélation :
    > cor(reg2)
                Y         X1         X2         X3         X4
    Y   1.0000000  0.7306330  0.8161539 -0.5349410 -0.8211216
    X1  0.7306330  1.0000000  0.2285795 -0.8241338 -0.2454451
    X2  0.8161539  0.2285795  1.0000000 -0.1392424 -0.9729550
    X3 -0.5349410 -0.8241338 -0.1392424  1.0000000  0.0295370
    X4 -0.8211216 -0.2454451 -0.9729550  0.0295370  1.0000000
    X4 et X2 sont les deux variables les plus corrélées avec Y
  • Régression simple avec X4
    > summary(lm(Y~X4, reg2))
    
    Call:
    lm(formula = Y ~ X4, data = reg2)
    
    Residuals:
        Min      1Q  Median      3Q     Max 
    -12.623  -8.233   1.493   4.688  17.514 
    
    Coefficients:
                Estimate Std. Error t value Pr(>|t|)    
    (Intercept) 117.5441     5.2565  22.362 1.61e-10 ***
    X4           -0.7369     0.1544  -4.772 0.000579 ***
    ---
    Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
    
    Residual standard error: 8.954 on 11 degrees of freedom
    Multiple R-squared:  0.6742,	Adjusted R-squared:  0.6446 
    F-statistic: 22.77 on 1 and 11 DF,  p-value: 0.0005793
  • Régression simple avec X2
    > summary(lm(Y~X2, reg2))
    
    Call:
    lm(formula = Y ~ X2, data = reg2)
    
    Residuals:
        Min      1Q  Median      3Q     Max 
    -10.737  -5.849  -1.673   3.802  21.370 
    
    Coefficients:
                Estimate Std. Error t value Pr(>|t|)    
    (Intercept)  57.5026     8.4795   6.781 3.03e-05 ***
    X2            0.7878     0.1682   4.685 0.000667 ***
    ---
    Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
    
    Residual standard error: 9.065 on 11 degrees of freedom
    Multiple R-squared:  0.6661,	Adjusted R-squared:  0.6358 
    F-statistic: 21.94 on 1 and 11 DF,  p-value: 0.0006667
  • Régression multiple avec X2 et X4
    > summary(lm(Y~X2+X4, reg2))
    
    Call:
    lm(formula = Y ~ X2 + X4, data = reg2)
    
    Residuals:
         Min       1Q   Median       3Q      Max 
    -11.2221  -7.2765   0.6263   4.1102  19.0023 
    
    Coefficients:
                Estimate Std. Error t value Pr(>|t|)
    (Intercept)  94.0638    56.5614   1.663    0.127
    X2            0.3119     0.7477   0.417    0.685
    X4           -0.4548     0.6951  -0.654    0.528
    
    Residual standard error: 9.311 on 10 degrees of freedom
    Multiple R-squared:  0.6798,	Adjusted R-squared:  0.6158 
    F-statistic: 10.62 on 2 and 10 DF,  p-value: 0.003365
    Baisse de la qualité du modèle !
  • Régression multiple avec X1 et X4
    > cor(reg2$X1, reg2$X4)
    [1] -0.2454451
    > cor(reg2$X1, reg2$Y)
    [1] 0.730633
    > summary(lm(Y~X1+X4, reg2))
    
    Call:
    lm(formula = Y ~ X1 + X4, data = reg2)
    
    Residuals:
        Min      1Q  Median      3Q     Max 
    -5.0694 -1.4530  0.1022  1.8334  3.7718 
    
    Coefficients:
                 Estimate Std. Error t value Pr(>|t|)    
    (Intercept) 103.09701    2.13397   48.31 3.48e-13 ***
    X1            1.43762    0.13907   10.34 1.17e-06 ***
    X4           -0.61285    0.04887  -12.54 1.93e-07 ***
    ---
    Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
    
    Residual standard error: 2.747 on 10 degrees of freedom
    Multiple R-squared:  0.9721,	Adjusted R-squared:  0.9666 
    F-statistic: 174.4 on 2 and 10 DF,  p-value: 1.683e-08
  • Régression multiple avec X1 et X2 ??
    
        
  • Régression multiple avec 3 variables ??