diaporamaMiscDM
 
◃  Ch. 8 Régression linéaire  ▹
 

Régression linéaire multiple

  • Lorsqu'on dispose de plusieurs variables explicatives (Xi), on peut chercher à modéliser Y à l'aide de celles-ci 
    Y = α + β1X1 + ... + βpXp + ε
  • Hypothèse importante : Les Xi doivent être linéairement indépendant
  • Question : Améliore-t-on le modèle en incluant les dépenses publicitaires ?
  • Résultat :
    > vdv = read.table("Data/ventes_depenses_visites.txt")
    > vdv.lm = lm(data=vdv, formula= ventes~depenses+visites)
    > summary(vdv.lm)
    
    Call:
    lm(formula = ventes ~ depenses + visites, data = vdv)
    
    Residuals:
           1        2        3        4        5        6        7        8 
    -1.16620 -0.98028  0.53521  2.36901 -1.18310 -0.91268  1.26197  0.07606 
    
    Coefficients:
                Estimate Std. Error t value Pr(>|t|)  
    (Intercept)  40.6676    18.7479   2.169   0.0822 .
    depenses      0.8169     0.9749   0.838   0.4403  
    visites       1.0197     0.3397   3.002   0.0300 *
    ---
    Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
    
    Residual standard error: 1.552 on 5 degrees of freedom
    Multiple R-squared:  0.8718,	Adjusted R-squared:  0.8205 
    F-statistic:    17 on 2 and 5 DF,  p-value: 0.005885
          
    Tous les indicateurs de qualité sont en baisse car la variable dépenses est contre-productive
  • Explication : visites et dépenses sont fortement corrélés (corrélation proche de 1 ou de -1)
    > cor(vdv)
                 ventes   depenses    visites
    ventes    1.0000000 -0.8005005  0.9240127
    depenses -0.8005005  1.0000000 -0.9224101
    visites   0.9240127 -0.9224101  1.0000000
        
  • Conclusion : Il convient de ne pas retenir la variable dépenses dans le modèle.