Présentation des données

Nous étudions les résultats des élections présidentielles 2017 par département. Ces données sont librement téléchargeables sur le site http://data.gouv.fr/fr/posts/les-donnees-des-elections/. Nous commençons par charger les données dans R et charger les packages.

library(readr)
library(FactoMineR)

Presidentielle_2017_Resultats_Communes_T1_clean <- read_csv("Presidentielle_2017_Resultats_Communes_T1_clean.csv")

colnames(Presidentielle_2017_Resultats_Communes_T1_clean)[20] <- "MELENCHON" # pour resoudre un probleme lie a l'accentuation du E
donnees_var <- Presidentielle_2017_Resultats_Communes_T1_clean[,c('Abstentions','Blancs','Nuls','LE PEN','MELENCHON','MACRON','FILLON','LASSALLE','DUPONT-AIGNAN','HAMON','ASSELINEAU','POUTOU','ARTHAUD','CHEMINADE')]
departements <- factor(Presidentielle_2017_Resultats_Communes_T1_clean$Département)
donnees_elections <- matrix(NA,nlevels(departements),ncol(donnees_var))

# agrégation des données par département
for (j in 1:nlevels(departements)){
  dep = levels(departements)[j]
  donnees_elections[j,] <- colSums(donnees_var[departements==dep,])
}

donnees_elections <- data.frame(donnees_elections,row.names = levels(departements))
colnames(donnees_elections) <- colnames(donnees_var)

Nous commençons par réaliser un test du \(\chi^2\) pour vérifier la dépendance entre les deux variables. On commence par réaliser une test du \(\chi^2\) pour s’assurer qu’il y a bien une dépendance significatives entre les lignes et les colonnes du tableau.

chisq.test(donnees_elections)
## 
##  Pearson's Chi-squared test
## 
## data:  donnees_elections
## X-squared = 3630539, df = 1365, p-value < 2.2e-16

Analyse factorielle des correspondances

On réalisera ensuite une AFC sur le tableau obtenu.

res.CA <- CA(donnees_elections)