cecilesauder · May 13, 2017 18:55
diff --git a/aide.R b/aide.R
 library(dplyr)
 #si tu l'as pas : install.packages("dplyr")

 #lecture des fichiers
 data_train <- read.csv(file = "/home/cecile/Documents/R/train.csv")
 data_test <- read.csv(file = "/home/cecile/Documents/R/test.csv")

 #glimpse c'est juste une autre sorte de summary et le %>% si tu connais pas c'est la syntaxe du package dplyr
 #c'est exactement comme ecrire glimpse(data_train) sauf que cette syntaxe ecrit sujet %>% verbe au lieu de verbe(sujet)
 #c'est plus lisible et plus fashion lol
 data_train %>% glimpse()
 data_train %>% select_if(is.factor) %>% glimpse()
 data_train %>% summary()
 data_test %>% summary()

 #fonction pour tester si une colonne  a moins de 200 NA
 less_NA <- function(col){
  sum(is.na(col)) < 200
 }

 #fonction pour tester si une colonne  a plus de 200 NA
 more_NA <- function(col){
  sum(is.na(col)) > 200
 }

 #selection que les colonne qui ont moins de 200 NA
 data_train2 <- data_train %>% select_if(less_NA)
 data_test2 <- data_test %>% select_if(less_NA)

 mod <- lm(SalePrice ~ . , data= data_train2)#plus d'erreur

 #pour voir quelles colonnes posent probleme du coup
 data_train %>% select_if(more_NA) %>% names
	library(dplyr)
	#si tu l'as pas : install.packages("dplyr")

	#lecture des fichiers
	data_train <- read.csv(file = "/home/cecile/Documents/R/train.csv")
	data_test <- read.csv(file = "/home/cecile/Documents/R/test.csv")

	#glimpse c'est juste une autre sorte de summary et le %>% si tu connais pas c'est la syntaxe du package dplyr
	#c'est exactement comme ecrire glimpse(data_train) sauf que cette syntaxe ecrit sujet %>% verbe au lieu de verbe(sujet)
	#c'est plus lisible et plus fashion lol
	data_train %>% glimpse()
	data_train %>% select_if(is.factor) %>% glimpse()
	data_train %>% summary()
	data_test %>% summary()

	#fonction pour tester si une colonne a moins de 200 NA
	less_NA <- function(col){
	sum(is.na(col)) < 200
	}

	#fonction pour tester si une colonne a plus de 200 NA
	more_NA <- function(col){
	sum(is.na(col)) > 200
	}

	#selection que les colonne qui ont moins de 200 NA
	data_train2 <- data_train %>% select_if(less_NA)
	data_test2 <- data_test %>% select_if(less_NA)

	mod <- lm(SalePrice ~ . , data= data_train2)#plus d'erreur

	#pour voir quelles colonnes posent probleme du coup
	data_train %>% select_if(more_NA) %>% names
No results found