jrumbut · December 5, 2017 21:43
diff --git a/nnet.R b/nnet.R
 library(caret)
 library(doParallel)

 registerDoParallel(cores = 2)

 # Read data.
 data <- read.csv('train.csv')
 test <- read.csv('test.csv')

 # Set classification column to factor.
 y <- as.factor(make.names(data$TARGET))

 # Remove columns with near zero variance.
 nzv <- nearZeroVar(data)
 data <- data[,-nzv]
 test <- test[,-nzv]

 data$TARGET <- y

 ##### Removing constant features
 cat("\n## Removing the constants features.\n")
 for (f in names(data)) {
  if (length(unique(data[[f]])) == 1) {
    cat(f, "is constant in train. We delete it.\n")
    data[[f]] <- NULL
    test[[f]] <- NULL
  }
 }

 ##### Removing identical features
 features_pair <- combn(names(data), 2, simplify = F)
 toRemove <- c()
 for(pair in features_pair) {
  f1 <- pair[1]
  f2 <- pair[2]
  
  if (!(f1 %in% toRemove) & !(f2 %in% toRemove)) {
    if (all(data[[f1]] == data[[f2]])) {
      cat(f1, "and", f2, "are equals.\n")
      toRemove <- c(toRemove, f2)
    }
  }
 }
 feature.names <- setdiff(names(data), toRemove)
 data <- data[, feature.names]
 test <- test[, feature.names[feature.names != 'TARGET']]

 inTrain <- createDataPartition(data$TARGET, p = 3/4)[[1]]
 training <- data[inTrain,]
 testing <- data[-inTrain,]

 # Train on entire training set.
 # training <- data

 numFolds <- trainControl(method = 'cv', number = 10, classProbs = TRUE, verboseIter = TRUE, summaryFunction = twoClassSummary, preProcOptions = list(thresh = 0.75, ICAcomp = 3, k = 5))
 fit2 <- train(TARGET ~ . -TARGET -ID, data = training, method = 'nnet', preProcess = c('center', 'scale'), trControl = numFolds, tuneGrid=expand.grid(size=c(10), decay=c(0.1)))

 results1 <- predict(fit2, newdata=training)
 conf1 <- confusionMatrix(results1, training$TARGET)

 results2 <- predict(fit2, newdata=testing)
 conf2 <- confusionMatrix(results2, testing$TARGET)

 probs <- predict(fit2, newdata=test, type='prob')

 # Assemble output format: ID, prob.
 output <- data.frame(ID=test$ID)
 output <- cbind(output, TARGET=probs$X1)
 write.csv(output, file='output.csv', row.names=FALSE, quote=FALSE)
	library(caret)
	library(doParallel)

	registerDoParallel(cores = 2)

	# Read data.
	data <- read.csv('train.csv')
	test <- read.csv('test.csv')

	# Set classification column to factor.
	y <- as.factor(make.names(data$TARGET))

	# Remove columns with near zero variance.
	nzv <- nearZeroVar(data)
	data <- data[,-nzv]
	test <- test[,-nzv]

	data$TARGET <- y

	##### Removing constant features
	cat("\n## Removing the constants features.\n")
	for (f in names(data)) {
	if (length(unique(data[[f]])) == 1) {
	cat(f, "is constant in train. We delete it.\n")
	data[[f]] <- NULL
	test[[f]] <- NULL
	}
	}

	##### Removing identical features
	features_pair <- combn(names(data), 2, simplify = F)
	toRemove <- c()
	for(pair in features_pair) {
	f1 <- pair[1]
	f2 <- pair[2]

	if (!(f1 %in% toRemove) & !(f2 %in% toRemove)) {
	if (all(data[[f1]] == data[[f2]])) {
	cat(f1, "and", f2, "are equals.\n")
	toRemove <- c(toRemove, f2)
	}
	}
	}
	feature.names <- setdiff(names(data), toRemove)
	data <- data[, feature.names]
	test <- test[, feature.names[feature.names != 'TARGET']]

	inTrain <- createDataPartition(data$TARGET, p = 3/4)[[1]]
	training <- data[inTrain,]
	testing <- data[-inTrain,]

	# Train on entire training set.
	# training <- data

	numFolds <- trainControl(method = 'cv', number = 10, classProbs = TRUE, verboseIter = TRUE, summaryFunction = twoClassSummary, preProcOptions = list(thresh = 0.75, ICAcomp = 3, k = 5))
	fit2 <- train(TARGET ~ . -TARGET -ID, data = training, method = 'nnet', preProcess = c('center', 'scale'), trControl = numFolds, tuneGrid=expand.grid(size=c(10), decay=c(0.1)))

	results1 <- predict(fit2, newdata=training)
	conf1 <- confusionMatrix(results1, training$TARGET)

	results2 <- predict(fit2, newdata=testing)
	conf2 <- confusionMatrix(results2, testing$TARGET)

	probs <- predict(fit2, newdata=test, type='prob')

	# Assemble output format: ID, prob.
	output <- data.frame(ID=test$ID)
	output <- cbind(output, TARGET=probs$X1)
	write.csv(output, file='output.csv', row.names=FALSE, quote=FALSE)