canard0328 · August 31, 2015 09:33
diff --git a/machine_learning_in_R_using_titanic_dataset.r b/machine_learning_in_R_using_titanic_dataset.r
 # データの入手
 # Data obtained from http://biostat.mc.vanderbilt.edu/DataSets
 data = read.csv("http://biostat.mc.vanderbilt.edu/wiki/pub/Main/DataSets/titanic3.csv",
                stringsAsFactors=F, na.strings=c("","NA"))

 # データの確認
 # survived: 1（生存），0（死亡）
 # pclass: 乗客の社会経済的地位（1:上流，2:中流，3:下流）
 # name: 氏名
 # sex: 性別
 # age: 年齢
 # sibsp: 同乗したSibling/Spouseの数
 # parch: 同乗したParent/Childrenの数
 # ticket: チケットナンバー
 # fare: 乗船料金
 # cabin: 船室番号
 # embarked: 乗船場（C = Cherbourg, Q = Queenstown; S = Southampton）
 # boat: Lifeboat
 # body: Body Identification Number
 # home.dest: Home/Destination
 str(data)

 # 欠損値の確認
 sapply(data, function(x) sum(is.na(x))) / nrow(data)

 # 特徴量の選択
 # 欠損値の多い特徴量や，分析に有効でなさそうな特徴量を削除します．
 # ※本来特徴量の選択は分析の試行錯誤のなかで行うべきですが，
 #  演習の都合上最初に行っています．
 data2 <- subset(data, select=-c(name, ticket, cabin, boat, body, home.dest))

 # データの可視化
 # カテゴリデータ（pclass, embarked, sex）は積み上げ棒グラフにして
 # 変数の割合と，変数内の生死の割合を可視化
 par(mfrow=c(2,2), mar=c(4,4,.5,.5))
 cnt <- table(data2$survived, data2$pclass)
 barplot(cnt, horiz=T, legend=rownames(cnt), args.legend=list(x="bottomright"),
        ylab="pclass")

 cnt <- table(data2$survived, data2$embarked)
 barplot(cnt, horiz=T, las=2, legend=rownames(cnt), args.legend=list(x="bottomright"),
        ylab="embarked")

 cnt <- table(data2$survived, data2$sex)
 barplot(cnt, horiz=T, legend=rownames(cnt), args.legend=list(x="bottomright"),
        ylab="sex")

 # 数値データ（age, sibsp, parch, fare）は生／死ごとにヒストグラムで可視化
 par(mfrow=c(2,2), mar=c(4,4,.5,.5))
 hist(data2$age[data2$survived==0], breaks=20, xlab="age", main="",
     col="#ff00ff40")
 hist(data2$age[data2$survived==1], breaks=20, add=T, col="#0000ff40")
 legend("topright", c("0", "1"), fill=c("#ff00ff40", "#0000ff40"))

 hist(data2$sibsp[data2$survived==0], breaks=20, xlab="sibsp", main="",
     col="#ff00ff40")
 hist(data2$sibsp[data2$survived==1], breaks=10, add=T, col="#0000ff40")
 legend("topright", c("0", "1"), fill=c("#ff00ff40", "#0000ff40"))

 hist(data2$parch[data2$survived==0], breaks=20, xlab="parch", main="",
     col="#ff00ff40")
 hist(data2$parch[data2$survived==1], breaks=10, add=T, col="#0000ff40")
 legend("topright", c("0", "1"), fill=c("#ff00ff40", "#0000ff40"))

 hist(data2$fare[data2$survived==0], breaks=20, xlab="fare", main="",
     col="#ff00ff40")
 hist(data2$fare[data2$survived==1], breaks=40, add=T, col="#0000ff40")
 legend("topright", c("0", "1"), fill=c("#ff00ff40", "#0000ff40"))

 # 特徴量同士の関係を可視化
 # カテゴリデータ同士の関係はクロス集計（Cross tabulation）で可視化
 # ※parch, sibspは数値データですが，取りうる値が限られているためクロス集計を利用
 table(data2$embarked, data2$pclass, deparse.level=2)
 table(data2$embarked, data2$sex, deparse.level=2)
 table(data2$embarked, data2$sibsp, deparse.level=2)
 table(data2$embarked, data2$parch, deparse.level=2)
 table(data2$pclass, data2$sex, deparse.level=2)
 table(data2$pclass, data2$sibsp, deparse.level=2)
 table(data2$pclass, data2$parch, deparse.level=2)
 table(data2$sex, data2$sibsp, deparse.level=2)
 table(data2$sex, data2$parch, deparse.level=2)
 table(data2$sibsp, data2$parch, deparse.level=2)

 # 数値データとカテゴリデータの関係は箱ひげ図（boxplot）で可視化
 par(mfrow=c(3,2), mar=c(4,4,.5,.5))
 plot(factor(data2$embarked), data2$age, xlab="embarked", ylab="age")
 plot(factor(data2$pclass), data2$age, xlab="pclass", ylab="age")
 plot(factor(data2$sex), data2$age, xlab="sex", ylab="age")
 plot(factor(data2$sibsp), data2$age, xlab="sibsp", ylab="age")
 plot(factor(data2$parch), data2$age, xlab="parch", ylab="age")
 plot(factor(data2$embarked), data2$fare, xlab="embarked", ylab="fare")

 par(mfrow=c(2,2), mar=c(4,4,.5,.5))
 plot(factor(data2$pclass), data2$fare, xlab="pclass", ylab="fare")
 plot(factor(data2$sex), data2$fare, xlab="sex", ylab="fare")
 plot(factor(data2$sibsp), data2$fare, xlab="sibsp", ylab="fare")
 plot(factor(data2$parch), data2$fare, xlab="parch", ylab="fare")

 # 数値データ同士の関係は散布図（Scatter plot）で可視化
 par(mfrow=c(1,1), mar=c(4,4,.5,.5))
 plot(data2$age, data2$fare, xlab="age", ylab="fare")

 # 欠損値の処理
 # 今回は，数値データは中央値で，カテゴリデータは最頻値で補間します．
 # ただし，運賃（fare）は社会経済的地位（pclass）と相関があるため※
 # 等級ごとの中央値で補間します．
 # ※pclassとfareの可視化結果（boxplot）参照
 age_median <- median(data2$age, na.rm=T)
 embarked_mode <- names(which.max(table(data2$embarked)))
 fare_median_c1 <- median(data2$fare[data2$pclass==1], na.rm=T)
 fare_median_c2 <- median(data2$fare[data2$pclass==2], na.rm=T)
 fare_median_c3 <- median(data2$fare[data2$pclass==3], na.rm=T)

 data2$age[is.na(data2$age)] <- age_median
 data2$embarked[is.na(data2$embarked)] <- embarked_mode
 data2$fare[data2$pclass==1 & is.na(data2$fare)] <- fare_median_c1
 data2$fare[data2$pclass==2 & is.na(data2$fare)] <- fare_median_c2
 data2$fare[data2$pclass==3 & is.na(data2$fare)] <- fare_median_c3

 sapply(data2, function(x) sum(is.na(x))) / nrow(data2)

 # カテゴリ変数の処理
 # Rでは特徴量の型を因子型(factor)にしておくと
 # 分析時にダミー変数を利用して処理してくれることが多いです．
 data2$pclass <- factor(data2$pclass)
 data2$survived <- factor(data2$survived)
 data2$embarked <- factor(data2$embarked)
 data2$sex <- factor(data2$sex)

 # データの標準化
 # 数値データを平均0，分散1に標準化します．
 colMean <- as.numeric(sapply(data2[,sapply(data2, is.numeric)], mean))
 colSd <- as.numeric(sapply(data2[,sapply(data2, is.numeric)], sd))
 data2[,sapply(data2, is.numeric)] <- scale(data2[,sapply(data2, is.numeric)],
                                           center=colMean, scale=colSd)

 # モデリング
 # 決定木（Decision tree）を使って生死を予測してみます．
 # 予測結果は精度（accuracy）で評価します．
 # 精度=正解数/データ数
 library(rpart)

 clf0 <- rpart(survived~., data=data2, method="class", 
              control=rpart.control(cp=1e-10, xval=1, minsplit=1, minbucket=1))

 confusion_matrix <- table(data2$survived, predict(clf0, newdata=data2, type="class"))
 sum(diag(confusion_matrix)) / sum(confusion_matrix)
 # 0.9656226

 # グリッドサーチと交差検証
 # registerDoMCのcoresはPCのコア数に応じて設定してください．
 library(caret, quietly=T)
 library(doMC, quietly=T)
 registerDoMC(cores=4)

 set.seed(1)
 clf1 <- train(survived~., data=data2, method="rpart", tuneLength=5,
              trControl=trainControl(method="cv", number=10))

 clf1$result[which.max(clf1$results$Accuracy),]
 #   cp  Accuracy     Kappa AccuracySD    KappaSD
 # 0.005 0.8074985 0.5737025  0.0301985 0.07122872

 # 学習曲線
 calc_cv_train_score <- function(data, K, cp){
    n <- nrow(data)
    K <- 10
    set.seed(1)
    grp <- factor(sample.int(n) %/% ceiling(n / K) + 1)
    score_cv <- c()
    score_train <- c()
    for(k in 1:K){
        clf_cv <- rpart(survived~., data=data[grp!=k,], method="class", cp=cp)
        pred <- predict(clf_cv, newdata=data[grp!=k,], type="class")
        cm <- table(data$survived[grp!=k], pred)
        score_train <- c(score_train, sum(diag(cm)) / sum(cm))
        pred <- predict(clf_cv, newdata=data[grp==k,], type="class")
        cm <- table(data$survived[grp==k], pred)
        score_cv <- c(score_cv, sum(diag(cm)) / sum(cm))
    }
    res <- list("score_train"=mean(score_train), "score_cv"=mean(score_cv))
    res
 }

 set.seed(1)
 score_train <- c()
 score_cv <- c()
 for(r in seq(0.1, 1, 0.1)){
    res <- calc_cv_train_score(data2[sample.int(nrow(data2), r*nrow(data2)),], 5,
                              clf1$result$cp[which.max(clf1$results$Accuracy)])
    score_train <- c(score_train, res$score_train)
    score_cv <- c(score_cv, res$score_cv)
 }

 par(mfrow=c(1,1), mar=c(4,4,1,.5))
 plot(seq(0.1, 1, 0.1)*nrow(data2), score_train, type="b", pch=16, col="red",
     ylim=c(0.4, 1), xlab="Training examples", ylab="score", main="Learning curve")
 par(new=T)
 plot(seq(0.1, 1, 0.1)*nrow(data2), score_cv, type="b", pch=16, col="green",
     ylim=c(0.4, 1), ann=F)
 legend("bottomleft", c("Training score", "Cross-validation score"), lty=2,
       pch=16, col=c("red", "green"), inset=.05, bty="n")

 # 学習曲線をみると，
 # ・訓練スコアが低い
 # ・訓練スコアと交差検証スコアの差が小さい
 # ことから，ハイバイアスな状態であると分かります．
 # そこで，性能改善のために，
 # ・柔軟性の高いモデルに変更する
 # ・特徴量を追加する
 # を検討してみます．

 # モデルの変更
 # モデルをより柔軟性の高い，
 # アンサンブル学習（ブースティング）を利用したgbmに変更してみます．
 library(gbm, quietly=T)

 set.seed(1)
 clf2 <- train(survived~., data=data2, method="gbm",
              trControl=trainControl(method="cv", number=10),
              tuneLength=15,
              verbose=FALSE)

 clf2$result[which.max(clf2$results$Accuracy),]
 # shrinkage interaction.depth n.minobsinnode n.trees  Accuracy     Kappa
 #      0.1                 5             10     100 0.8174105 0.6002224
 # AccuracySD    KappaSD
 # 0.03272035 0.07538066

 #グリッドサーチ＋交差検証  モデル変更
 #                  0.807      	0.817

 # 特徴量の追加，変更
 # 欠損率が高く利用を見送っていたcabinの情報を利用してみます．
 # cabinは文字＋数値という形なので，文字と数値に分離して利用します．
 data3 <- data2

 data3$cabin <- sapply(as.character(data$cabin),
                      FUN=function(x){substring(strsplit(x, " ")[[1]][1], 1, 1)})
 data3$cabin[is.na(data3$cabin)] <- "unknown"
 data3$cabin <- as.factor(data3$cabin)
 data3$cabin_room <- sapply(as.character(data$cabin),
                           FUN=function(x){as.numeric(substring(strsplit(x, " ")[[1]][1], 2))})
 data3$cabin_room[is.na(data3$cabin_room)] <- 0

 set.seed(1)
 suppressWarnings(
 clf3 <- train(survived~., data=data3, method="gbm",
              trControl=trainControl(method="cv", number=10),
              tuneLength=15,
              verbose=FALSE)
 )

 clf3$result[which.max(clf3$results$Accuracy),]
 # shrinkage interaction.depth n.minobsinnode n.trees  Accuracy     Kappa
 #       0.1                 7             10      50 0.8189607 0.6081866
 # AccuracySD    KappaSD
 # 0.02430674 0.05363552

 # グリッドサーチ＋交差検証  モデル変更	cabin利用
 #                   0.807      	0.817     	0.819

 # 単純に中央値で補間していた年齢の欠損値を，その他の特徴量を使って予測してみます．

 data4 <- data3
 title <- as.character(sub(' ', '', sapply(data$name, FUN=function(x) {strsplit(x, split='[,.]')[[1]][2]})))
 data4$immature <- ifelse(title %in% c("Master", "Mlle", "Miss"), 1, 0)
 data4 <- subset(data4, select=c("pclass", "age", "sibsp", "parch", "fare", "immature"))

 set.seed(1)
 clf_age <- train(age~., data=data4[!is.na(data$age),], method="rpart", tuneLength=10,
                 trControl=trainControl(method="cv", number=10))

 clf_age$result[which.max(clf_age$results$RMSE),]
 #       cp     RMSE  Rsquared    RMSESD RsquaredSD
 #0.2105439 1.083399 0.1464117 0.1044172 0.04869529

 data3$age[is.na(data$age)] <- predict(clf_age, newdata=data4[is.na(data$age),])

 set.seed(1)
 suppressWarnings(
 clf4 <- train(survived~., data=data3, method="gbm",
              trControl=trainControl(method="cv", number=10),
              tuneLength = 15,
              verbose=FALSE)
 )

 clf4$result[which.max(clf4$results$Accuracy),]
 # shrinkage interaction.depth n.minobsinnode n.trees  Accuracy     Kappa
 #       0.1                 4             10     150 0.8250617 0.6200446
 # AccuracySD    KappaSD
 # 0.03476065 0.07844335

 # グリッドサーチ＋交差検証  モデル変更	cabin利用	age予測
 # 0.807                   	0.817     	0.819   	0.825
	# データの入手
	# Data obtained from http://biostat.mc.vanderbilt.edu/DataSets
	data = read.csv("http://biostat.mc.vanderbilt.edu/wiki/pub/Main/DataSets/titanic3.csv",
	stringsAsFactors=F, na.strings=c("","NA"))

	# データの確認
	# survived: 1（生存），0（死亡）
	# pclass: 乗客の社会経済的地位（1:上流，2:中流，3:下流）
	# name: 氏名
	# sex: 性別
	# age: 年齢
	# sibsp: 同乗したSibling/Spouseの数
	# parch: 同乗したParent/Childrenの数
	# ticket: チケットナンバー
	# fare: 乗船料金
	# cabin: 船室番号
	# embarked: 乗船場（C = Cherbourg, Q = Queenstown; S = Southampton）
	# boat: Lifeboat
	# body: Body Identification Number
	# home.dest: Home/Destination
	str(data)

	# 欠損値の確認
	sapply(data, function(x) sum(is.na(x))) / nrow(data)

	# 特徴量の選択
	# 欠損値の多い特徴量や，分析に有効でなさそうな特徴量を削除します．
	# ※本来特徴量の選択は分析の試行錯誤のなかで行うべきですが，
	# 演習の都合上最初に行っています．
	data2 <- subset(data, select=-c(name, ticket, cabin, boat, body, home.dest))

	# データの可視化
	# カテゴリデータ（pclass, embarked, sex）は積み上げ棒グラフにして
	# 変数の割合と，変数内の生死の割合を可視化
	par(mfrow=c(2,2), mar=c(4,4,.5,.5))
	cnt <- table(data2$survived, data2$pclass)
	barplot(cnt, horiz=T, legend=rownames(cnt), args.legend=list(x="bottomright"),
	ylab="pclass")

	cnt <- table(data2$survived, data2$embarked)
	barplot(cnt, horiz=T, las=2, legend=rownames(cnt), args.legend=list(x="bottomright"),
	ylab="embarked")

	cnt <- table(data2$survived, data2$sex)
	barplot(cnt, horiz=T, legend=rownames(cnt), args.legend=list(x="bottomright"),
	ylab="sex")

	# 数値データ（age, sibsp, parch, fare）は生／死ごとにヒストグラムで可視化
	par(mfrow=c(2,2), mar=c(4,4,.5,.5))
	hist(data2$age[data2$survived==0], breaks=20, xlab="age", main="",
	col="#ff00ff40")
	hist(data2$age[data2$survived==1], breaks=20, add=T, col="#0000ff40")
	legend("topright", c("0", "1"), fill=c("#ff00ff40", "#0000ff40"))

	hist(data2$sibsp[data2$survived==0], breaks=20, xlab="sibsp", main="",
	col="#ff00ff40")
	hist(data2$sibsp[data2$survived==1], breaks=10, add=T, col="#0000ff40")
	legend("topright", c("0", "1"), fill=c("#ff00ff40", "#0000ff40"))

	hist(data2$parch[data2$survived==0], breaks=20, xlab="parch", main="",
	col="#ff00ff40")
	hist(data2$parch[data2$survived==1], breaks=10, add=T, col="#0000ff40")
	legend("topright", c("0", "1"), fill=c("#ff00ff40", "#0000ff40"))

	hist(data2$fare[data2$survived==0], breaks=20, xlab="fare", main="",
	col="#ff00ff40")
	hist(data2$fare[data2$survived==1], breaks=40, add=T, col="#0000ff40")
	legend("topright", c("0", "1"), fill=c("#ff00ff40", "#0000ff40"))

	# 特徴量同士の関係を可視化
	# カテゴリデータ同士の関係はクロス集計（Cross tabulation）で可視化
	# ※parch, sibspは数値データですが，取りうる値が限られているためクロス集計を利用
	table(data2$embarked, data2$pclass, deparse.level=2)
	table(data2$embarked, data2$sex, deparse.level=2)
	table(data2$embarked, data2$sibsp, deparse.level=2)
	table(data2$embarked, data2$parch, deparse.level=2)
	table(data2$pclass, data2$sex, deparse.level=2)
	table(data2$pclass, data2$sibsp, deparse.level=2)
	table(data2$pclass, data2$parch, deparse.level=2)
	table(data2$sex, data2$sibsp, deparse.level=2)
	table(data2$sex, data2$parch, deparse.level=2)
	table(data2$sibsp, data2$parch, deparse.level=2)

	# 数値データとカテゴリデータの関係は箱ひげ図（boxplot）で可視化
	par(mfrow=c(3,2), mar=c(4,4,.5,.5))
	plot(factor(data2$embarked), data2$age, xlab="embarked", ylab="age")
	plot(factor(data2$pclass), data2$age, xlab="pclass", ylab="age")
	plot(factor(data2$sex), data2$age, xlab="sex", ylab="age")
	plot(factor(data2$sibsp), data2$age, xlab="sibsp", ylab="age")
	plot(factor(data2$parch), data2$age, xlab="parch", ylab="age")
	plot(factor(data2$embarked), data2$fare, xlab="embarked", ylab="fare")

	par(mfrow=c(2,2), mar=c(4,4,.5,.5))
	plot(factor(data2$pclass), data2$fare, xlab="pclass", ylab="fare")
	plot(factor(data2$sex), data2$fare, xlab="sex", ylab="fare")
	plot(factor(data2$sibsp), data2$fare, xlab="sibsp", ylab="fare")
	plot(factor(data2$parch), data2$fare, xlab="parch", ylab="fare")

	# 数値データ同士の関係は散布図（Scatter plot）で可視化
	par(mfrow=c(1,1), mar=c(4,4,.5,.5))
	plot(data2$age, data2$fare, xlab="age", ylab="fare")

	# 欠損値の処理
	# 今回は，数値データは中央値で，カテゴリデータは最頻値で補間します．
	# ただし，運賃（fare）は社会経済的地位（pclass）と相関があるため※
	# 等級ごとの中央値で補間します．
	# ※pclassとfareの可視化結果（boxplot）参照
	age_median <- median(data2$age, na.rm=T)
	embarked_mode <- names(which.max(table(data2$embarked)))
	fare_median_c1 <- median(data2$fare[data2$pclass==1], na.rm=T)
	fare_median_c2 <- median(data2$fare[data2$pclass==2], na.rm=T)
	fare_median_c3 <- median(data2$fare[data2$pclass==3], na.rm=T)

	data2$age[is.na(data2$age)] <- age_median
	data2$embarked[is.na(data2$embarked)] <- embarked_mode
	data2$fare[data2$pclass==1 & is.na(data2$fare)] <- fare_median_c1
	data2$fare[data2$pclass==2 & is.na(data2$fare)] <- fare_median_c2
	data2$fare[data2$pclass==3 & is.na(data2$fare)] <- fare_median_c3

	sapply(data2, function(x) sum(is.na(x))) / nrow(data2)

	# カテゴリ変数の処理
	# Rでは特徴量の型を因子型(factor)にしておくと
	# 分析時にダミー変数を利用して処理してくれることが多いです．
	data2$pclass <- factor(data2$pclass)
	data2$survived <- factor(data2$survived)
	data2$embarked <- factor(data2$embarked)
	data2$sex <- factor(data2$sex)

	# データの標準化
	# 数値データを平均0，分散1に標準化します．
	colMean <- as.numeric(sapply(data2[,sapply(data2, is.numeric)], mean))
	colSd <- as.numeric(sapply(data2[,sapply(data2, is.numeric)], sd))
	data2[,sapply(data2, is.numeric)] <- scale(data2[,sapply(data2, is.numeric)],
	center=colMean, scale=colSd)

	# モデリング
	# 決定木（Decision tree）を使って生死を予測してみます．
	# 予測結果は精度（accuracy）で評価します．
	# 精度=正解数/データ数
	library(rpart)

	clf0 <- rpart(survived~., data=data2, method="class",
	control=rpart.control(cp=1e-10, xval=1, minsplit=1, minbucket=1))

	confusion_matrix <- table(data2$survived, predict(clf0, newdata=data2, type="class"))
	sum(diag(confusion_matrix)) / sum(confusion_matrix)
	# 0.9656226

	# グリッドサーチと交差検証
	# registerDoMCのcoresはPCのコア数に応じて設定してください．
	library(caret, quietly=T)
	library(doMC, quietly=T)
	registerDoMC(cores=4)

	set.seed(1)
	clf1 <- train(survived~., data=data2, method="rpart", tuneLength=5,
	trControl=trainControl(method="cv", number=10))

	clf1$result[which.max(clf1$results$Accuracy),]
	# cp Accuracy Kappa AccuracySD KappaSD
	# 0.005 0.8074985 0.5737025 0.0301985 0.07122872

	# 学習曲線
	calc_cv_train_score <- function(data, K, cp){
	n <- nrow(data)
	K <- 10
	set.seed(1)
	grp <- factor(sample.int(n) %/% ceiling(n / K) + 1)
	score_cv <- c()
	score_train <- c()
	for(k in 1:K){
	clf_cv <- rpart(survived~., data=data[grp!=k,], method="class", cp=cp)
	pred <- predict(clf_cv, newdata=data[grp!=k,], type="class")
	cm <- table(data$survived[grp!=k], pred)
	score_train <- c(score_train, sum(diag(cm)) / sum(cm))
	pred <- predict(clf_cv, newdata=data[grp==k,], type="class")
	cm <- table(data$survived[grp==k], pred)
	score_cv <- c(score_cv, sum(diag(cm)) / sum(cm))
	}
	res <- list("score_train"=mean(score_train), "score_cv"=mean(score_cv))
	res
	}

	set.seed(1)
	score_train <- c()
	score_cv <- c()
	for(r in seq(0.1, 1, 0.1)){
	res <- calc_cv_train_score(data2[sample.int(nrow(data2), r*nrow(data2)),], 5,
	clf1$result$cp[which.max(clf1$results$Accuracy)])
	score_train <- c(score_train, res$score_train)
	score_cv <- c(score_cv, res$score_cv)
	}

	par(mfrow=c(1,1), mar=c(4,4,1,.5))
	plot(seq(0.1, 1, 0.1)*nrow(data2), score_train, type="b", pch=16, col="red",
	ylim=c(0.4, 1), xlab="Training examples", ylab="score", main="Learning curve")
	par(new=T)
	plot(seq(0.1, 1, 0.1)*nrow(data2), score_cv, type="b", pch=16, col="green",
	ylim=c(0.4, 1), ann=F)
	legend("bottomleft", c("Training score", "Cross-validation score"), lty=2,
	pch=16, col=c("red", "green"), inset=.05, bty="n")

	# 学習曲線をみると，
	# ・訓練スコアが低い
	# ・訓練スコアと交差検証スコアの差が小さい
	# ことから，ハイバイアスな状態であると分かります．
	# そこで，性能改善のために，
	# ・柔軟性の高いモデルに変更する
	# ・特徴量を追加する
	# を検討してみます．

	# モデルの変更
	# モデルをより柔軟性の高い，
	# アンサンブル学習（ブースティング）を利用したgbmに変更してみます．
	library(gbm, quietly=T)

	set.seed(1)
	clf2 <- train(survived~., data=data2, method="gbm",
	trControl=trainControl(method="cv", number=10),
	tuneLength=15,
	verbose=FALSE)

	clf2$result[which.max(clf2$results$Accuracy),]
	# shrinkage interaction.depth n.minobsinnode n.trees Accuracy Kappa
	# 0.1 5 10 100 0.8174105 0.6002224
	# AccuracySD KappaSD
	# 0.03272035 0.07538066

	#グリッドサーチ＋交差検証モデル変更
	# 0.807 0.817

	# 特徴量の追加，変更
	# 欠損率が高く利用を見送っていたcabinの情報を利用してみます．
	# cabinは文字＋数値という形なので，文字と数値に分離して利用します．
	data3 <- data2

	data3$cabin <- sapply(as.character(data$cabin),
	FUN=function(x){substring(strsplit(x, " ")[[1]][1], 1, 1)})
	data3$cabin[is.na(data3$cabin)] <- "unknown"
	data3$cabin <- as.factor(data3$cabin)
	data3$cabin_room <- sapply(as.character(data$cabin),
	FUN=function(x){as.numeric(substring(strsplit(x, " ")[[1]][1], 2))})
	data3$cabin_room[is.na(data3$cabin_room)] <- 0

	set.seed(1)
	suppressWarnings(
	clf3 <- train(survived~., data=data3, method="gbm",
	trControl=trainControl(method="cv", number=10),
	tuneLength=15,
	verbose=FALSE)
	)

	clf3$result[which.max(clf3$results$Accuracy),]
	# shrinkage interaction.depth n.minobsinnode n.trees Accuracy Kappa
	# 0.1 7 10 50 0.8189607 0.6081866
	# AccuracySD KappaSD
	# 0.02430674 0.05363552

	# グリッドサーチ＋交差検証モデル変更 cabin利用
	# 0.807 0.817 0.819

	# 単純に中央値で補間していた年齢の欠損値を，その他の特徴量を使って予測してみます．

	data4 <- data3
	title <- as.character(sub(' ', '', sapply(data$name, FUN=function(x) {strsplit(x, split='[,.]')[[1]][2]})))
	data4$immature <- ifelse(title %in% c("Master", "Mlle", "Miss"), 1, 0)
	data4 <- subset(data4, select=c("pclass", "age", "sibsp", "parch", "fare", "immature"))

	set.seed(1)
	clf_age <- train(age~., data=data4[!is.na(data$age),], method="rpart", tuneLength=10,
	trControl=trainControl(method="cv", number=10))

	clf_age$result[which.max(clf_age$results$RMSE),]
	# cp RMSE Rsquared RMSESD RsquaredSD
	#0.2105439 1.083399 0.1464117 0.1044172 0.04869529

	data3$age[is.na(data$age)] <- predict(clf_age, newdata=data4[is.na(data$age),])

	set.seed(1)
	suppressWarnings(
	clf4 <- train(survived~., data=data3, method="gbm",
	trControl=trainControl(method="cv", number=10),
	tuneLength = 15,
	verbose=FALSE)
	)

	clf4$result[which.max(clf4$results$Accuracy),]
	# shrinkage interaction.depth n.minobsinnode n.trees Accuracy Kappa
	# 0.1 4 10 150 0.8250617 0.6200446
	# AccuracySD KappaSD
	# 0.03476065 0.07844335

	# グリッドサーチ＋交差検証モデル変更 cabin利用 age予測
	# 0.807 0.817 0.819 0.825
No results found