sebastiansauer · June 21, 2022 10:32
diff --git a/tmdb08.Rmd b/tmdb08.Rmd


 ```{r libs, include = FALSE}
 library(tidyverse)
 ```


 ```{r global-knitr-options, include=FALSE}
 knitr::opts_chunk$set(fig.pos = 'H',
                      fig.asp = 0.618,
                      fig.width = 4,
                      fig.cap = "", 
                      fig.path = "",
                      echo = TRUE,
                      message = FALSE,
                      fig.show = "hold")
 ```







 Question
 ========

 Wir bearbeiten hier die Fallstudie [TMDB Box Office Prediction - 
 Can you predict a movie's worldwide box office revenue?](https://www.kaggle.com/competitions/tmdb-box-office-prediction/overview),
 ein [Kaggle](https://www.kaggle.com/)-Prognosewettbewerb.

 Ziel ist es, genaue Vorhersagen zu machen,
 in diesem Fall für Filme.


 Die Daten können Sie von der Kaggle-Projektseite beziehen oder so:

 ```{r}
 d_train_path <- "https://raw.githubusercontent.com/sebastiansauer/Lehre/main/data/tmdb-box-office-prediction/train.csv"
 d_test_path <- "https://raw.githubusercontent.com/sebastiansauer/Lehre/main/data/tmdb-box-office-prediction/test.csv"
 ```


 # Aufgabe

 Reichen Sie bei Kaggle eine Submission für die Fallstudie ein! Berichten Sie den Score!


 Hinweise:

 - Sie müssen sich bei Kaggle ein Konto anlegen (kostenlos und anonym möglich); alternativ können Sie sich mit einem Google-Konto anmelden.
 - Halten Sie das Modell so *einfach* wie möglich. Verwenden Sie als Algorithmus die *regularisierte lineare Regression* .
 - Minimieren Sie die Vorverarbeitung (`steps`) so weit als möglich.
 - Verwenden Sie `tidymodels`.



 Solution
 ========


 # Vorbereitung

 ```{r}
 library(tidyverse)
 library(tidymodels)
 ```



 ```{r}
 d_train_raw <- read_csv(d_train_path)
 d_test_raw <- read_csv(d_test_path)
 ```





 ## Train-Set verschlanken

 ```{r}
 d_train <-
  d_train_raw %>% 
  select(id, popularity, runtime, revenue, budget) 
 ```


 ## Test-Set verschlanken

 ```{r}
 d_test <-
  d_test_raw %>% 
  select(id,popularity, runtime, budget) 
 ```


 # Rezept

 ## Rezept definieren


 ```{r}
 rec2 <-
  recipe(revenue ~ ., data = d_train) %>% 
  step_mutate(budget = ifelse(budget == 0, 1, budget)) %>%  # log mag keine 0
  step_log(budget) %>% 
  step_impute_knn(all_predictors()) %>% 
  step_dummy(all_nominal_predictors())  %>% 
  update_role(id, new_role = "id")

 rec2
 ```



 # Kreuzvalidierung / Resampling


 ```{r}
 cv_scheme <- vfold_cv(d_train,
                      v = 5, 
                      repeats = 3)
 ```


 # Modelle



 ## LM


 ```{r}
 mod_lm <-
  linear_reg(penalty = tune(), mixture = 1) %>% 
  set_engine("glmnet")
 ```



 # Workflow-Set

 Hier nur ein sehr kleiner Workflow-Set.

 Das ist übrigens eine gute Strategie: Erstmal mit einem kleinen Prozess anfangen,
 und dann sukzessive erweitern.


 ```{r}
 preproc2 <- list(rec1 = rec2)
 models2 <- list(lm1 = mod_lm)
 
 
 all_workflows2 <- workflow_set(preproc2, models2)
 ```


 # Fitten und tunen


 ```{r}
 tmdb_model_set2 <-
    all_workflows2 %>% 
    workflow_map(resamples = cv_scheme)
 ```





 # Finalisieren

 Wir müssen uns leider händisch das beste Modell raussuchen:


 ```{r}
 tmdb_model_set2 %>% 
  collect_metrics() %>% 
  arrange(-mean) 
 ```




 ```{r}
 best_model_params2 <-
 extract_workflow_set_result(tmdb_model_set2, "rec1_lm1") %>% 
  select_best()

 best_model_params2
 ```



 ## Finalisieren

 Finalisieren bedeutet:

 - Besten Workflow identifizieren (zur Erinnerung: Workflow = Rezept + Modell)
 - Den besten Workflow mit den optimalen Modell-Parametern ausstatten
 - Damit dann den ganzen Train-Datensatz fitten
 - Auf dieser Basis das Test-Sample vorhersagen

 ```{r}
 best_wf2 <- 
 all_workflows2 %>% 
  extract_workflow("rec1_lm1")

 best_wf2
 ```


 ```{r}
 best_wf_finalized2 <- 
  best_wf2 %>% 
  finalize_workflow(best_model_params2)

 best_wf_finalized2
 ```

 ## Final Fit


 ```{r}
 fit_final2 <-
  best_wf_finalized2 %>% 
  fit(d_train)

 fit_final2
 ```



 ```{r error = TRUE}
 preds <- 
 fit_final2 %>% 
  predict(new_data = d_test)

 head(preds)
 ```


 ## Submission df


 ```{r}
 submission_df <-
  d_test %>% 
  select(id) %>% 
  bind_cols(preds) %>% 
  rename(revenue = .pred)

 head(submission_df)
 ```


 Abspeichern und einreichen:

 ```{r eval = FALSE}
 write_csv(submission_df, file = "submission_regul_lm.csv")
 ```




 Meta-information
 ================
 exname: tmdb08
 extype: num
 exsolution: `r sol`
 extol: .2
 expoints: 1


	```{r libs, include = FALSE}
	library(tidyverse)
	```


	```{r global-knitr-options, include=FALSE}
	knitr::opts_chunk$set(fig.pos = 'H',
	fig.asp = 0.618,
	fig.width = 4,
	fig.cap = "",
	fig.path = "",
	echo = TRUE,
	message = FALSE,
	fig.show = "hold")
	```







	Question
	========

	Wir bearbeiten hier die Fallstudie [TMDB Box Office Prediction -
	Can you predict a movie's worldwide box office revenue?](https://www.kaggle.com/competitions/tmdb-box-office-prediction/overview),
	ein [Kaggle](https://www.kaggle.com/)-Prognosewettbewerb.

	Ziel ist es, genaue Vorhersagen zu machen,
	in diesem Fall für Filme.


	Die Daten können Sie von der Kaggle-Projektseite beziehen oder so:

	```{r}
	d_train_path <- "https://raw.githubusercontent.com/sebastiansauer/Lehre/main/data/tmdb-box-office-prediction/train.csv"
	d_test_path <- "https://raw.githubusercontent.com/sebastiansauer/Lehre/main/data/tmdb-box-office-prediction/test.csv"
	```


	# Aufgabe

	Reichen Sie bei Kaggle eine Submission für die Fallstudie ein! Berichten Sie den Score!


	Hinweise:

	- Sie müssen sich bei Kaggle ein Konto anlegen (kostenlos und anonym möglich); alternativ können Sie sich mit einem Google-Konto anmelden.
	- Halten Sie das Modell so einfach wie möglich. Verwenden Sie als Algorithmus die regularisierte lineare Regression .
	- Minimieren Sie die Vorverarbeitung (`steps`) so weit als möglich.
	- Verwenden Sie `tidymodels`.



	Solution
	========


	# Vorbereitung

	```{r}
	library(tidyverse)
	library(tidymodels)
	```



	```{r}
	d_train_raw <- read_csv(d_train_path)
	d_test_raw <- read_csv(d_test_path)
	```





	## Train-Set verschlanken

	```{r}
	d_train <-
	d_train_raw %>%
	select(id, popularity, runtime, revenue, budget)
	```


	## Test-Set verschlanken

	```{r}
	d_test <-
	d_test_raw %>%
	select(id,popularity, runtime, budget)
	```


	# Rezept

	## Rezept definieren


	```{r}
	rec2 <-
	recipe(revenue ~ ., data = d_train) %>%
	step_mutate(budget = ifelse(budget == 0, 1, budget)) %>% # log mag keine 0
	step_log(budget) %>%
	step_impute_knn(all_predictors()) %>%
	step_dummy(all_nominal_predictors()) %>%
	update_role(id, new_role = "id")

	rec2
	```



	# Kreuzvalidierung / Resampling


	```{r}
	cv_scheme <- vfold_cv(d_train,
	v = 5,
	repeats = 3)
	```


	# Modelle



	## LM


	```{r}
	mod_lm <-
	linear_reg(penalty = tune(), mixture = 1) %>%
	set_engine("glmnet")
	```



	# Workflow-Set

	Hier nur ein sehr kleiner Workflow-Set.

	Das ist übrigens eine gute Strategie: Erstmal mit einem kleinen Prozess anfangen,
	und dann sukzessive erweitern.


	```{r}
	preproc2 <- list(rec1 = rec2)
	models2 <- list(lm1 = mod_lm)


	all_workflows2 <- workflow_set(preproc2, models2)
	```


	# Fitten und tunen


	```{r}
	tmdb_model_set2 <-
	all_workflows2 %>%
	workflow_map(resamples = cv_scheme)
	```





	# Finalisieren

	Wir müssen uns leider händisch das beste Modell raussuchen:


	```{r}
	tmdb_model_set2 %>%
	collect_metrics() %>%
	arrange(-mean)
	```




	```{r}
	best_model_params2 <-
	extract_workflow_set_result(tmdb_model_set2, "rec1_lm1") %>%
	select_best()

	best_model_params2
	```



	## Finalisieren

	Finalisieren bedeutet:

	- Besten Workflow identifizieren (zur Erinnerung: Workflow = Rezept + Modell)
	- Den besten Workflow mit den optimalen Modell-Parametern ausstatten
	- Damit dann den ganzen Train-Datensatz fitten
	- Auf dieser Basis das Test-Sample vorhersagen

	```{r}
	best_wf2 <-
	all_workflows2 %>%
	extract_workflow("rec1_lm1")

	best_wf2
	```


	```{r}
	best_wf_finalized2 <-
	best_wf2 %>%
	finalize_workflow(best_model_params2)

	best_wf_finalized2
	```

	## Final Fit


	```{r}
	fit_final2 <-
	best_wf_finalized2 %>%
	fit(d_train)

	fit_final2
	```



	```{r error = TRUE}
	preds <-
	fit_final2 %>%
	predict(new_data = d_test)

	head(preds)
	```


	## Submission df


	```{r}
	submission_df <-
	d_test %>%
	select(id) %>%
	bind_cols(preds) %>%
	rename(revenue = .pred)

	head(submission_df)
	```


	Abspeichern und einreichen:

	```{r eval = FALSE}
	write_csv(submission_df, file = "submission_regul_lm.csv")
	```




	Meta-information
	================
	exname: tmdb08
	extype: num
	exsolution: `r sol`
	extol: .2
	expoints: 1
No results found