GuillaumePressiat · October 14, 2020 08:47
diff --git a/covid_sidep_sursaud_down.R b/covid_sidep_sursaud_down.R
 library(dplyr, warn.conflicts = FALSE)

 liste_url <- list(
  indicateurs = list(url_web = "https://www.data.gouv.fr/fr/datasets/indicateurs-de-suivi-de-lepidemie-de-covid-19/",
                     url_stable = "https://www.data.gouv.fr/fr/datasets/r/4acad602-d8b1-4516-bc71-7d5574d5f33e",
                     url_api = "https://www.data.gouv.fr/api/1/datasets/5ee9df5003284f565d561278/",
                     titre = "Indicateurs de suivi de l’épidémie de COVID-19",
                     # file_pattern = "indicateurs-covid19-dep", 
                     file_pattern = "indicateurs-open-data-dep",
                     delim = ",",
                     include = TRUE),
  tests_positivite = list(url_web = "https://www.data.gouv.fr/fr/datasets/donnees-relatives-aux-resultats-des-tests-virologiques-covid-19/",
                          url_stable = "https://www.data.gouv.fr/fr/datasets/r/406c6a23-e283-4300-9484-54e78c8ae675",
                          url_api = "https://www.data.gouv.fr/api/1/datasets/5ed117db6c161bd5baf070be",
                          titre = "Données relatives aux résultats des tests virologiques COVID-19 SI-DEP",
                          file_pattern = "sp-pos-quot-dep", 
                          delim = ";",
                          include = FALSE),
  tests_capacites = list(url_web = "https://www.data.gouv.fr/fr/datasets/capacite-analytique-de-tests-virologiques-dans-le-cadre-de-lepidemie-covid-19/",
                         url_stable = "https://www.data.gouv.fr/fr/datasets/r/0c230dc3-2d51-4f17-be97-aa9938564b39",
                         url_api = "https://www.data.gouv.fr/api/1/datasets/5ed11705afd28672e40fbc2f/",
                         titre = "Capacité analytique de tests virologiques dans le cadre de l'épidémie COVID-19 SI-DEP",
                         file_pattern = "sp-capa-quot-dep", 
                         delim = ";",
                         include = TRUE),
  incidence = list(url_web = "https://www.data.gouv.fr/fr/datasets/taux-dincidence-de-lepidemie-de-covid-19/",
                   url_stable = "https://www.data.gouv.fr/fr/datasets/r/19a91d64-3cd3-42fc-9943-d635491a4d76",
                   url_api = "https://www.data.gouv.fr/api/1/datasets/5ed1175ca00bbe1e4941a46a",
                   titre = "Taux d'incidence de l'épidémie de COVID-19 SI-DEP",
                   file_pattern = "sp-pe-tb-quot-dep", 
                   delim = ";",
                   include = TRUE),
  sursaud = list(url_web = "https://www.data.gouv.fr/fr/datasets/donnees-des-urgences-hospitalieres-et-de-sos-medecins-relatives-a-lepidemie-de-covid-19/",
                 url_stable = "https://www.data.gouv.fr/fr/datasets/r/eceb9fb4-3ebc-4da3-828d-f5939712600a",
                 url_api = "https://www.data.gouv.fr/api/1/datasets/5e74ecf52eb7514f2d3b8845",
                 titre = "Données des urgences hospitalières et de SOS médecins relatives à l'épidémie de COVID-19",
                 file_pattern = "sursaud-corona-quot-dep",
                 delim = ";",
                 include = TRUE)
 )


 type_fichier <- 'tests_capacites'

 get_data <- function(type_fichier, liste_url) {
  cat(type_fichier, "\n")
  url_api <- liste_url[type_fichier] %>% purrr::map('url_api') %>% .[[1]]
  url_stable <- liste_url[type_fichier] %>% purrr::map('url_stable') %>% .[[1]]
  file_pattern <- liste_url[type_fichier] %>% purrr::map('file_pattern') %>% .[[1]]
  
  file_delim <- liste_url[type_fichier] %>% purrr::map('delim') %>% .[[1]]
  u <- httr::GET(url_api, config = httr::config(verbose = FALSE))
  url_search <- httr::content(u)$resources
  
  df_date <- tibble(url = url_search %>% purrr::map_chr('url'),
                    timestamp = url_search %>% purrr::map_chr('last_modified')) %>% 
    filter(grepl(file_pattern, url)) %>% 
    arrange(desc(timestamp)) %>% 
    pull(timestamp) %>% 
    .[1] %>% 
    lubridate::as_datetime() %>% 
    format(., '%Y-%m-%d--%Hh%Mm')
  
  url_file <- tibble(url = url_search %>% purrr::map_chr('url'),
                    timestamp = url_search %>% purrr::map_chr('last_modified')) %>% 
    filter(grepl(file_pattern, url)) %>% 
    arrange(desc(timestamp)) %>% 
    pull(url) %>% 
    .[1]
  
  file_name <- basename(url_file) %>% 
    stringr::str_replace_all("\\.csv", paste0('__',df_date, ".csv"))
  
  f <- httr::GET(url_stable, httr::write_disk(paste0("SI-DEP/downloads/", file_name), overwrite = TRUE))
  
  
  donnee <- readr::read_delim(paste0("SI-DEP/downloads/", file_name), delim = file_delim)
  names(donnee)[names(donnee) == "departement"] <- "dep"
  names(donnee)[names(donnee) == "extract_date"] <- "jour"
  names(donnee)[names(donnee) == "date_de_passage"] <- "jour"
  
  donnee <- donnee %>% 
    mutate(semaine = paste0('S', lubridate::isoweek(jour)),
           jour_sem = lubridate::wday(jour, week_start = 1, abbr = FALSE, label = TRUE)) %>% 
    select(semaine, jour, jour_sem, everything())
  
  donnee <- donnee %>% arrange(desc(jour))
  
  donnee <- bind_rows(donnee %>% 
    filter(dep %in% c('29')),
    donnee %>% 
      filter(dep %in% c('22', '35', '56')))
  
  if (type_fichier == 'incidence'){
    donnee <- donnee %>% 
      mutate(incidence_1e5 = P * 1e5 / pop)
    donnee <- donnee %>% arrange(desc(jour), cl_age90)
  }
  
  if (type_fichier == 'sursaud'){
    donnee <- donnee %>% filter(sursaud_cl_age_corona == "0")
  }
  retour <- liste_url[type_fichier]
  retour <- modifyList(retour, setNames(list(list(df_date = df_date, 
                                                            file_link = paste0("SI-DEP/downloads/", file_name), 
                                                            file_name = file_name,
                                                  donnee = donnee)), type_fichier))
  
  
  return(retour)
 }

 data_and_meta <- unique(names(liste_url)) %>% 
  purrr::map(get_data, liste_url)


 # incidence heb, calcul à la main car non publié à jour
 incidence_heb <- data_and_meta %>% 
  purrr::map('incidence') %>% 
  purrr::compact() %>% 
  .[[1]] %>% 
  .$donnee %>% 
  filter(cl_age90 == '0') %>% 
  group_by(semaine, dep, pop) %>% 
  summarise(P = sum(P),
            nb_jour = n()) %>% 
  mutate(incidence_1e5 = P * 1e5 / pop) %>% 
  arrange(desc(semaine))

 incidence_heb <- bind_rows(
  incidence_heb %>% filter(dep == "29"),
  incidence_heb %>% filter(dep != "29"))

 data_date_max <- data_and_meta %>% 
  purrr::modify_depth(2, 'df_date') %>% 
  unlist %>% 
  max()

 data_date_min <- data_and_meta %>% 
  purrr::modify_depth(2, 'df_date') %>% 
  unlist %>% 
  min()


 prep_meta <- tibble(
  `Feuillet excel` = data_and_meta %>% 
    purrr::modify_depth(2, 'file_pattern') %>% 
    unlist,
  `Titre de la ressource` = data_and_meta %>% 
    purrr::modify_depth(2, 'titre') %>% 
    unlist,
  `Date de mise à jour` = data_and_meta %>% 
  purrr::modify_depth(2, 'df_date') %>% 
  unlist,
  `URL` = data_and_meta %>% 
    purrr::modify_depth(2, 'url_web') %>% 
    unlist) %>%
  bind_rows(tibble(
    `Feuillet excel` = 'incidence_heb',
    `Titre de la ressource` = 'Aggrégation des données sp-pe-tb-quot-dep à la semaine (par DIM)',
    `Date de mise à jour` = data_and_meta %>% 
      purrr::map('incidence') %>% 
      purrr::map('df_date') %>% 
      purrr::compact() %>% 
      unlist,
    URL = data_and_meta %>% 
      purrr::map('incidence') %>% 
      purrr::map('url_web') %>% 
      purrr::compact() %>% 
      unlist
  ))

 class(prep_meta$URL) <- "hyperlink"

 wb <- openxlsx::createWorkbook()

 li <- 1:length(data_and_meta)
 # i <- li[1]

 openxlsx::addWorksheet(wb, sheetName = "Méta-données")
 openxlsx::writeDataTable(wb, sheet = "Méta-données", prep_meta, bandedRows = TRUE, tableStyle = "TableStyleDark9")


 tab_excel <- function(i) {
  temp <- data_and_meta[i][[1]][[1]]
  
  openxlsx::addWorksheet(wb, sheetName = temp$file_pattern)
  openxlsx::writeDataTable(wb, sheet = temp$file_pattern, temp$donnee, bandedRows = TRUE, tableStyle = "TableStyleDark9")
  
 }

 li %>% purrr::map(tab_excel)

 # Ajout reshape par DIM
 openxlsx::addWorksheet(wb, sheetName = 'incidence_heb')
 openxlsx::writeDataTable(wb, sheet = 'incidence_heb', incidence_heb, bandedRows = TRUE, tableStyle = "TableStyleDark9")

 for (i in 1:(length(data_and_meta)+2)){
  
  if (i <= (length(data_and_meta) + 1)){
  openxlsx::writeFormula(wb, "Méta-données",
               startRow = i+1,
               x = openxlsx::makeHyperlinkString(sheet = prep_meta$`Feuillet excel`[i], text = prep_meta$`Feuillet excel`[i], row = i, col = 2)
  )
  }
  
  openxlsx::freezePane(wb, i ,  firstActiveRow = 2,  firstActiveCol = 1)
  openxlsx::setColWidths(wb, sheet = i, cols = 1:23, widths = "auto")
 }


 openxlsx::saveWorkbook(wb, 
                       paste0('SI-DEP/excel/covid_data_spf-si-dep-',  data_date_max, '.xlsx'), overwrite = TRUE)
	library(dplyr, warn.conflicts = FALSE)

	liste_url <- list(
	indicateurs = list(url_web = "https://www.data.gouv.fr/fr/datasets/indicateurs-de-suivi-de-lepidemie-de-covid-19/",
	url_stable = "https://www.data.gouv.fr/fr/datasets/r/4acad602-d8b1-4516-bc71-7d5574d5f33e",
	url_api = "https://www.data.gouv.fr/api/1/datasets/5ee9df5003284f565d561278/",
	titre = "Indicateurs de suivi de l’épidémie de COVID-19",
	# file_pattern = "indicateurs-covid19-dep",
	file_pattern = "indicateurs-open-data-dep",
	delim = ",",
	include = TRUE),
	tests_positivite = list(url_web = "https://www.data.gouv.fr/fr/datasets/donnees-relatives-aux-resultats-des-tests-virologiques-covid-19/",
	url_stable = "https://www.data.gouv.fr/fr/datasets/r/406c6a23-e283-4300-9484-54e78c8ae675",
	url_api = "https://www.data.gouv.fr/api/1/datasets/5ed117db6c161bd5baf070be",
	titre = "Données relatives aux résultats des tests virologiques COVID-19 SI-DEP",
	file_pattern = "sp-pos-quot-dep",
	delim = ";",
	include = FALSE),
	tests_capacites = list(url_web = "https://www.data.gouv.fr/fr/datasets/capacite-analytique-de-tests-virologiques-dans-le-cadre-de-lepidemie-covid-19/",
	url_stable = "https://www.data.gouv.fr/fr/datasets/r/0c230dc3-2d51-4f17-be97-aa9938564b39",
	url_api = "https://www.data.gouv.fr/api/1/datasets/5ed11705afd28672e40fbc2f/",
	titre = "Capacité analytique de tests virologiques dans le cadre de l'épidémie COVID-19 SI-DEP",
	file_pattern = "sp-capa-quot-dep",
	delim = ";",
	include = TRUE),
	incidence = list(url_web = "https://www.data.gouv.fr/fr/datasets/taux-dincidence-de-lepidemie-de-covid-19/",
	url_stable = "https://www.data.gouv.fr/fr/datasets/r/19a91d64-3cd3-42fc-9943-d635491a4d76",
	url_api = "https://www.data.gouv.fr/api/1/datasets/5ed1175ca00bbe1e4941a46a",
	titre = "Taux d'incidence de l'épidémie de COVID-19 SI-DEP",
	file_pattern = "sp-pe-tb-quot-dep",
	delim = ";",
	include = TRUE),
	sursaud = list(url_web = "https://www.data.gouv.fr/fr/datasets/donnees-des-urgences-hospitalieres-et-de-sos-medecins-relatives-a-lepidemie-de-covid-19/",
	url_stable = "https://www.data.gouv.fr/fr/datasets/r/eceb9fb4-3ebc-4da3-828d-f5939712600a",
	url_api = "https://www.data.gouv.fr/api/1/datasets/5e74ecf52eb7514f2d3b8845",
	titre = "Données des urgences hospitalières et de SOS médecins relatives à l'épidémie de COVID-19",
	file_pattern = "sursaud-corona-quot-dep",
	delim = ";",
	include = TRUE)
	)


	type_fichier <- 'tests_capacites'

	get_data <- function(type_fichier, liste_url) {
	cat(type_fichier, "\n")
	url_api <- liste_url[type_fichier] %>% purrr::map('url_api') %>% .[[1]]
	url_stable <- liste_url[type_fichier] %>% purrr::map('url_stable') %>% .[[1]]
	file_pattern <- liste_url[type_fichier] %>% purrr::map('file_pattern') %>% .[[1]]

	file_delim <- liste_url[type_fichier] %>% purrr::map('delim') %>% .[[1]]
	u <- httr::GET(url_api, config = httr::config(verbose = FALSE))
	url_search <- httr::content(u)$resources

	df_date <- tibble(url = url_search %>% purrr::map_chr('url'),
	timestamp = url_search %>% purrr::map_chr('last_modified')) %>%
	filter(grepl(file_pattern, url)) %>%
	arrange(desc(timestamp)) %>%
	pull(timestamp) %>%
	.[1] %>%
	lubridate::as_datetime() %>%
	format(., '%Y-%m-%d--%Hh%Mm')

	url_file <- tibble(url = url_search %>% purrr::map_chr('url'),
	timestamp = url_search %>% purrr::map_chr('last_modified')) %>%
	filter(grepl(file_pattern, url)) %>%
	arrange(desc(timestamp)) %>%
	pull(url) %>%
	.[1]

	file_name <- basename(url_file) %>%
	stringr::str_replace_all("\\.csv", paste0('__',df_date, ".csv"))

	f <- httr::GET(url_stable, httr::write_disk(paste0("SI-DEP/downloads/", file_name), overwrite = TRUE))


	donnee <- readr::read_delim(paste0("SI-DEP/downloads/", file_name), delim = file_delim)
	names(donnee)[names(donnee) == "departement"] <- "dep"
	names(donnee)[names(donnee) == "extract_date"] <- "jour"
	names(donnee)[names(donnee) == "date_de_passage"] <- "jour"

	donnee <- donnee %>%
	mutate(semaine = paste0('S', lubridate::isoweek(jour)),
	jour_sem = lubridate::wday(jour, week_start = 1, abbr = FALSE, label = TRUE)) %>%
	select(semaine, jour, jour_sem, everything())

	donnee <- donnee %>% arrange(desc(jour))

	donnee <- bind_rows(donnee %>%
	filter(dep %in% c('29')),
	donnee %>%
	filter(dep %in% c('22', '35', '56')))

	if (type_fichier == 'incidence'){
	donnee <- donnee %>%
	mutate(incidence_1e5 = P * 1e5 / pop)
	donnee <- donnee %>% arrange(desc(jour), cl_age90)
	}

	if (type_fichier == 'sursaud'){
	donnee <- donnee %>% filter(sursaud_cl_age_corona == "0")
	}
	retour <- liste_url[type_fichier]
	retour <- modifyList(retour, setNames(list(list(df_date = df_date,
	file_link = paste0("SI-DEP/downloads/", file_name),
	file_name = file_name,
	donnee = donnee)), type_fichier))


	return(retour)
	}

	data_and_meta <- unique(names(liste_url)) %>%
	purrr::map(get_data, liste_url)


	# incidence heb, calcul à la main car non publié à jour
	incidence_heb <- data_and_meta %>%
	purrr::map('incidence') %>%
	purrr::compact() %>%
	.[[1]] %>%
	.$donnee %>%
	filter(cl_age90 == '0') %>%
	group_by(semaine, dep, pop) %>%
	summarise(P = sum(P),
	nb_jour = n()) %>%
	mutate(incidence_1e5 = P * 1e5 / pop) %>%
	arrange(desc(semaine))

	incidence_heb <- bind_rows(
	incidence_heb %>% filter(dep == "29"),
	incidence_heb %>% filter(dep != "29"))

	data_date_max <- data_and_meta %>%
	purrr::modify_depth(2, 'df_date') %>%
	unlist %>%
	max()

	data_date_min <- data_and_meta %>%
	purrr::modify_depth(2, 'df_date') %>%
	unlist %>%
	min()


	prep_meta <- tibble(
	`Feuillet excel` = data_and_meta %>%
	purrr::modify_depth(2, 'file_pattern') %>%
	unlist,
	`Titre de la ressource` = data_and_meta %>%
	purrr::modify_depth(2, 'titre') %>%
	unlist,
	`Date de mise à jour` = data_and_meta %>%
	purrr::modify_depth(2, 'df_date') %>%
	unlist,
	`URL` = data_and_meta %>%
	purrr::modify_depth(2, 'url_web') %>%
	unlist) %>%
	bind_rows(tibble(
	`Feuillet excel` = 'incidence_heb',
	`Titre de la ressource` = 'Aggrégation des données sp-pe-tb-quot-dep à la semaine (par DIM)',
	`Date de mise à jour` = data_and_meta %>%
	purrr::map('incidence') %>%
	purrr::map('df_date') %>%
	purrr::compact() %>%
	unlist,
	URL = data_and_meta %>%
	purrr::map('incidence') %>%
	purrr::map('url_web') %>%
	purrr::compact() %>%
	unlist
	))

	class(prep_meta$URL) <- "hyperlink"

	wb <- openxlsx::createWorkbook()

	li <- 1:length(data_and_meta)
	# i <- li[1]

	openxlsx::addWorksheet(wb, sheetName = "Méta-données")
	openxlsx::writeDataTable(wb, sheet = "Méta-données", prep_meta, bandedRows = TRUE, tableStyle = "TableStyleDark9")


	tab_excel <- function(i) {
	temp <- data_and_meta[i][[1]][[1]]

	openxlsx::addWorksheet(wb, sheetName = temp$file_pattern)
	openxlsx::writeDataTable(wb, sheet = temp$file_pattern, temp$donnee, bandedRows = TRUE, tableStyle = "TableStyleDark9")

	}

	li %>% purrr::map(tab_excel)

	# Ajout reshape par DIM
	openxlsx::addWorksheet(wb, sheetName = 'incidence_heb')
	openxlsx::writeDataTable(wb, sheet = 'incidence_heb', incidence_heb, bandedRows = TRUE, tableStyle = "TableStyleDark9")

	for (i in 1:(length(data_and_meta)+2)){

	if (i <= (length(data_and_meta) + 1)){
	openxlsx::writeFormula(wb, "Méta-données",
	startRow = i+1,
	x = openxlsx::makeHyperlinkString(sheet = prep_meta$`Feuillet excel`[i], text = prep_meta$`Feuillet excel`[i], row = i, col = 2)
	)
	}

	openxlsx::freezePane(wb, i , firstActiveRow = 2, firstActiveCol = 1)
	openxlsx::setColWidths(wb, sheet = i, cols = 1:23, widths = "auto")
	}


	openxlsx::saveWorkbook(wb,
	paste0('SI-DEP/excel/covid_data_spf-si-dep-', data_date_max, '.xlsx'), overwrite = TRUE)