sergiospagnuolo · May 5, 2019 15:42
diff --git a/analisa_capacidade_estatistica.Rmd b/analisa_capacidade_estatistica.Rmd
 ---
 title: "Capacidade estatística"
 output: html_notebook
 ---

 ```{r}
 library(tidyverse)
 library(directlabels)
 ```

 Link de referência de dados: [https://data.worldbank.org/indicator/IQ.SCI.OVRL?locations=BR](https://data.worldbank.org/indicator/IQ.SCI.OVRL?locations=BR)

 Contexto: 
 - [Técnicos do IBGE questionam corte no Censo](https://www1.folha.uol.com.br/mercado/2019/05/tecnicos-do-ibge-questionam-corte-no-censo.shtml)
 - [IBGE prepara corte de 25% no orçamento do Censo 2020](https://www.valor.com.br/brasil/6203807/ibge-prepara-corte-de-25-no-orcamento-do-censo-2020)

 Baixe o csv e coloque no diretório correto. Com o `read.csv` conseguimos retirar as linhas da tabela que contém metadados, sobrando apenas a tabela com os dados. 

 ```{r}
 d <- read.csv("API_IQ.SCI.OVRL_DS2_en_csv_v2_10580560.csv", header = T, skip = 3)
 ```

 Essa é a parte de limpeza e organização do dataset, para que possamos organizá-lo melhor, usando a função `gather()`, do pacote tydr, na qual agruparemos os anos sob uma mesma coluna, removendo todos os pontos sem ocorrências de valores com `na.rm = TRUE`. 

 Depois aplicaremos uma limpeza para arrumar as datas no formato certo e arredondar os números.

 ```{r}
 d <- d %>% 
  gather(ano, valor, 5:64, na.rm = TRUE)

 d$ano <- gsub("\\X", "", d$ano)
 d$ano <- as.Date(as.Date(paste0(d$ano, '-01-01')))
 d$valor <- round(d$valor, digits = 1)

 #coloca uma coluna com categoria pra diferenciar o Brasil, pra ficar mais fácil plotar o gráfico com destaque
 d$grupo <- ifelse(d$Country.Code == "BRA", "Brasil", "comparativo")
 ```

 Vamos agora selecionar apenas os países e regiões que queremos. Para isso, é melhor usar os códigos de três caracteres para cada um. Vamos analisar aqui, além de Brasil (BRA), o Chile (CHL), México (MEX), a China (CHN), e também grupos de países - a América Latina e Caribe (TLA) e países menos desenvolvidos (LDC). 

 Lamentavelmente, não há esse dado para os EUA nesse dataset para compararmos.

 ```{r}
 d %>%
  select(Country.Name, Country.Code, ano, valor, grupo) %>%
  #filter(Country.Code == 'BRA' & Country.Code == 'CHL' & Country.Code == 'MEX' & Country.Code == 'CHN' & Country.Code == 'TLA' & Country.Code == 'LDC' & Country.Code == 'TEC' ) %>%
  filter(Country.Code %in% c("BRA", "CHL", "MEX", "CHN", "TLA", "LDC" )) %>%
  ggplot(aes(ano, valor, group=Country.Code, color = grupo, label=Country.Code)) +
  geom_line(size=0.7, show.legend = FALSE) + 
  scale_fill_manual(values=c("#386cb0","#B80062")) + 
  geom_dl(stat = "identity", position = "identity",
          method = list(dl.trans(x = x + 0.2, y = y + 0), "last.points", cex = .8, fontfamily="Inconsolata")) +
  labs (x="", y = "Índice", 
        title = "Capacidade estatística Brasileira (2004 a 2018)", 
        subtitle ="Colocação do Brasil em índice de capacidade estatística do Banco Mundial, calculado a partir de uma série\nde critériose três dimensões principais: Disponibilidade de dados, Coleta de dados e Prática\nNOTA:América Latina e Caribe (TLA) e países menos desenvolvidos (LDC)", 
        caption = "Fonte: Banco Mundial",
        colour = "") +
  theme(plot.margin = unit(c(1,1,1,1), "cm")) + 
  theme(strip.background = element_rect())
 ```
	---
	title: "Capacidade estatística"
	output: html_notebook
	---

	```{r}
	library(tidyverse)
	library(directlabels)
	```

	Link de referência de dados: [https://data.worldbank.org/indicator/IQ.SCI.OVRL?locations=BR](https://data.worldbank.org/indicator/IQ.SCI.OVRL?locations=BR)

	Contexto:
	- [Técnicos do IBGE questionam corte no Censo](https://www1.folha.uol.com.br/mercado/2019/05/tecnicos-do-ibge-questionam-corte-no-censo.shtml)
	- [IBGE prepara corte de 25% no orçamento do Censo 2020](https://www.valor.com.br/brasil/6203807/ibge-prepara-corte-de-25-no-orcamento-do-censo-2020)

	Baixe o csv e coloque no diretório correto. Com o `read.csv` conseguimos retirar as linhas da tabela que contém metadados, sobrando apenas a tabela com os dados.

	```{r}
	d <- read.csv("API_IQ.SCI.OVRL_DS2_en_csv_v2_10580560.csv", header = T, skip = 3)
	```

	Essa é a parte de limpeza e organização do dataset, para que possamos organizá-lo melhor, usando a função `gather()`, do pacote tydr, na qual agruparemos os anos sob uma mesma coluna, removendo todos os pontos sem ocorrências de valores com `na.rm = TRUE`.

	Depois aplicaremos uma limpeza para arrumar as datas no formato certo e arredondar os números.

	```{r}
	d <- d %>%
	gather(ano, valor, 5:64, na.rm = TRUE)

	d$ano <- gsub("\\X", "", d$ano)
	d$ano <- as.Date(as.Date(paste0(d$ano, '-01-01')))
	d$valor <- round(d$valor, digits = 1)

	#coloca uma coluna com categoria pra diferenciar o Brasil, pra ficar mais fácil plotar o gráfico com destaque
	d$grupo <- ifelse(d$Country.Code == "BRA", "Brasil", "comparativo")
	```

	Vamos agora selecionar apenas os países e regiões que queremos. Para isso, é melhor usar os códigos de três caracteres para cada um. Vamos analisar aqui, além de Brasil (BRA), o Chile (CHL), México (MEX), a China (CHN), e também grupos de países - a América Latina e Caribe (TLA) e países menos desenvolvidos (LDC).

	Lamentavelmente, não há esse dado para os EUA nesse dataset para compararmos.

	```{r}
	d %>%
	select(Country.Name, Country.Code, ano, valor, grupo) %>%
	#filter(Country.Code == 'BRA' & Country.Code == 'CHL' & Country.Code == 'MEX' & Country.Code == 'CHN' & Country.Code == 'TLA' & Country.Code == 'LDC' & Country.Code == 'TEC' ) %>%
	filter(Country.Code %in% c("BRA", "CHL", "MEX", "CHN", "TLA", "LDC" )) %>%
	ggplot(aes(ano, valor, group=Country.Code, color = grupo, label=Country.Code)) +
	geom_line(size=0.7, show.legend = FALSE) +
	scale_fill_manual(values=c("#386cb0","#B80062")) +
	geom_dl(stat = "identity", position = "identity",
	method = list(dl.trans(x = x + 0.2, y = y + 0), "last.points", cex = .8, fontfamily="Inconsolata")) +
	labs (x="", y = "Índice",
	title = "Capacidade estatística Brasileira (2004 a 2018)",
	subtitle ="Colocação do Brasil em índice de capacidade estatística do Banco Mundial, calculado a partir de uma série\nde critériose três dimensões principais: Disponibilidade de dados, Coleta de dados e Prática\nNOTA:América Latina e Caribe (TLA) e países menos desenvolvidos (LDC)",
	caption = "Fonte: Banco Mundial",
	colour = "") +
	theme(plot.margin = unit(c(1,1,1,1), "cm")) +
	theme(strip.background = element_rect())
	```