Skip to content

Instantly share code, notes, and snippets.

Show Gist options
  • Save sergiospagnuolo/4e6e8df668c576a60d54126812fbdfda to your computer and use it in GitHub Desktop.
Save sergiospagnuolo/4e6e8df668c576a60d54126812fbdfda to your computer and use it in GitHub Desktop.
Análise de capacidade estatística do Brasil
---
title: "Capacidade estatística"
output: html_notebook
---
```{r}
library(tidyverse)
library(directlabels)
```
Link de referência de dados: [https://data.worldbank.org/indicator/IQ.SCI.OVRL?locations=BR](https://data.worldbank.org/indicator/IQ.SCI.OVRL?locations=BR)
Contexto:
- [Técnicos do IBGE questionam corte no Censo](https://www1.folha.uol.com.br/mercado/2019/05/tecnicos-do-ibge-questionam-corte-no-censo.shtml)
- [IBGE prepara corte de 25% no orçamento do Censo 2020](https://www.valor.com.br/brasil/6203807/ibge-prepara-corte-de-25-no-orcamento-do-censo-2020)
Baixe o csv e coloque no diretório correto. Com o `read.csv` conseguimos retirar as linhas da tabela que contém metadados, sobrando apenas a tabela com os dados.
```{r}
d <- read.csv("API_IQ.SCI.OVRL_DS2_en_csv_v2_10580560.csv", header = T, skip = 3)
```
Essa é a parte de limpeza e organização do dataset, para que possamos organizá-lo melhor, usando a função `gather()`, do pacote tydr, na qual agruparemos os anos sob uma mesma coluna, removendo todos os pontos sem ocorrências de valores com `na.rm = TRUE`.
Depois aplicaremos uma limpeza para arrumar as datas no formato certo e arredondar os números.
```{r}
d <- d %>%
gather(ano, valor, 5:64, na.rm = TRUE)
d$ano <- gsub("\\X", "", d$ano)
d$ano <- as.Date(as.Date(paste0(d$ano, '-01-01')))
d$valor <- round(d$valor, digits = 1)
#coloca uma coluna com categoria pra diferenciar o Brasil, pra ficar mais fácil plotar o gráfico com destaque
d$grupo <- ifelse(d$Country.Code == "BRA", "Brasil", "comparativo")
```
Vamos agora selecionar apenas os países e regiões que queremos. Para isso, é melhor usar os códigos de três caracteres para cada um. Vamos analisar aqui, além de Brasil (BRA), o Chile (CHL), México (MEX), a China (CHN), e também grupos de países - a América Latina e Caribe (TLA) e países menos desenvolvidos (LDC).
Lamentavelmente, não há esse dado para os EUA nesse dataset para compararmos.
```{r}
d %>%
select(Country.Name, Country.Code, ano, valor, grupo) %>%
#filter(Country.Code == 'BRA' & Country.Code == 'CHL' & Country.Code == 'MEX' & Country.Code == 'CHN' & Country.Code == 'TLA' & Country.Code == 'LDC' & Country.Code == 'TEC' ) %>%
filter(Country.Code %in% c("BRA", "CHL", "MEX", "CHN", "TLA", "LDC" )) %>%
ggplot(aes(ano, valor, group=Country.Code, color = grupo, label=Country.Code)) +
geom_line(size=0.7, show.legend = FALSE) +
scale_fill_manual(values=c("#386cb0","#B80062")) +
geom_dl(stat = "identity", position = "identity",
method = list(dl.trans(x = x + 0.2, y = y + 0), "last.points", cex = .8, fontfamily="Inconsolata")) +
labs (x="", y = "Índice",
title = "Capacidade estatística Brasileira (2004 a 2018)",
subtitle ="Colocação do Brasil em índice de capacidade estatística do Banco Mundial, calculado a partir de uma série\nde critériose três dimensões principais: Disponibilidade de dados, Coleta de dados e Prática\nNOTA:América Latina e Caribe (TLA) e países menos desenvolvidos (LDC)",
caption = "Fonte: Banco Mundial",
colour = "") +
theme(plot.margin = unit(c(1,1,1,1), "cm")) +
theme(strip.background = element_rect())
```
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment