Created
May 5, 2019 15:42
-
-
Save sergiospagnuolo/4e6e8df668c576a60d54126812fbdfda to your computer and use it in GitHub Desktop.
Análise de capacidade estatística do Brasil
This file contains hidden or bidirectional Unicode text that may be interpreted or compiled differently than what appears below. To review, open the file in an editor that reveals hidden Unicode characters.
Learn more about bidirectional Unicode characters
--- | |
title: "Capacidade estatística" | |
output: html_notebook | |
--- | |
```{r} | |
library(tidyverse) | |
library(directlabels) | |
``` | |
Link de referência de dados: [https://data.worldbank.org/indicator/IQ.SCI.OVRL?locations=BR](https://data.worldbank.org/indicator/IQ.SCI.OVRL?locations=BR) | |
Contexto: | |
- [Técnicos do IBGE questionam corte no Censo](https://www1.folha.uol.com.br/mercado/2019/05/tecnicos-do-ibge-questionam-corte-no-censo.shtml) | |
- [IBGE prepara corte de 25% no orçamento do Censo 2020](https://www.valor.com.br/brasil/6203807/ibge-prepara-corte-de-25-no-orcamento-do-censo-2020) | |
Baixe o csv e coloque no diretório correto. Com o `read.csv` conseguimos retirar as linhas da tabela que contém metadados, sobrando apenas a tabela com os dados. | |
```{r} | |
d <- read.csv("API_IQ.SCI.OVRL_DS2_en_csv_v2_10580560.csv", header = T, skip = 3) | |
``` | |
Essa é a parte de limpeza e organização do dataset, para que possamos organizá-lo melhor, usando a função `gather()`, do pacote tydr, na qual agruparemos os anos sob uma mesma coluna, removendo todos os pontos sem ocorrências de valores com `na.rm = TRUE`. | |
Depois aplicaremos uma limpeza para arrumar as datas no formato certo e arredondar os números. | |
```{r} | |
d <- d %>% | |
gather(ano, valor, 5:64, na.rm = TRUE) | |
d$ano <- gsub("\\X", "", d$ano) | |
d$ano <- as.Date(as.Date(paste0(d$ano, '-01-01'))) | |
d$valor <- round(d$valor, digits = 1) | |
#coloca uma coluna com categoria pra diferenciar o Brasil, pra ficar mais fácil plotar o gráfico com destaque | |
d$grupo <- ifelse(d$Country.Code == "BRA", "Brasil", "comparativo") | |
``` | |
Vamos agora selecionar apenas os países e regiões que queremos. Para isso, é melhor usar os códigos de três caracteres para cada um. Vamos analisar aqui, além de Brasil (BRA), o Chile (CHL), México (MEX), a China (CHN), e também grupos de países - a América Latina e Caribe (TLA) e países menos desenvolvidos (LDC). | |
Lamentavelmente, não há esse dado para os EUA nesse dataset para compararmos. | |
```{r} | |
d %>% | |
select(Country.Name, Country.Code, ano, valor, grupo) %>% | |
#filter(Country.Code == 'BRA' & Country.Code == 'CHL' & Country.Code == 'MEX' & Country.Code == 'CHN' & Country.Code == 'TLA' & Country.Code == 'LDC' & Country.Code == 'TEC' ) %>% | |
filter(Country.Code %in% c("BRA", "CHL", "MEX", "CHN", "TLA", "LDC" )) %>% | |
ggplot(aes(ano, valor, group=Country.Code, color = grupo, label=Country.Code)) + | |
geom_line(size=0.7, show.legend = FALSE) + | |
scale_fill_manual(values=c("#386cb0","#B80062")) + | |
geom_dl(stat = "identity", position = "identity", | |
method = list(dl.trans(x = x + 0.2, y = y + 0), "last.points", cex = .8, fontfamily="Inconsolata")) + | |
labs (x="", y = "Índice", | |
title = "Capacidade estatística Brasileira (2004 a 2018)", | |
subtitle ="Colocação do Brasil em índice de capacidade estatística do Banco Mundial, calculado a partir de uma série\nde critériose três dimensões principais: Disponibilidade de dados, Coleta de dados e Prática\nNOTA:América Latina e Caribe (TLA) e países menos desenvolvidos (LDC)", | |
caption = "Fonte: Banco Mundial", | |
colour = "") + | |
theme(plot.margin = unit(c(1,1,1,1), "cm")) + | |
theme(strip.background = element_rect()) | |
``` |
Sign up for free
to join this conversation on GitHub.
Already have an account?
Sign in to comment