This script connects to a CKAN API and, for all available datasets, check URLs of all resources to identify the ones that are not available.
pip install scrapy| import json | |
| from urllib.request import urlopen | |
| import rows | |
| cnpjs = [ | |
| "00184878000124", | |
| "01133144000189", | |
| "01754020000110", |
Após converter os dados de sócios das empresas brasileiras disponíveis no site da Receita Federal com o script socios-brasil, constatei que as colunas referentes à nacionalidade dos sócios está incorreta, dado que o esperado é que tenhamos mais sócios com nacionalidade brasileira e o Brasil está na posição 65 do ranking, com apenas 12.465 registros.
| Olá, como vai? | |
| Todos os dados disponíveis na plataforma Brasil.IO são dados públicos, | |
| ou seja, dados que foram disponibilizados por órgãos do governo e | |
| estão disponíveis sob uma licença que *permite redistribuição por | |
| qualquer pessoa e uso para qualquer finalidade*. Esses dados já | |
| estavam disponíveis nos sites dos órgãos responsáveis por conta | |
| da Lei de Acesso à Informação[1] e seus decretos[2][3], ou seja, | |
| qualquer cidadão com acesso à Internet já conseguiria acessá-los | |
| legalmente - o que fizemos foi apenas disponibilizá-los com uma |
| +-----------------------+----------------------------------+ | |
| | nome | endereco | | |
| +-----------------------+----------------------------------+ | |
| | José da Silva | Rua dos Bobos, 0 | |
| Cidade Fantasma | | |
| | José Maria | |
| (Zé Maria) | R. XPTO, 1 | | |
| +-----------------------+----------------------------------+ |
| from collections import OrderedDict | |
| import rows | |
| class BrazilianMoneyField(rows.fields.DecimalField): | |
| """Parser for money in Brazilian notation | |
| "1.234,56" -> Decimal("1234.56") | |
| """ |
| # pip install splinter | |
| from splinter import Browser | |
| def get_info(document): | |
| browser = Browser("chrome") | |
| browser.visit("https://www.situacaocadastral.com.br/") | |
| input_doc = browser.find_by_xpath("//input[@id = 'doc']").first | |
| input_doc.fill(document) | |
| button_submit = browser.find_by_xpath("//input[@type = 'submit']").first |
| estado | municipio | habitantes | area | |
|---|---|---|---|---|
| AC | Acrelândia | 12538 | 1807.92 | |
| AC | Assis Brasil | 6072 | 4974.18 | |
| AC | Brasiléia | 21398 | 3916.5 | |
| AC | Bujari | 8471 | 3034.87 | |
| AC | Capixaba | 8798 | 1702.58 | |
| AC | Cruzeiro do Sul | 78507 | 8779.39 | |
| AC | Epitaciolândia | 15100 | 1654.77 | |
| AC | Feijó | 32412 | 27974.89 | |
| AC | Jordão | 6577 | 5357.28 |
| # Dependencies: | |
| # - Python 3.6+ | |
| # - pip install pymupdf git+https://github.com/turicas/rows.git@develop#egg=rows | |
| # Usage: | |
| # - python balneabilidade_sc.py doc.pdf doc.csv | |
| import re | |
| import fitz | |
| import rows |