Skip to content

Instantly share code, notes, and snippets.

@sirex
Created July 30, 2019 15:19
Show Gist options
  • Save sirex/5074304e13310563d12fe698bba34d46 to your computer and use it in GitHub Desktop.
Save sirex/5074304e13310563d12fe698bba34d46 to your computer and use it in GitHub Desktop.
Registrų centro nekilnojamojo turto atvirų duomenų apžvalga
Display the source blob
Display the rendered blob
Raw
{
"cells": [
{
"cell_type": "markdown",
"metadata": {},
"source": [
"# Registrų centras atveria duomenis\n",
"\n",
"[2019-07-30 Registrtų centras atvėrė primuosius duomenų rinkinius](https://www.registrucentras.lt/naujienos/index.php?mod=news&act=view&id=41765).\n",
"\n",
"Nursprendžiau peržiūrėti kokius duomenis registrų centras atvėrė. Atvirų duomenų katalogą galima rasti čia:\n",
"\n",
"https://www.registrucentras.lt/atviri_duomenys/\n",
"\n",
"Kol kas kataloge yra tik Nekilnojamojo turto įregistruoti objektai. Kartu su duomenimis pateikiama duomenų apžvalga ir statistika, tačiau mane labiausiai domina pirminiai „žali duomenys“. Turėdamas žalius duomenis visas mane dominančias statistikas galėsiu susiskaičiuoti pats. Pirminių duomenų skyriuje galima rasti duomenis apie žemės sklypus ir pastatus. Bandau žiūrėti į pastatų duomenis:\n",
"\n",
"https://www.registrucentras.lt/p/1091\n",
"\n",
"Deja nėra galimybės atsisiųsti visų duomenų vienu kartu, duomenys suskaidyti į atskirus failus, pagal savivaldybes. Iš esmės skaidymas nėra labai blogas dalykas, su sąlyga, jei yra pateiktas atskiras savivaldybių sąrašas iš kurio galėčiau susigeneruoti nuorodas į visus kitus duomenų failus, bet to nėra.\n",
"\n",
"Registrų centras kviečia visas problemas pranešti el. paštu [email protected], tačiau man labiau patinka atviras bendravimas, todėl visas problemas pirmiausiai registruosiu į atvirų duomenų bendruomenės užduočių sąrašą, o tada parašysiu laišką Registrų centrui su nuorodomis į užduotis. Gali būti, kad su tomis pačiomis problemomis susiduria ir kiti žmonės, todėl visada geriau turėti bendrai naudojamą ir visiems matomą užduočių sąrašą.\n",
"\n",
"Pirmoji problema apie sunkiai prieinamas nuorodas užregistruota čia:\n",
"\n",
"https://gitlab.com/atviriduomenys/manifest/issues/766\n",
"\n",
"Kadangi atskiro sąrašo su nurodomis į visus duomenų failus nėra, teks jas traukti iš registrų centro svetainės HTML kodo, kas yra labai nepatogu. Kaip tai daroma galite matyti žemiau:"
]
},
{
"cell_type": "code",
"execution_count": 1,
"metadata": {},
"outputs": [],
"source": [
"%matplotlib inline"
]
},
{
"cell_type": "code",
"execution_count": 106,
"metadata": {},
"outputs": [],
"source": [
"import pandas as pd\n",
"import requests\n",
"import lxml.html\n",
"import re"
]
},
{
"cell_type": "code",
"execution_count": 175,
"metadata": {},
"outputs": [
{
"data": {
"text/plain": [
"[\n",
" 'https://www.registrucentras.lt/aduomenys/?byla=statiniai_Akmenes_r_sav.csv',\n",
" 'https://www.registrucentras.lt/aduomenys/?byla=statiniai_Alytaus_m_sav.csv',\n",
" 'https://www.registrucentras.lt/aduomenys/?byla=statiniai_Alytaus_r_sav.csv',\n",
"]"
]
},
"execution_count": 175,
"metadata": {},
"output_type": "execute_result"
}
],
"source": [
"resp = requests.get('https://www.registrucentras.lt/p/1091')\n",
"ns = {'re': 'http://exslt.org/regular-expressions'}\n",
"html = lxml.html.fromstring(resp.content)\n",
"html.make_links_absolute(resp.url)\n",
"nuorodos = html.xpath('//a[re:match(@href, \"statiniai_.*_sav.csv\")]/@href', namespaces=ns)\n",
"nuorodos[:3]"
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"Tikiuosi Registrų Centras nesugalvos atnaujinti savo svetainės, nes tada toks duomenų paėmimas nustos veikti.\n",
"\n",
"Kai jau yra visos nuorodos galima atsisiųsti visus duomenis ir juos sujungti:"
]
},
{
"cell_type": "code",
"execution_count": 177,
"metadata": {},
"outputs": [],
"source": [
"df = pd.concat([\n",
" pd.read_csv(nuoroda, encoding='UTF-16', decimal=',', low_memory=False)\n",
" for nuoroda in nuorodos\n",
"])"
]
},
{
"cell_type": "code",
"execution_count": 178,
"metadata": {},
"outputs": [
{
"name": "stdout",
"output_type": "stream",
"text": [
"Eilučių skaičius: 2,579,668\n",
"Stulpelių skaičius: 42\n",
"Naudojama atmintis: 846 MB\n"
]
}
],
"source": [
"print(f'Eilučių skaičius: {df.shape[0]:>10,}')\n",
"print(f'Stulpelių skaičius: {df.shape[1]:>10}')\n",
"print('Naudojama atmintis: %10s MB' % f'{df.memory_usage().sum() / 1024 / 1024:.0f}')"
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"Štai, turiu visų savivaldybiu failus apjungtus į vieną duomenų lentelę. Viso lentelėje yra daugiau kaip 2 milijonai įrašų ir tai užima 846 MB atmintis.\n",
"\n",
"Tačiau užkrauti duomenis nebuvo taip paprasta, pasirodo atiduodant CSV failus nurodyta bloga koduotė, teko spėlioti kokia yra teisinga koduotė, kol galiausiai pavyko išsiaiškinti, kad tai yra `UTF-16`. Įdomu kodėl naudojam `UTF-16`, o ne `UTF-8`? Bet kokiu atveju, užregistravau klaidos pranešimą:\n",
"\n",
"https://gitlab.com/atviriduomenys/manifest/issues/767\n",
"\n",
"Dar kilo problemų dėl kablelių. Duomenyse sveikoji nuo trupmeninės atskirata kableliais, nors Python Pandas pagal nutylėjimą tikise, kad trupmeninė dalis bus atskirta tašku.\n",
"\n",
"Toliau bandom žiūrėti pirmiausia į duomenų sturktūrą:"
]
},
{
"cell_type": "code",
"execution_count": 135,
"metadata": {},
"outputs": [
{
"name": "stdout",
"output_type": "stream",
"text": [
"<class 'pandas.core.frame.DataFrame'>\n",
"Int64Index: 2579668 entries, 0 to 33864\n",
"Data columns (total 42 columns):\n",
"sav_pavadinimas 2579668 non-null object\n",
"seniunijos_pavad 2579668 non-null object\n",
"statinio_kategorija 286067 non-null float64\n",
"obje_tipas 2579668 non-null int64\n",
"pask_tipas 2579668 non-null int64\n",
"atr_uzstatytas_plotas 2579668 non-null float64\n",
"bendras_plotas 2579668 non-null float64\n",
"naudingas_plotas 576600 non-null object\n",
"gyv_plotas 2579668 non-null float64\n",
"verslo_plotas 9387 non-null object\n",
"pagalb_nenaud_plotas 306195 non-null object\n",
"pagalb_naud_plotas 565333 non-null object\n",
"rusiu_plotas 193165 non-null object\n",
"garazu_plotas 88736 non-null object\n",
"patalpu_kaip_atsir_nt_skaicius 2952 non-null float64\n",
"gyv_pask_patalpu_sk 362983 non-null float64\n",
"pastato_energ_naud_klase 97868 non-null float64\n",
"aukstu_skaicius 2579668 non-null int64\n",
"stat_pradzios_metai 930452 non-null float64\n",
"stat_pabaigos_metai 2579487 non-null float64\n",
"modern_pradzios_metai 846 non-null float64\n",
"modern_pabaigos_metai 834 non-null float64\n",
"sildymas 1779132 non-null float64\n",
"vandentiekis 1615672 non-null float64\n",
"nuoteku_salinimas 1610198 non-null float64\n",
"dujos 1529442 non-null float64\n",
"karstas_vanduo 557379 non-null float64\n",
"elektra 1988474 non-null float64\n",
"virykle 634133 non-null float64\n",
"vonios_kambarys 507900 non-null float64\n",
"vedin_kondicionav 426791 non-null float64\n",
"pamatai 2467065 non-null float64\n",
"sienos 2577453 non-null float64\n",
"stogo_konstrukcija 2122247 non-null float64\n",
"stogo_danga 2564187 non-null float64\n",
"perdanga 1968841 non-null float64\n",
"isores_apdaila 1401392 non-null float64\n",
"vidaus_apdaila 692296 non-null float64\n",
"pertvaros 1649423 non-null float64\n",
"grindys 1870926 non-null float64\n",
"langai 1718073 non-null float64\n",
"durys 2155202 non-null float64\n",
"dtypes: float64(31), int64(3), object(8)\n",
"memory usage: 846.3+ MB\n"
]
}
],
"source": [
"df.info(null_counts=True)"
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"Deje nėra globalaus identifikatoriaus. Kadangi tai yra oficialus NTR registras, tai yra vienintelis tiesos šaltinis, į kurį turėtų rodyti visi kiti duomenų rinkiniai. Tačiau jei nepateikiamas oficialus kiekvieno pastato identifikatorius, tai šie duomenys praranda daug vertės.\n",
"\n",
"Greičiausiai identifikatorius nepateikiamas dėl to, kad pastatas gali būti susijęs su asmens duomenimis. Nors jei imti atskirą lentelę, kurioje būtų pastato globalus identifikatorius ir tarkim koordinatės, tai neturėtų niekaip sietis su asmeniu.\n",
"\n",
"Užregistravau šį pageidavimą/pasiteiravimą:\n",
"\n",
"https://gitlab.com/atviriduomenys/manifest/issues/768\n",
"\n",
"Taip pat nėra savivaldybės ir seniūnijos identifikatorių. Registrų centras valdo adresų registrą, todėl turi tiek savivaldybių, tiek seniūnijų identifikatorius, kurie galėtų būti įtraukti į šią lentelę. Užregistravau pageidavimą:\n",
"\n",
"https://gitlab.com/atviriduomenys/manifest/issues/769\n",
"\n",
"Yra pateiktos instrukcijos, kaip atsidaryti duomenis skaičiuoklės programoje, bet nepaaiškinta kaip sujungti duomenis su klasifikatoriais. Pavyzdžiui, kaip sužinoti, ką reiškai `obje_tipas` skaičiai?"
]
},
{
"cell_type": "code",
"execution_count": 179,
"metadata": {},
"outputs": [
{
"data": {
"text/plain": [
"28 1763610\n",
"20 561100\n",
"22 170858\n",
"26 66112\n",
"24 17988\n",
"Name: obje_tipas, dtype: int64"
]
},
"execution_count": 179,
"metadata": {},
"output_type": "execute_result"
}
],
"source": [
"df['obje_tipas'].value_counts()"
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"Turiu įtarimą, kad tie skaičiai ateina iš šios lentelės (kuri pateikta [atskirai](https://www.registrucentras.lt/p/92)):"
]
},
{
"cell_type": "code",
"execution_count": 145,
"metadata": {},
"outputs": [],
"source": [
"tipai = pd.read_csv('https://www.registrucentras.lt/aduomenys/?byla=klas_NTR_objektu_tipai.csv', index_col='obje_tipas', encoding='UTF-16')"
]
},
{
"cell_type": "code",
"execution_count": 160,
"metadata": {},
"outputs": [
{
"data": {
"text/html": [
"<div>\n",
"<style scoped>\n",
" .dataframe tbody tr th:only-of-type {\n",
" vertical-align: middle;\n",
" }\n",
"\n",
" .dataframe tbody tr th {\n",
" vertical-align: top;\n",
" }\n",
"\n",
" .dataframe thead th {\n",
" text-align: right;\n",
" }\n",
"</style>\n",
"<table border=\"1\" class=\"dataframe\">\n",
" <thead>\n",
" <tr style=\"text-align: right;\">\n",
" <th></th>\n",
" <th>obje_pav</th>\n",
" <th>viso</th>\n",
" </tr>\n",
" </thead>\n",
" <tbody>\n",
" <tr>\n",
" <th>28</th>\n",
" <td>Pagalbinis pastatas</td>\n",
" <td>1763610</td>\n",
" </tr>\n",
" <tr>\n",
" <th>20</th>\n",
" <td>Gyvenamas pastatas</td>\n",
" <td>561100</td>\n",
" </tr>\n",
" <tr>\n",
" <th>22</th>\n",
" <td>Negyvenamas pastatas</td>\n",
" <td>170858</td>\n",
" </tr>\n",
" <tr>\n",
" <th>26</th>\n",
" <td>Sodo pastatas</td>\n",
" <td>66112</td>\n",
" </tr>\n",
" <tr>\n",
" <th>24</th>\n",
" <td>Mišrus pastatas</td>\n",
" <td>17988</td>\n",
" </tr>\n",
" </tbody>\n",
"</table>\n",
"</div>"
],
"text/plain": [
" obje_pav viso\n",
"28 Pagalbinis pastatas 1763610\n",
"20 Gyvenamas pastatas 561100\n",
"22 Negyvenamas pastatas 170858\n",
"26 Sodo pastatas 66112\n",
"24 Mišrus pastatas 17988"
]
},
"execution_count": 160,
"metadata": {},
"output_type": "execute_result"
}
],
"source": [
"pd.concat([df['obje_tipas'].value_counts().rename('viso'), tipai], axis=1, join='inner')[['obje_pav', 'viso']]"
]
},
{
"cell_type": "code",
"execution_count": 166,
"metadata": {},
"outputs": [
{
"data": {
"image/png": "\n",
"text/plain": [
"<Figure size 1152x144 with 1 Axes>"
]
},
"metadata": {
"needs_background": "light"
},
"output_type": "display_data"
}
],
"source": [
"pd.concat([df['obje_tipas'].value_counts().rename('viso'), tipai], axis=1, join='inner').set_index('obje_pav')[['viso']].plot.barh(figsize=(16, 2), grid=True);"
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"Panašu, kad taip.\n",
"\n",
"Duomenų pateikimas nėra labai paprastas, tačiau sugaišus šiek tiek laiko pavyko juos „atsidaryti“. Dabar bandysiu pasiskaičiuoti kokias nors statistikas.\n",
"\n",
"Įdomu kokiose savivaldybėse daugiausia pastatų, top 10 savivaldybių, pagal pastatų skaičių:"
]
},
{
"cell_type": "code",
"execution_count": 167,
"metadata": {},
"outputs": [
{
"data": {
"image/png": "\n",
"text/plain": [
"<Figure size 1152x288 with 1 Axes>"
]
},
"metadata": {
"needs_background": "light"
},
"output_type": "display_data"
}
],
"source": [
"df['sav_pavadinimas'].value_counts()[:10].plot.barh(figsize=(16, 4), grid=True);"
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"O kaip dėl seniniūnijų top 10, pagal pastatų skaičių?"
]
},
{
"cell_type": "code",
"execution_count": 168,
"metadata": {},
"outputs": [
{
"data": {
"image/png": "\n",
"text/plain": [
"<Figure size 1152x288 with 1 Axes>"
]
},
"metadata": {
"needs_background": "light"
},
"output_type": "display_data"
}
],
"source": [
"df['seniunijos_pavad'].value_counts()[:10].plot.barh(figsize=(16, 4), grid=True);"
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"Hm įdomu, Kaune yra daugiau pastatų, nei vilniuje. O jei imčiau tik gyvenamuosius pastatus?"
]
},
{
"cell_type": "code",
"execution_count": 169,
"metadata": {},
"outputs": [
{
"data": {
"image/png": "\n",
"text/plain": [
"<Figure size 1152x288 with 1 Axes>"
]
},
"metadata": {
"needs_background": "light"
},
"output_type": "display_data"
}
],
"source": [
"df[df['obje_tipas'] == 20]['seniunijos_pavad'].value_counts()[:10].plot.barh(figsize=(16, 4), grid=True);"
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"Arba aš kažką ne taip darau, arba Panevėžyje yra daugiausiai gyenamūjų pastatų. Nors klausimas kas yra „Vilniaus m.“, ar tai tikrai seniūnija? Nes yra „Naujosios Vilnios sen.“, kas yra Vilniaus miesto mikro rajonas. Ir kuo skiriasi „Anykščių m.“, nuo „Anykščių sen.“? Abu yra užvadinti kaip `seniunijos_pavad`.\n",
"\n",
"Bandau žiūrėti pagal gyvenamąjį plotą:"
]
},
{
"cell_type": "code",
"execution_count": 174,
"metadata": {},
"outputs": [
{
"data": {
"image/png": "\n",
"text/plain": [
"<Figure size 1152x288 with 1 Axes>"
]
},
"metadata": {
"needs_background": "light"
},
"output_type": "display_data"
}
],
"source": [
"df.groupby('seniunijos_pavad')['gyv_plotas'].count().sort_values(ascending=False).head(10).plot.barh(figsize=(16, 4), grid=True);"
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"Vėl Kaunas pirmauja.\n",
"\n",
"Deja nėra koordinačių, kurių pagalba būtų galima iš duomenų gauti žymiai daugiau naudos, būtų galima daryti vizualizacija žemėlapyje, nes vis dėl to nekilnojamas tirtas yra labai susijęs su vieta žemėlapyje.\n",
"\n",
"Teoriškai, būtų galima daryti vizualizaciją žemėlapyje pagal savivaldybes, bet tada reikia iš kažkur gauti seniūnijų erdvinius duomenis, kurie kartu su NTR nepateikiami. O kadangi NTR neturi seniūnijų identifikatorių, tai net jei ir būtų kažkur erdviniai seniūnijų duomenys, juos tikriausiai būtų sunku sujungti.\n",
"\n",
"Bandau paskutinį klausimą, kiek Lietuvoje yra gyvenamųjų pastatų, be vandatiekio?\n",
"\n",
"Pirmiausiai žiūrim į lauką vandantiekis:"
]
},
{
"cell_type": "code",
"execution_count": 180,
"metadata": {},
"outputs": [
{
"data": {
"text/plain": [
"0.0 1148528\n",
"1.0 251873\n",
"2.0 214891\n",
"3.0 379\n",
"4.0 1\n",
"Name: vandentiekis, dtype: int64"
]
},
"execution_count": 180,
"metadata": {},
"output_type": "execute_result"
}
],
"source": [
"df['vandentiekis'].value_counts()"
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"Vandentiokio laukas konvertuotas į foat tipą, nes greičiausiai ne visi pastatai turi toki1 reikšmą, žiūrim:"
]
},
{
"cell_type": "code",
"execution_count": 190,
"metadata": {},
"outputs": [
{
"name": "stdout",
"output_type": "stream",
"text": [
"62.63%\n"
]
}
],
"source": [
"print('%.2f%%' % ((~df[['vandentiekis']].isnull()).sum() / df.shape[0] * 100))"
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"Tik 67% procentai pastatų turi duomenis apie vandentiekį, įdomu ką gaučiau, jei skaičiuočiau tik gyvenamuosius pastatus."
]
},
{
"cell_type": "code",
"execution_count": 199,
"metadata": {},
"outputs": [
{
"name": "stdout",
"output_type": "stream",
"text": [
"82.82%\n"
]
}
],
"source": [
"gyvenamieji_kodas, = tipai[tipai['obje_pav'] == 'Gyvenamas pastatas'].index\n",
"gyvenamieji = df[df['obje_tipas'] == gyvenamieji_kodas]\n",
"print('%.2f%%' % ((~gyvenamieji[['vandentiekis']].isnull()).sum() / gyvenamieji.shape[0] * 100))"
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"Šiek tiek geriau, bet vis dar mažokai informacijos. Įdomu, kodėl beveik 20% pastatų neturi duomenų apie vandentikė. Na, bet kiek duomenų yra, tiek užteks.\n",
"\n",
"Skaičiuojam toliau. Kaip sužinoti, ką reiškia vandentiekio kodai 0, 1, 2, 3, 4? Turiu įtarimą, kad tai galima išsiaiškinti per atributų klasifikatorius, bandau..."
]
},
{
"cell_type": "code",
"execution_count": 209,
"metadata": {},
"outputs": [
{
"name": "stdout",
"output_type": "stream",
"text": [
"<class 'pandas.core.frame.DataFrame'>\n",
"RangeIndex: 254 entries, 0 to 253\n",
"Data columns (total 12 columns):\n",
"atri_kodas 254 non-null int64\n",
"atrt_tipas 254 non-null int64\n",
"atri_pav 254 non-null object\n",
"atri_pav_i 254 non-null object\n",
"atri_eilnr 254 non-null int64\n",
"vien_kodas 93 non-null float64\n",
"atri_koef 2 non-null object\n",
"atri_poz 254 non-null int64\n",
"atri_formatas 84 non-null object\n",
"atri_koregavimo_data 254 non-null object\n",
"atri_pav_en 254 non-null object\n",
"atri_pav_i_en 254 non-null object\n",
"dtypes: float64(1), int64(4), object(7)\n",
"memory usage: 23.9+ KB\n"
]
}
],
"source": [
"atributai = pd.read_csv('https://www.registrucentras.lt/aduomenys/?byla=klas_NTR_atributai.csv', encoding='UTF-16')\n",
"atributai.info()"
]
},
{
"cell_type": "code",
"execution_count": 206,
"metadata": {},
"outputs": [
{
"data": {
"text/html": [
"<div>\n",
"<style scoped>\n",
" .dataframe tbody tr th:only-of-type {\n",
" vertical-align: middle;\n",
" }\n",
"\n",
" .dataframe tbody tr th {\n",
" vertical-align: top;\n",
" }\n",
"\n",
" .dataframe thead th {\n",
" text-align: right;\n",
" }\n",
"</style>\n",
"<table border=\"1\" class=\"dataframe\">\n",
" <thead>\n",
" <tr style=\"text-align: right;\">\n",
" <th></th>\n",
" <th>atri_kodas</th>\n",
" <th>atrt_tipas</th>\n",
" <th>atri_pav</th>\n",
" <th>atri_pav_i</th>\n",
" <th>atri_eilnr</th>\n",
" <th>vien_kodas</th>\n",
" <th>atri_koef</th>\n",
" <th>atri_poz</th>\n",
" <th>atri_formatas</th>\n",
" <th>atri_koregavimo_data</th>\n",
" <th>atri_pav_en</th>\n",
" <th>atri_pav_i_en</th>\n",
" </tr>\n",
" </thead>\n",
" <tbody>\n",
" <tr>\n",
" <th>7</th>\n",
" <td>8</td>\n",
" <td>1</td>\n",
" <td>Vandentiekis:</td>\n",
" <td>Vandentiekis:</td>\n",
" <td>1060</td>\n",
" <td>NaN</td>\n",
" <td>NaN</td>\n",
" <td>1</td>\n",
" <td>NaN</td>\n",
" <td>2006-07-04 08:33:55.0</td>\n",
" <td>Water supply:</td>\n",
" <td>Water supply:</td>\n",
" </tr>\n",
" </tbody>\n",
"</table>\n",
"</div>"
],
"text/plain": [
" atri_kodas atrt_tipas atri_pav atri_pav_i atri_eilnr \\\n",
"7 8 1 Vandentiekis: Vandentiekis: 1060 \n",
"\n",
" vien_kodas atri_koef atri_poz atri_formatas atri_koregavimo_data \\\n",
"7 NaN NaN 1 NaN 2006-07-04 08:33:55.0 \n",
"\n",
" atri_pav_en atri_pav_i_en \n",
"7 Water supply: Water supply:"
]
},
"execution_count": 206,
"metadata": {},
"output_type": "execute_result"
}
],
"source": [
"atributai[atributai['atri_pav'].str.contains('vandentiekis', case=False)]"
]
},
{
"cell_type": "code",
"execution_count": 210,
"metadata": {},
"outputs": [
{
"name": "stdout",
"output_type": "stream",
"text": [
"<class 'pandas.core.frame.DataFrame'>\n",
"RangeIndex: 824 entries, 0 to 823\n",
"Data columns (total 8 columns):\n",
"atri_kodas 824 non-null int64\n",
"reik_reiksme 824 non-null int64\n",
"reik_pav 824 non-null object\n",
"reik_pav_i 824 non-null object\n",
"reik_koregavimo_data 824 non-null object\n",
"reik_naudojama 824 non-null int64\n",
"reik_pav_en 824 non-null object\n",
"reik_pav_i_en 824 non-null object\n",
"dtypes: int64(3), object(5)\n",
"memory usage: 51.6+ KB\n"
]
}
],
"source": [
"atributu_reiksmes = pd.read_csv('https://www.registrucentras.lt/aduomenys/?byla=klas_NTR_atributu_reiksmes.csv', encoding='UTF-16')\n",
"atributu_reiksmes.info()"
]
},
{
"cell_type": "code",
"execution_count": 211,
"metadata": {},
"outputs": [
{
"data": {
"text/html": [
"<div>\n",
"<style scoped>\n",
" .dataframe tbody tr th:only-of-type {\n",
" vertical-align: middle;\n",
" }\n",
"\n",
" .dataframe tbody tr th {\n",
" vertical-align: top;\n",
" }\n",
"\n",
" .dataframe thead th {\n",
" text-align: right;\n",
" }\n",
"</style>\n",
"<table border=\"1\" class=\"dataframe\">\n",
" <thead>\n",
" <tr style=\"text-align: right;\">\n",
" <th></th>\n",
" <th>atri_kodas</th>\n",
" <th>reik_reiksme</th>\n",
" <th>reik_pav</th>\n",
" <th>reik_pav_i</th>\n",
" <th>reik_koregavimo_data</th>\n",
" <th>reik_naudojama</th>\n",
" <th>reik_pav_en</th>\n",
" <th>reik_pav_i_en</th>\n",
" </tr>\n",
" </thead>\n",
" <tbody>\n",
" <tr>\n",
" <th>172</th>\n",
" <td>8</td>\n",
" <td>2</td>\n",
" <td>Vietinis vandentiekis</td>\n",
" <td>Vietinis vandentiekis</td>\n",
" <td>2014-10-21 14:25:28.0</td>\n",
" <td>1</td>\n",
" <td>Local water supply</td>\n",
" <td>Local water supply</td>\n",
" </tr>\n",
" <tr>\n",
" <th>173</th>\n",
" <td>8</td>\n",
" <td>0</td>\n",
" <td>Nėra</td>\n",
" <td>Nėra</td>\n",
" <td>2014-10-21 14:25:28.0</td>\n",
" <td>1</td>\n",
" <td>No</td>\n",
" <td>No</td>\n",
" </tr>\n",
" <tr>\n",
" <th>174</th>\n",
" <td>8</td>\n",
" <td>1</td>\n",
" <td>Komunalinis vandentiekis</td>\n",
" <td>Komunalinis vandentiekis</td>\n",
" <td>2014-10-21 14:25:28.0</td>\n",
" <td>1</td>\n",
" <td>Water supply by public utility</td>\n",
" <td>Water supply by public utility</td>\n",
" </tr>\n",
" <tr>\n",
" <th>175</th>\n",
" <td>8</td>\n",
" <td>3</td>\n",
" <td>!!!Miesto ir vietinio kombinac</td>\n",
" <td>Miesto ir vietinio vandentiekio kombinacija</td>\n",
" <td>2014-10-21 14:25:28.0</td>\n",
" <td>0</td>\n",
" <td>Distr.&amp;local watersupply comb.</td>\n",
" <td>Combination of district and local water supply</td>\n",
" </tr>\n",
" <tr>\n",
" <th>176</th>\n",
" <td>8</td>\n",
" <td>4</td>\n",
" <td>!!!Komunalinis vandentiekis</td>\n",
" <td>Komunalinis vandentiekis</td>\n",
" <td>2014-10-21 14:25:28.0</td>\n",
" <td>0</td>\n",
" <td>Water supply by public utility</td>\n",
" <td>Water supply by public utility</td>\n",
" </tr>\n",
" </tbody>\n",
"</table>\n",
"</div>"
],
"text/plain": [
" atri_kodas reik_reiksme reik_pav \\\n",
"172 8 2 Vietinis vandentiekis \n",
"173 8 0 Nėra \n",
"174 8 1 Komunalinis vandentiekis \n",
"175 8 3 !!!Miesto ir vietinio kombinac \n",
"176 8 4 !!!Komunalinis vandentiekis \n",
"\n",
" reik_pav_i reik_koregavimo_data \\\n",
"172 Vietinis vandentiekis 2014-10-21 14:25:28.0 \n",
"173 Nėra 2014-10-21 14:25:28.0 \n",
"174 Komunalinis vandentiekis 2014-10-21 14:25:28.0 \n",
"175 Miesto ir vietinio vandentiekio kombinacija 2014-10-21 14:25:28.0 \n",
"176 Komunalinis vandentiekis 2014-10-21 14:25:28.0 \n",
"\n",
" reik_naudojama reik_pav_en \\\n",
"172 1 Local water supply \n",
"173 1 No \n",
"174 1 Water supply by public utility \n",
"175 0 Distr.&local watersupply comb. \n",
"176 0 Water supply by public utility \n",
"\n",
" reik_pav_i_en \n",
"172 Local water supply \n",
"173 No \n",
"174 Water supply by public utility \n",
"175 Combination of district and local water supply \n",
"176 Water supply by public utility"
]
},
"execution_count": 211,
"metadata": {},
"output_type": "execute_result"
}
],
"source": [
"atributu_reiksmes[atributu_reiksmes['atri_kodas'] == 8]"
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"Aha, paanšu, kad man reikalingas laukas yra `reik_reiksme`, bandau apjungi ir žiūrim kas gausis:"
]
},
{
"cell_type": "code",
"execution_count": 217,
"metadata": {},
"outputs": [
{
"data": {
"text/html": [
"<div>\n",
"<style scoped>\n",
" .dataframe tbody tr th:only-of-type {\n",
" vertical-align: middle;\n",
" }\n",
"\n",
" .dataframe tbody tr th {\n",
" vertical-align: top;\n",
" }\n",
"\n",
" .dataframe thead th {\n",
" text-align: right;\n",
" }\n",
"</style>\n",
"<table border=\"1\" class=\"dataframe\">\n",
" <thead>\n",
" <tr style=\"text-align: right;\">\n",
" <th></th>\n",
" <th>vandentiekis</th>\n",
" <th>reik_pav</th>\n",
" </tr>\n",
" </thead>\n",
" <tbody>\n",
" <tr>\n",
" <th>0</th>\n",
" <td>1148528</td>\n",
" <td>Nėra</td>\n",
" </tr>\n",
" <tr>\n",
" <th>1</th>\n",
" <td>251873</td>\n",
" <td>Komunalinis vandentiekis</td>\n",
" </tr>\n",
" <tr>\n",
" <th>2</th>\n",
" <td>214891</td>\n",
" <td>Vietinis vandentiekis</td>\n",
" </tr>\n",
" <tr>\n",
" <th>3</th>\n",
" <td>379</td>\n",
" <td>!!!Miesto ir vietinio kombinac</td>\n",
" </tr>\n",
" <tr>\n",
" <th>4</th>\n",
" <td>1</td>\n",
" <td>!!!Komunalinis vandentiekis</td>\n",
" </tr>\n",
" </tbody>\n",
"</table>\n",
"</div>"
],
"text/plain": [
" vandentiekis reik_pav\n",
"0 1148528 Nėra\n",
"1 251873 Komunalinis vandentiekis\n",
"2 214891 Vietinis vandentiekis\n",
"3 379 !!!Miesto ir vietinio kombinac\n",
"4 1 !!!Komunalinis vandentiekis"
]
},
"execution_count": 217,
"metadata": {},
"output_type": "execute_result"
}
],
"source": [
"pd.concat(\n",
" [\n",
" df['vandentiekis'].dropna().astype(int).value_counts().rename('vandentiekis'),\n",
" atributu_reiksmes[atributu_reiksmes['atri_kodas'] == 8].set_index('reik_reiksme'),\n",
" ],\n",
" axis=1, join='inner',\n",
")[['vandentiekis', 'reik_pav']]"
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"Didžioji dalis pastatų neturi vandentiekio, dabar daro tą patį tik su gyvenamaisiais pastatais:"
]
},
{
"cell_type": "code",
"execution_count": 219,
"metadata": {},
"outputs": [
{
"data": {
"text/html": [
"<div>\n",
"<style scoped>\n",
" .dataframe tbody tr th:only-of-type {\n",
" vertical-align: middle;\n",
" }\n",
"\n",
" .dataframe tbody tr th {\n",
" vertical-align: top;\n",
" }\n",
"\n",
" .dataframe thead th {\n",
" text-align: right;\n",
" }\n",
"</style>\n",
"<table border=\"1\" class=\"dataframe\">\n",
" <thead>\n",
" <tr style=\"text-align: right;\">\n",
" <th></th>\n",
" <th>vandentiekis</th>\n",
" <th>reik_pav</th>\n",
" </tr>\n",
" </thead>\n",
" <tbody>\n",
" <tr>\n",
" <th>1</th>\n",
" <td>177902</td>\n",
" <td>Komunalinis vandentiekis</td>\n",
" </tr>\n",
" <tr>\n",
" <th>2</th>\n",
" <td>150894</td>\n",
" <td>Vietinis vandentiekis</td>\n",
" </tr>\n",
" <tr>\n",
" <th>0</th>\n",
" <td>135601</td>\n",
" <td>Nėra</td>\n",
" </tr>\n",
" <tr>\n",
" <th>3</th>\n",
" <td>322</td>\n",
" <td>!!!Miesto ir vietinio kombinac</td>\n",
" </tr>\n",
" </tbody>\n",
"</table>\n",
"</div>"
],
"text/plain": [
" vandentiekis reik_pav\n",
"1 177902 Komunalinis vandentiekis\n",
"2 150894 Vietinis vandentiekis\n",
"0 135601 Nėra\n",
"3 322 !!!Miesto ir vietinio kombinac"
]
},
"execution_count": 219,
"metadata": {},
"output_type": "execute_result"
}
],
"source": [
"frame = pd.concat(\n",
" [\n",
" gyvenamieji['vandentiekis'].dropna().astype(int).value_counts().rename('vandentiekis'),\n",
" atributu_reiksmes[atributu_reiksmes['atri_kodas'] == 8].set_index('reik_reiksme'),\n",
" ],\n",
" axis=1, join='inner',\n",
")[['vandentiekis', 'reik_pav']]\n",
"frame"
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"Verčiam į procentus:"
]
},
{
"cell_type": "code",
"execution_count": 222,
"metadata": {},
"outputs": [
{
"data": {
"text/html": [
"<div>\n",
"<style scoped>\n",
" .dataframe tbody tr th:only-of-type {\n",
" vertical-align: middle;\n",
" }\n",
"\n",
" .dataframe tbody tr th {\n",
" vertical-align: top;\n",
" }\n",
"\n",
" .dataframe thead th {\n",
" text-align: right;\n",
" }\n",
"</style>\n",
"<table border=\"1\" class=\"dataframe\">\n",
" <thead>\n",
" <tr style=\"text-align: right;\">\n",
" <th></th>\n",
" <th>reik_pav</th>\n",
" <th>vandentiekis</th>\n",
" <th>proc</th>\n",
" </tr>\n",
" </thead>\n",
" <tbody>\n",
" <tr>\n",
" <th>1</th>\n",
" <td>Komunalinis vandentiekis</td>\n",
" <td>177902</td>\n",
" <td>31.705935</td>\n",
" </tr>\n",
" <tr>\n",
" <th>2</th>\n",
" <td>Vietinis vandentiekis</td>\n",
" <td>150894</td>\n",
" <td>26.892533</td>\n",
" </tr>\n",
" <tr>\n",
" <th>0</th>\n",
" <td>Nėra</td>\n",
" <td>135601</td>\n",
" <td>24.166993</td>\n",
" </tr>\n",
" <tr>\n",
" <th>3</th>\n",
" <td>!!!Miesto ir vietinio kombinac</td>\n",
" <td>322</td>\n",
" <td>0.057387</td>\n",
" </tr>\n",
" </tbody>\n",
"</table>\n",
"</div>"
],
"text/plain": [
" reik_pav vandentiekis proc\n",
"1 Komunalinis vandentiekis 177902 31.705935\n",
"2 Vietinis vandentiekis 150894 26.892533\n",
"0 Nėra 135601 24.166993\n",
"3 !!!Miesto ir vietinio kombinac 322 0.057387"
]
},
"execution_count": 222,
"metadata": {},
"output_type": "execute_result"
}
],
"source": [
"frame['proc'] = frame['vandentiekis'] / gyvenamieji.shape[0] * 100\n",
"frame[['reik_pav', 'vandentiekis', 'proc']]"
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"Kagi, išvada aiški. Iš visų gyvenamųjų pastatų, kurių Lietuvoje viso yra tik:"
]
},
{
"cell_type": "code",
"execution_count": 224,
"metadata": {},
"outputs": [
{
"name": "stdout",
"output_type": "stream",
"text": [
"561,100\n"
]
}
],
"source": [
"print(f'{gyvenamieji.shape[0]:,}')"
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"Net 24% neturi vandentiekio. Tikriausiai toks procentas nelabai atspindi realybės, nes vienas kaimo namelis yra sulyginamas su daugiaukščiu pastatu, kuriame gyvana labai daug žmonių. Todėl būtų tiksliau skaičius normalizuoti pagal registruotų gyventojų skaičių pastate.\n",
"\n",
"O Registrų Centras daro labai gerą pažangą!"
]
}
],
"metadata": {
"kernelspec": {
"display_name": "Python 3",
"language": "python",
"name": "python3"
},
"language_info": {
"codemirror_mode": {
"name": "ipython",
"version": 3
},
"file_extension": ".py",
"mimetype": "text/x-python",
"name": "python",
"nbconvert_exporter": "python",
"pygments_lexer": "ipython3",
"version": "3.7.3"
}
},
"nbformat": 4,
"nbformat_minor": 2
}
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment