Last active
June 2, 2016 16:34
-
-
Save Cartman0/02205cbae0161ecffc105ff4a1c5d77b to your computer and use it in GitHub Desktop.
言語処理100本ノック 3章 正規表現 後半 25-
This file contains hidden or bidirectional Unicode text that may be interpreted or compiled differently than what appears below. To review, open the file in an editor that reveals hidden Unicode characters.
Learn more about bidirectional Unicode characters
{ | |
"cells": [ | |
{ | |
"metadata": { | |
"toc": "true" | |
}, | |
"cell_type": "markdown", | |
"source": "# Table of Contents\n <p><div class=\"lev1\"><a href=\"#3章後半-1\"><span class=\"toc-item-num\">1 </span>3章後半</a></div><div class=\"lev2\"><a href=\"#25.-テンプレートの抽出-1.1\"><span class=\"toc-item-num\">1.1 </span>25. テンプレートの抽出</a></div><div class=\"lev3\"><a href=\"#基礎情報を持ってない国?-1.1.1\"><span class=\"toc-item-num\">1.1.1 </span>基礎情報を持ってない国?</a></div><div class=\"lev3\"><a href=\"#以上を踏まえて-1.1.2\"><span class=\"toc-item-num\">1.1.2 </span>以上を踏まえて</a></div><div class=\"lev4\"><a href=\"#基礎情報のテキストの抽出-1.1.2.1\"><span class=\"toc-item-num\">1.1.2.1 </span>基礎情報のテキストの抽出</a></div><div class=\"lev4\"><a href=\"#基礎情報を辞書で返す(国別)-1.1.2.2\"><span class=\"toc-item-num\">1.1.2.2 </span>基礎情報を辞書で返す(国別)</a></div><div class=\"lev4\"><a href=\"#すべてのテンプレートのテキストを返す-1.1.2.3\"><span class=\"toc-item-num\">1.1.2.3 </span>すべてのテンプレートのテキストを返す</a></div><div class=\"lev4\"><a href=\"#すべてのテンプレートをdictのlist-で返す。-1.1.2.4\"><span class=\"toc-item-num\">1.1.2.4 </span>すべてのテンプレートをdictのlist で返す。</a></div><div class=\"lev2\"><a href=\"#26.-強調マークアップの除去-1.2\"><span class=\"toc-item-num\">1.2 </span>26. 強調マークアップの除去</a></div><div class=\"lev2\"><a href=\"#27.-内部リンクの除去-1.3\"><span class=\"toc-item-num\">1.3 </span>27. 内部リンクの除去</a></div><div class=\"lev2\"><a href=\"#MediaWikiマークアップの除去-1.4\"><span class=\"toc-item-num\">1.4 </span>MediaWikiマークアップの除去</a></div><div class=\"lev2\"><a href=\"#29.-国旗画像のURLを取得する-1.5\"><span class=\"toc-item-num\">1.5 </span>29. 国旗画像のURLを取得する</a></div><div class=\"lev3\"><a href=\"#all-1.5.1\"><span class=\"toc-item-num\">1.5.1 </span>all</a></div><div class=\"lev2\"><a href=\"#参考リンク-1.6\"><span class=\"toc-item-num\">1.6 </span>参考リンク</a></div>" | |
}, | |
{ | |
"metadata": {}, | |
"cell_type": "markdown", | |
"source": "- [言語処理100本ノック 1章メモ(準備運動編)](http://nbviewer.jupyter.org/gist/Cartman0/77c669b28f674179e459869881da7a56)\n- [言語処理100本ノック 2章メモ(Unixコマンドの基礎)](http://nbviewer.jupyter.org/gist/Cartman0/133e57faac8c1ae3fa9394789a3ef94e)\n- [言語処理100本ノック 3章メモ(正規表現)](http://nbviewer.jupyter.org/gist/Cartman0/cf83edb52280ea290d5d7bccd2352d31)" | |
}, | |
{ | |
"metadata": {}, | |
"cell_type": "markdown", | |
"source": "# 3章後半" | |
}, | |
{ | |
"metadata": {}, | |
"cell_type": "markdown", | |
"source": " Wikipediaの記事を以下のフォーマットで書き出したファイル[jawiki-country.json.gz](http://www.cl.ecei.tohoku.ac.jp/nlp100/data/jawiki-country.json.gz) がある.\n\n1行に1記事の情報がJSON形式で格納される\n各行には記事名が\"title\"キーに,記事本文が\"text\"キーの辞書オブジェクトに格納され,そのオブジェクトがJSON形式で書き出される\nファイル全体はgzipで圧縮される\n以下の処理を行うプログラムを作成せよ." | |
}, | |
{ | |
"metadata": { | |
"collapsed": true, | |
"trusted": true | |
}, | |
"cell_type": "code", | |
"source": "import gzip\nimport json", | |
"execution_count": 1, | |
"outputs": [] | |
}, | |
{ | |
"metadata": { | |
"collapsed": true, | |
"trusted": true | |
}, | |
"cell_type": "code", | |
"source": "def load_country_text(country:str):\n with gzip.open('jawiki-country.json.gz', mode='rb') as gz_file:\n zip_line = gz_file.readline()\n while zip_line:\n json_line = json.loads(zip_line.decode(encoding='utf-8'))\n #print(json_line['title'])\n r = re.compile(country)\n if r.match(json_line['title']):\n return json_line['text']\n zip_line = gz_file.readline()", | |
"execution_count": 2, | |
"outputs": [] | |
}, | |
{ | |
"metadata": {}, | |
"cell_type": "markdown", | |
"source": "## 25. テンプレートの抽出" | |
}, | |
{ | |
"metadata": {}, | |
"cell_type": "markdown", | |
"source": "記事中に含まれる「基礎情報」テンプレートのフィールド名と値を抽出し,辞書オブジェクトとして格納せよ." | |
}, | |
{ | |
"metadata": {}, | |
"cell_type": "markdown", | |
"source": "### 基礎情報を持ってない国?" | |
}, | |
{ | |
"metadata": { | |
"collapsed": true, | |
"trusted": true | |
}, | |
"cell_type": "code", | |
"source": "import re\ndef get_basic_info_test():\n with gzip.open('jawiki-country.json.gz', mode='rb') as gz_file:\n zip_lines = gz_file.readlines()\n #print('zip_lines:', len(zip_lines))\n template_txt_list = []\n for i, zip_line in enumerate(zip_lines, 1):\n js = json.loads(zip_line.decode(encoding='utf-8'))\n r = re.compile(r'基礎情報') \n text = js['text']\n s = r.search(text)\n if s:\n pass\n else:\n # 基礎情報引っかからない国\n print(js['title'])", | |
"execution_count": 3, | |
"outputs": [] | |
}, | |
{ | |
"metadata": { | |
"collapsed": false, | |
"trusted": true | |
}, | |
"cell_type": "code", | |
"source": "get_basic_info_test()", | |
"execution_count": 4, | |
"outputs": [ | |
{ | |
"output_type": "stream", | |
"text": "パレスチナ\nアイルランド\n", | |
"name": "stdout" | |
} | |
] | |
}, | |
{ | |
"metadata": { | |
"scrolled": false, | |
"collapsed": false, | |
"trusted": true | |
}, | |
"cell_type": "code", | |
"source": "load_country_text('パレスチナ')", | |
"execution_count": 5, | |
"outputs": [ | |
{ | |
"output_type": "execute_result", | |
"data": { | |
"text/plain": "\"{{Otheruses|地域的名称のパレスチナ|国家|パレスチナ自治政府}}\\n[[ファイル:MiddleEast.A2003031.0820.250m.jpg|thumb|パレスチナの衛星写真]]\\n[[ファイル:BritishMandatePalestine1920.png|thumb|[[イギリス委任統治領パレスチナ|旧国際連盟イギリス委任統治領パレスチナ]]。当初は現在のヨルダンも含む範囲であった]]\\n\\n'''パレスチナ'''({{lang-ar|فلسطين}}<ref>[[ラテン文字]]転記:{{lang|ar-Latn|Filastīn}}、[[仮名文字]]転記:{{lang|ar-Kana|フィラスティーン}}</ref>、{{lang-he|פלשתינה}}<ref>ラテン文字転記:{{lang|he-Latn|Palestina}}、仮名文字転記:{{lang|he-Kana|パレスティナ}}</ref>)は、[[地中海]]東岸の[[歴史的シリア]]南部の地域的名称。[[西アジア]]・[[中東]]に位置する。\\n\\n民族宗教[[ユダヤ教]]の聖典[[タナハ]]では、パレスチナの地は神がイスラエルの民に与えた[[約束の地]]であると説かれ、このためヘブライ語では「'''イスラエルの地'''(エレツ・イスラエル、Eretz Yisraël)」とも呼ばれるようになった。のちにユダヤ教から分かれて[[キリスト教]]が興ると、その聖地として世界中の信徒から重要視されるようになった。さらに、ユダヤ教・キリスト教の影響を受け[[アラビア半島]]に興った[[イスラム教]]も当然[[エルサレム]]を聖地としたため、諸宗教の聖地としてエルサレムを擁するパレスチナは宗教的に特別な争奪の場となった。\\n\\n中世以降の主要な住民はアラビア語を日常語とする[[ムスリム]](イスラム教徒)、[[キリスト教徒]]、[[ユダヤ教徒]]([[ミズラヒム]])である。前2者とごくわずかのミズラヒムが、近代以降世界各地から移住してきた[[ユダヤ人]]に対して、パレスチナに在住する[[アラブ人]]として[[パレスチナ人]]と呼ばれる。\\n\\n== 範囲 ==\\n歴史的には、現代の国家でおおよそ[[イスラエル]]と[[パレスチナ自治区]]、[[ヨルダン]]のうち東部の砂漠地域以外、[[レバノン]]と[[シリア]]の一部を指す。特に、旧[[国際連盟]][[イギリス委任統治領パレスチナ]]にあたる、現在のイスラエル、パレスチナ自治区、ヨルダンを指すこともある。\\n\\n[[第二次世界大戦]]後は、より狭く、[[ヨルダン川]]より西の、現在のイスラエルとパレスチナ自治区を指すことが多い。パレスチナ人とはこれらの地域の人々だが、後述するようにパレスチナ人と呼ばれるには地理的な条件以外も必要である。\\n\\n最も狭義には、パレスチナ自治区にあたる地域、もしくは政体としてのパレスチナ暫定自治政府を指す。これは地理的には一つながりではなく、[[ヨルダン川西岸地区]]と[[ガザ地区]]に分かれている。\\n\\n== 歴史 ==\\n古称は「[[フル]]」、「[[カナン]]」という。パレスチナあたりは[[ペリシテ人]]が住んでおり、パレスチナという言葉はペリシテという言葉がなまったものと考えられている。\\n\\n[[紀元前15世紀]]、古代エジプトのファラオ・[[トトメス3世]]が、[[メギドの戦い (紀元前15世紀)|メギドの戦い]]で勝利、パレスチナはエジプトの支配下に置かれた。\\n\\n[[紀元前13世紀]]頃には、ペリシテ人による[[ペリシテ文明]]が栄えていたが、ペリシテ人は民族集団としてはその後滅亡し、その後[[紀元前10世紀]]ごろに[[イスラエル民族]]による[[イスラエル王国]]が[[エルサレム]]を中心都市として繁栄した。\\n\\n紀元前930年頃に、イスラエルは北のイスラエル王国と南の[[ユダ王国]]に分裂した。イスラエル王国は紀元前722年に[[アッシリア]]の[[サルゴン2世]]に滅ぼされた。もう一つ南のユダ王国は、[[紀元前609年]]の[[メギドの戦い (紀元前609年)|メギドの戦い]]で[[ヨシア]]が、エジプトのファラオ・[[ネコ2世]]に敗死させられ、エジプトの支配下におかれることになる。さらに[[紀元前597年]]には東より攻めてきた[[バビロニア]]の支配下におかれ、[[紀元前587年]]にはそのバビロニアに滅ぼされた。\\n\\nやがて三大陸の結節点に位置するその軍事上地政学上の重要性から相次いで周辺大国の支配を受け、紀元135年に[[バル・コクバの乱]]を鎮圧した[[ローマ皇帝]][[ハドリアヌス]]は、それまでの[[ユダヤ属州]]名を廃し、属州シリア・パレスチナ ([[:en:Syria Palaestina]]) と改名した。[[ローマ]]としては、幾度も反乱を繰り返すユダヤ民族からアイデンティティを奪うため、それより千年も昔にユダヤ民族に敵対して滅亡したペリシテ民族(人)の名を引用したのである。この地がパレスチナと呼ばれるようになったのはこれ以降である。\\n\\n[[7世紀]]には[[イスラム帝国]]が侵入し、[[シリア]]を支配する勢力と[[エジプト]]を支配する勢力の戦争の舞台となった。[[11世紀]]には[[ヨーロッパ]]から[[十字軍]]が派遣され、[[エルサレム王国]]が建国されるが、[[12世紀]]末には[[アイユーブ朝]]の[[サラーフッディーン]]に奪還され、パレスチナの大半はエジプトを支配する王朝が治めた。[[16世紀]]になると、エジプトの[[マムルーク朝]]を滅ぼした[[オスマン帝国]]がパレスチナの支配者となる。オスマン帝国ではパレスチナはシリアと呼ばれた。\\n\\n[[19世紀]]以降、ヨーロッパで次々に[[国民国家]]が成立し、各地で民族の自己認識が促されると、ユダヤ人もオスマン帝国領のパレスチナに入植し始めた。[[第一次世界大戦]]でオスマン帝国は崩壊し、[[シオニズム]]に押された[[大英帝国]]と列強は[[国際連盟]]で「ユダヤ人のナショナル・ホームをパレスチナに確立する」として[[イギリス委任統治領パレスチナ]]の創設を決議した。[[イギリス委任統治領メソポタミア]]のようにパレスチナという古い呼称を復活させたのは[[マーク・サイクス]]の方針であった<ref>Easterly, William (27 February 2007). The White Man's Burden: Why the West's Efforts to Aid the Rest Have Done So Much Ill and So Little Good. Penguin (Non-Classics). p. 295. ISBN 0-14-303882-6.</ref>。パレスチナの初代[[高等弁務官]]はユダヤ人の[[ハーバート・サミュエル]]が選ばれた。[[第二次世界大戦]]後、[[ホロコースト]]で同情を集めたシオニズムに押されて[[アメリカ合衆国]]などの国は[[国際連合]]で[[パレスチナ分割決議]]を採択した。それに伴い[[イスラエル]]が建国され、反発したアラブ諸国とイスラエルとの間で[[第一次中東戦争]]が勃発、イスラエルが勝利しパレスチナの8割を占領するに至る。この時期に多くのパレスチナ人が難民化して[[パレスチナ問題]]が発生。\\n\\n1967年に起こった[[第三次中東戦争]]では、イスラエルがさらに[[ガザ地区]]、[[ヨルダン川西岸地区]]を占領。\\n\\n1987年には[[第一次インティファーダ]]が勃発。\\n\\nイスラエル政府とパレスチナ勢力の[[パレスチナ解放機構]] (PLO) は長い闘争の末、[[1993年]]になって[[オスロ合意]]を結び、[[1994年]]からパレスチナの一部でパレスチナ解放機構が主導する暫定自治が開始された。しかし、オスロ合意で定められたパレスチナ問題の包括的解決に向けた話し合いは頓挫し、さらにイスラエルとの和平に合意しない非パレスチナ解放機構系の組織による[[テロリズム|テロ]]や軍事行動が続いた。[[2000年]]以降、再びイスラエルとパレスチナ自治政府との間でゲリラ戦が再燃し、和平交渉が事実上の停止状態にある。\\n\\n一方、パレスチナ自治政府側は、停戦に応じても、イスラエルが一方的に攻撃を続けていると指摘。実情は、「停戦とはパレスチナ側だけに課せられたもの」となっていると主張している。たとえば、[[2001年]]、イスラエルの[[アリエル・シャロン|シャロン]]首相はパレスチナ自治政府との交渉停止を通告し、アラファートPLO議長を軟禁。再開に「7日間の平穏」とさらに「6週間の冷却期間」を要求した。しかし、平穏が達成されたかどうかは、イスラエル側が判断するとした。パレスチナ自治政府側の停戦は37日間続き、[[ハマース]]が反撃したため、なし崩し的に停戦は消えてしまった。\\n\\nアラファートの死後、[[マフムード・アッバース|アッバース]]が後継者となった。[[2005年]][[2月8日]]、2000年10月以来4年4ヶ月ぶりにシャロン首相は首脳会談に応じた。両者の暴力停止(停戦)が合意されたが、交渉再開は停戦継続を条件としている。現在でも双方の攻撃が完全に収まったわけではなく、困難が予想される。\\n\\n== パレスチナ自治区 ==\\n{{main|パレスチナ自治政府|パレスチナ問題}}\\n\\nパレスチナ自治区は、パレスチナ地域のうち[[ヨルダン]]に接するヨルダン川西岸地区とエジプトに接するガザ地区からなるパレスチナ人の自治地区である。その行政は、[[パレスチナ解放機構]] (PLO) が母体となって設立された[[パレスチナ自治政府]]が行う。ただし、最終的な地位は将来イスラエルとパレスチナとの間で結ばれる包括的和平によって定められることになっており、目下の正式な地位は暫定自治区・暫定自治政府となっている。\\n\\nパレスチナ自治区の人口は約330万人で、西岸地区が3分の2、ガザ地区が3分の1を占めるとされる。これは、900万人強いるとされるパレスチナ人の全人口の3分の1にあたる。\\n\\n自治政府は[[1995年]]の暫定自治拡大合意に基づき、[[1996年]]に行われた立法評議会選挙によって正式に発足した。\\n\\n=== 設立の経緯 ===\\n[[ファイル:UN Partition Plan Palestine.png|thumb|right|200px|1947年のパレスチナ分割決議にて定められた分割案<br>{{Color|orange|橙}} : ユダヤ人地区<br>{{Color|yellow|黄}} : アラブ人地区<br>白 : エルサレム国連統括地]]\\nパレスチナ自治区は、イスラエル建国直前の[[1947年]]に行われた[[国際連合総会決議181号]]([[パレスチナ分割決議]])が定めた、[[イギリス委任統治領パレスチナ|パレスチナ]]を[[ユダヤ人]]、[[アラブ人]]、国連統括地の3つに分割する決定を基礎としている。この決議は、これに反対する周辺のヨルダンとエジプトが[[第一次中東戦争]]でヨルダン川西岸地区とガザ地区を占領したためにパレスチナのアラブ人には寸土の領域も残されず、ユダヤ人によるイスラエル国家しか建設されなかった。\\n\\n[[ファイル:IsraëlCitiesBlank.png|thumb|left|150px|現在のパレスチナ自治区(薄灰、ただし実際には西岸の半分以上が[[入植地]]を含めたイスラエルの支配下)]]\\nその後、西岸地区とガザ地区はイスラエルによって占領されるが、[[1964年]]にエジプトの[[ガマール・アブドゥン=ナーセル|ナーセル]]大統領の後押しによって西岸地区とガザ地区のアラブ系住民とパレスチナ難民の統合抵抗組織としてパレスチナ解放機構 (PLO) が設立され、事実上のパレスチナ亡命政府となった。\\n\\n当初、パレスチナ解放機構はイスラエル国家を打倒し、パレスチナの地にムスリム・キリスト教徒・ユダヤ教徒の全てが共存する非宗派的な民主国家を樹立することを目標としていた。しかし、[[1980年代]]後半に繰り広げられたイスラエルに対する大規模な抵抗運動([[インティファーダ]])の中で現実主義路線に転じ、ヨルダンに西岸地区の放棄を宣言させて、西岸地区とガザ地区を中心にパレスチナ人の独立国家を樹立してイスラエルと平和共存する道を模索するようになった。\\n\\nこうしてイスラエルと解放機構の直接交渉の末、[[1993年]]の[[オスロ合意]]、パレスチナ暫定自治協定に基づいてパレスチナ暫定自治区が設立された。\\n\\nしかし、オスロ合意へのパレスチナ解放機構 (PLO) 側の不満は強く、また、ヨルダン川西岸地区では、現在でもパレスチナ自治政府の支配権が及んでいる地域は半ばに満たず、残りはイスラエルの占領下にある([http://palestine-heiwa.org/map/s-note/img/l/historical_dl-l.png ◆パレスチナの歴史的変遷図] - 白抜きがイスラエル領土および占領地)。\\n\\n=== 機構 ===\\n暫定自治政府は、憲法にあたる基本法に基づいて運営される。最高議決機関は民選によって選出されたパレスチナ立法評議会(PLC)で、[[立法府]]に相当する。立法評議会の当初の定数は88であった。2005年6月の法改正で定数は132に増やされた。\\n\\n行政事項を執行するのはパレスチナ行政機関で、自治政府の長である自治政府大統領(ライース、マスコミでは議長、外務省はかつては長官といっていたが現在はこの訳をあてている)がその長を務める。また、行政機関の各庁長官(外務省はこの訳をあてているが、マスコミでは省、大臣、相ということが多い)が閣僚となり、内閣を構成する。[[2003年]]からは内閣の長として[[首相]]が置かれるようになったが、大統領である[[ヤーセル・アラファート]]PLO議長が安全保障関係の権限を内閣に委譲することを拒否し、翌年のアラファート死去まで大統領のワンマン支配が続いた。\\n\\nアラファート死後、[[2005年]][[1月9日]]、後任の自治政府大統領選が行われ、[[マフムード・アッバース]]が当選した。\\n\\n治安維持を担当するのはパレスチナ警察隊で、パレスチナ解放機構の軍事部門であるパレスチナ解放軍を基礎として設立された。しかし、アラファート議長が独占する自治政府の治安維持部門について、イスラエル政府や[[アメリカ合衆国|アメリカ]]は対イスラエルテロの抑制に十分働いていないと認識し、不信の目を向けている。イスラエルは、しばしばテロへの報復であるとしてパレスチナ警察を攻撃した。イスラエル側はテロリストを支援、黙認していると見なしているため、パレスチナ側のテロ事件があるたびに、パレスチナ警察を報復の対象とした。アラファートPLO議長は、[[2001年]][[12月]]より、死の直前までイスラエル軍に軟禁された。\\n\\n===[[ハマース]]政権から挙国一致政権へ===\\n[[2006年]]の[[#立法評議会選挙|総選挙]]で、初めて選挙に参加したハマースが過半数を獲得する勝利を収めた。\\n\\nハマースをテロ組織と認識するイスラエルは直ちに「イスラエル破壊を訴える武装テロ組織が参画する自治政府とは交渉しない」との声明を発表。さらに、軍高官の発言としてハマースの議員のヨルダン川西側地区とガザ地区の自由な移動を認めないと報じられ、政治活動の妨害を宣言した。実際に、パレスチナ人の通行はその後完全封鎖された。そのため、選挙後[[2月18日]]より開会された立法評議会は、ガザとラマッラーでの分裂開会を余儀なくされ、ビデオカメラで両会議場を中継して行われた。\\n\\n米国・[[欧州連合]]も同様の認識から、パレスチナ自治政府への経済支援打ち切りを示唆した。米国は直接の援助ではなく、非政府組織や[[アメリカ合衆国国際開発庁|国際開発局]](USAID)を通しての援助だが、米国の[[ジョージ・W・ブッシュ|ブッシュ]]大統領はハマースがイスラエルの「生存権」を認めなければ支援をすべきではないと主張した。さらに、[[アメリカ国防総省|米国防総省]]は2005年にガザ復興費として援助した5000万ドルの返還を要求した。イスラエルは、自らが代理徴収している関税などを差し押さえ、ハマースへの兵糧攻めに出た。[[日本放送協会|NHK]]「きょうの世界」[[4月20日]]放送によると、2005年の自治政府経費は月平均1億6500万ドル。自力の税収は3000万ドルのみで、イスラエルが代理徴収しているのが6000万ドル、国際社会からの支援3000万ドル、その他借金が4500万ドルを占めるという。自治政府は収入の過半数を断たれ、職員の給与を支払えない事態となった(翌年5月21日一部を支払い)。\\n\\n[[2006年]][[3月29日]]、正式にハマース政権が発足したが、職員給与すら払えない極度の財政難に苦しんだ。4月10日、欧州連合もパレスチナ自治政府への援助を停止。6月4日、ようやく給与の一部を支払った。しかし、その後もイスラエルによる差し押さえのため、給与を支払えない状態が続いている。アラブ諸国などからパレスチナ自治政府への献金運動も行われたが、米欧とイスラエル政府が送金はテロ支援であると金融機関に圧力を掛けているため、パレスチナ自治政府には届いていない。\\n\\n米国、欧州連合は、制裁解除の条件として、(1)イスラエルの承認(2)武装解除(3)過去の自治政府とイスラエルの合意事項の尊重などを要求している。また、イスラエルの[[エフード・オルメルト]]首相は5月23日にブッシュ大統領と会談し、ハマース政権を相手にせず、アッバス自治政府議長ら穏健派と和平交渉を進めることで合意。また、オルメルトは、パレスチナ自治政府との合意が無くても、3~4年で入植地を自国領に取り込む形で国境を決めたいと表明した。\\n\\n6月には、イスラエル軍の兵士2名がハマース系と見られる組織に拉致されたとされる事件を理由に、イスラエルはガザ侵攻を強めた。さらに、評議員を含むハマース系の政治家・活動家約80人を拉致し、評議会を機能停止に追い込んだ。\\n\\nこれに先立つ6月27日、アッバース大統領とハマースの[[イスマーイール・ハニーヤ|ハニーヤ]]首相が1967年の国連停戦決議に基づく国境線の合意(事実上のイスラエル承認)で合意した。しかしイスラエルは、完全に無視した形である。\\n\\n米国、欧州連合、日本などは、より穏健な[[ファタハ]](パレスチナ自治政府主流派)のアッバース議長を交渉相手と見ており、ハニーヤ首相などハマースは事実上相手にしていない。米国はパレスチナへの経済制裁を続ける一方で、ファタハに対しては独自の支援を行っている(『読売新聞』1月15日号「米国務長官、アッバス議長への軍事支援を明言」など)。\\n\\n[[2007年]][[3月17日]]、ハマースとファタハの連立交渉が合意に達し、挙国一致内閣が発足した。閣僚25人の内訳は、ハマースから首相を含む12人、ファタハから6人、その他の党派からは7人。首相はハニーヤが続投。ハニーヤ首相はイスラエル承認を含めた過去の合意を「尊重する」と表明した。ただし、イスラエル承認を公にはしなかった。一方、イスラエルのオルメルト首相は3月18日、「テロを正当化するような内閣とは接触しない」と演説。ハニーヤ連立内閣の不承認を表明すると共に、他国にも引き続きハニーヤ政権を相手にしないよう主張した。イスラエルがヨルダン川西岸とガザ地区の間の閣僚の通行を認めていないため、閣議はテレビ電話を介して行われた。\\n\\n===挙国一致政権崩壊とパレスチナ自治政府分裂===\\n{{節stub}}\\n\\nハマースとファタハの内部抗争は、連立政権の発足後も続いた。また、イスラエルによって立法評議会(国会)員が多数逮捕されており、立法評議会は事実上機能停止に追い込まれている。両者の内部抗争では、イスラエル・アメリカは一貫してファタハを援助しており、両者が内戦を煽っているとする批判もある<ref>[http://palestine-heiwa.org/note2/200706151156.htm ハマスとファタハの抗争と連立内閣崩壊を言う前に――意図的な連立潰し]</ref>。イギリスの『[[ガーディアン]]』紙によると、中東和平の実務者会議の中で、米国の特使は二度も「この武装衝突はいいね」と放言したという<ref>Karma NABULSI [http://www.guardian.co.uk/commentisfree/story/0,,2105483,00.html The people of Palestine must finally be allowed to determine their own fate]</ref>。\\n[[2007年]][[6月11日]]からの抗争は、本格的な内戦に突入。ハマースはガザ地区を武力で占拠し、ファタハはこれを「クーデター」と批判。背景には、パレスチナ自治政府治安維持相で、ハマースと敵対し、また親米派と目されていた[[ムハンマド・ダハラーン]]との抗争があり、またダハラン側が先に手を出していたとする主張もある<ref>[http://www.onweb.to/palestine/siryo/pinochet-may07.html 「パレスチナのピノチェト」が動き出した?]\\u3000トニー・カロン(Tony KARON)</ref>。結果、ファタハは内閣からの閣僚引き上げを宣言した。[[6月14日]]、ファタハのアッバース議長は[[非常事態宣言]]を出し、内閣の解散を宣言。[[6月15日]]、親米派の[[サラーム・ファイヤード]]をハニーヤの後任の首相に指名したが、ハニーヤは解散を無効として無視した。ハマースは立法評議会の多数を握っているため、基本法(憲法)上後任の首相もハマースから任命しなければならず、アッバースの行為は[[憲法|違憲]]とする批判がある<ref>[http://electronicintifada.net/v2/article7038.shtml Whose Coup, Exactly?\\u3000Virginia Tilley, The Electronic Intifada, 18 June 2007]</ref>。ファイヤードは[[6月17日]]に「非常事態内閣」として30日間の限定で組閣したが、ハニーヤは組閣は「非合法」と反発。逆にアッバース議長は、ハマースの軍事部門を非合法化する議長令を発表し、「メンバーは処罰する」方針を示した。こうしてパレスチナ自治政府は、分裂した。イスラエルや米国は、ハマースを排除したファイヤード政権を正式な交渉相手と認めた。また、イスラエルは、差し押さえを続けていた代理徴収した税のファイヤード政権への返還を表明した。[[6月20日]]、アッバース議長は「人殺しのテロリストたちとは対話はしない」と、ハマースを相手にしないことを表明した。また、1ヶ月前、ハマースによる暗殺未遂事件があったと主張した。\\n\\n現在、ガザ地区をハマースが[[実効支配]]し、ヨルダン川西岸のみファイヤード政権の支配下にある。もちろん、イスラエルの入植者に占拠されている地域は、いずれの支配も及んでいない。[[7月2日]]、イスラエルが差し押さえていた税収の一部引き渡しを受け、ファイヤード政権は17ヶ月ぶりにハマース党員を除く公務員給与の満額支払いを発表。ガザ地区では、ファイヤード政権に従うことを条件に給与を支払うと発表した。\\n\\n従来、欧米諸国は、経済制裁解除の条件として、早期の総選挙を要求して来た<ref>[http://www.imemc.org/article/48079 Various Arab and European countries urge P.A to go for early elections]</ref>。[[経済制裁]]による財政難は引き続き続いており、総選挙になれば自国に都合の悪い存在であるハマースの勝利はあり得ない(裏返せば、ハマースを敗北させなければ制裁を止めないと、パレスチナの有権者を脅したと言える)との読みといわれている。結果として、総選挙を経ることなくハマースの排除が実現した形となった。しかし、経済制裁を武器に、選挙により成立した政権を否定する行為に対し、民主主義の否定とする強い批判がある。\\n\\nパレスチナ囚人保護団体のナファ協会によると、イスラエルは拉致したハマースなどの評議員に対し、釈放の条件として議員辞職するよう脅した。評議員らのほとんどは、「(辞職するくらいなら)喜んでイスラエルの拘置所に留まることを選ぶ」と声明を出した<ref>[http://www.imemc.org/article/49248 Israeli interrogators demand detained MP's to resign from their posts]</ref>。\\nまた、日本は2007年6月12日に、いったんは[[政府開発援助|ODA]]再開の意向をパレスチナ自治政府側に伝えたが、挙国一致内閣の崩壊で、再び棚上げになった。\\n\\n===2007年のレバノン難民キャンプの武力衝突===\\n2007年[[5月20日]]より、[[レバノン]]の[[ナハル・アル=バーリド]]パレスチナ難民キャンプでイスラム教スンナ派武装組織「[[ファタハ・イスラム]]」と[[レバノン軍|レバノン政府軍]]の武力衝突が起きた。ファタハ・イスラムはファタハとは無関係で、パレスチナ人による組織でもないが、パレスチナ人の支援を名目に、合法的にレバノン入国を果たしたといわれる。レバノン政府側は、ファタハ・イスラムが軍組織を攻撃しようとしたことを攻撃の理由に挙げている。ファタハ・イスラム側は「いわれのない攻撃」と反論している。レバノンの国会は、全会一致で難民キャンプへの攻撃を承認した。\\n\\n[[アルジャジーラ]]によると、[[5月23日]]現在で武装メンバー20人、政府軍兵士32人、民間人27人が殺されたとしている。また、『毎日新聞』によると、[[5月27日]]現在で、キャンプにいた難民約4万のうち3分の2は避難したが、銃撃戦の巻き添えや、レバノン人によるパレスチナ人狩りの噂などが立ち、避難に踏み切れない者もいるという。\\n\\n=== 「パレスチナ国」の国家承認 ===\\n[[File:Palestine recognition only.svg|thumb|right|340px|独立国家「パレスチナ国」の承認国。]]\\n近年、国家としてのパレスチナの承認国が増えている。2010年12月、南米の[[ブラジル]]、[[アルゼンチン]]、[[ウルグアイ]]が相次いで国家としてのパレスチナを承認することを表明した<ref>[[時事通信社]] [http://www.jiji.com/jc/zc?k=201012/2010120700525 南米諸国、相次ぐパレスチナ国家承認=和平交渉に一石も、イスラエルは反発]</ref>。また国際機関へ国家として加盟する方針を打ち出しており、2011年9月23日には史上初めて国際連合への加盟申請を行った<ref>{{Cite news\\n|url=http://www.yomiuri.co.jp/world/news/20110924-OYT1T00095.htm\\n|title=パレスチナ、国連加盟を申請…米は拒否権行使へ\\n|work=YOMIURI ONLINE\\n|newspaper=[[読売新聞]]\\n|date=2011-09-24\\n|accessdate=2011-11-02\\n}}</ref>ほか、同年10月31日には[[国際連合教育科学文化機関]](UNESCO)の加盟国として承認された<ref>{{Cite news\\n|url=http://www.yomiuri.co.jp/world/news/20111031-OYT1T01157.htm\\n|title=パレスチナ、ユネスコ加盟…米は「時期尚早」\\n|work=YOMIURI ONLINE\\n|newspaper=[[読売新聞]]\\n|date=2011-11-01\\n|accessdate=2011-11-02\\n}}</ref>。\\n2012年11月29日には[[国際連合総会|国連総会]]においてパレスチナを「オブザーバー組織」から「オブザーバー国家」に格上げする決議案が採択され、国連では「国家」の扱いを受けることとなった。<ref>{{Cite news\\n|url=http://www.nikkei.com/article/DGXNASFK30006_Q2A131C1000000/\\n|title=国連、パレスチナを「国家」に格上げ\\u3000決議案採択 \\n|work=\\n|newspaper=[[日本経済新聞]]\\n|date=2012-11-30\\n|accessdate=2012-11-30\\n}}</ref>\\n\\n==== 米国の対パレスチナ政策 ====\\nアメリカ合衆国政府は1947年11月の[[パレスチナ分割決議]]、1948年5月の[[イスラエル]]建国と[[国際連合|国連]]への加盟を支援し、1948年の[[第一次中東戦争]]、1956年の[[第二次中東戦争]]、1967年の[[第三次中東戦争]]の結果、イスラエルが[[ヨルダン川西岸地区]]、[[エルサレム]]、[[ガザ地区]]、[[シナイ半島]]、[[ゴラン高原]]を占領し、占領地として統治することを正当化してきた。その後の歴代のアメリカ合衆国政府は、1956年にシナイ半島のエジプトへの返還とイスラエル軍の撤退、1978年9月の[[キャンプ・デービッド合意]]と1979年3月の[[エジプト・イスラエル平和条約]]、1982年にシナイ半島のエジプトへの返還、1992年に中東和平マドリッド会議を開催し、1994年10月の[[イスラエル・ヨルダン平和条約]]を仲介したが、1947年のパレスチナ分割、1948年のイスラエル建国以来、歴代のアメリカ合衆国議会・政府は、イスラエルの存続を優先する立場に基づいて[[パレスチナ問題]]を解決する政策を遂行している。\\n\\n===立法評議会選挙===\\n[[選挙]]は[[中選挙区制|中選挙区]][[比例代表制|比例代表]]並立制。選挙区、比例区共に66議席ずつ。[[重複立候補制度]]はない。[[日本]]の[[参議院]]に近いが、選挙区は完全連記制。また、選挙区は少数派の[[キリスト教徒]]枠として6議席があらかじめ割り当てられている。18歳以上の[[普通選挙]]。\\n\\n[[1996年]][[1月20日]]に初めて行われ、ファタハが第一党となった。しかし、多くの党派は選挙をボイコットした。\\n\\n[[2006年]][[1月15日]]、二度目の総選挙が行われた。アメリカはハマース躍進を恐れ、ファタハに肩入れする選挙干渉を行ったとも言われた。また、事前にハマースの立候補予定者など300人が、イスラエルに逮捕された。\\n\\nファタハは45議席と惨敗し、ハマースは74議席と過半数を獲得する地滑り的勝利を収めた。ファタハの腐敗や、イスラエルによる[[白色テロ]]を阻止できないことへの不満があり、一方でハマースが社会福祉に力を入れたことなどが勝因と言われる。とはいえ、比例区では28議席ずつと互角で、ファタハは選挙区での候補者乱立による共倒れが多かったとも指摘されている。\\n\\n=== 地方行政区分 ===\\n==== 地域区分 ====\\n*[[ガザ地区]]\\n*[[ヨルダン川西岸地区]]\\n*[[東エルサレム]](イスラエルが実質支配している)\\n\\n==== 地方政府 ====\\n[[ファイル:Palestine governorates.png|300px|right|thumb|パレスチナ地方政府]]\\n'''ガザ地区'''\\n*[[:en:North Gaza Governorate|北ガザ]]\\n*[[:en:Gaza Governorate|ガザ]]\\n*[[:en:Deir al-Balah Governorate|ディール・バラフ]](ダイル・アル=バラフ)\\n*[[:en:Khan Yunis Governorate|ハーン・ユーニス]]\\n*[[:en:Rafah Governorate|ラファハ]]\\n\\n'''ヨルダン川西岸地区'''\\n{{columns-start|num=2}}\\n*[[:en:Jerusalem Governorate|エルサレム]](アル=クドゥス)\\n*[[:en:Jericho Governorate|エリコ]](アリーハー)\\n*[[:en:Qalqilya Governorate|カルキーリヤ]]\\n*[[:en:Salfit Governorate|サルフィート]]\\n*[[:en:Jenin Governorate|ジェニーン]]\\n*[[:en:Tulkarm Governorate|トゥールカリム]]\\n{{column}}\\n*[[:en:Tubas Governorate|トゥーバース]]\\n*[[:en:Nablus Governorate|ナーブルス]]\\n*[[:en:Bethlehem Governorate|ベツレヘム]](ベート・ラハム)\\n*[[:en:Hebron Governorate|ヘブロン]](アル=ハリール)\\n*[[:en:Ramallah and al-Bireh Governorate|ラマッラー/アル・ビーレ]]\\n{{columns-end}}\\n\\n==== 市 ====\\n{{columns-start|num=2}}\\n'''ガザ地区'''\\n*[[ガザ市]]\\n*[[ハーン・ユーニス]]\\n*[[ジャバーリヤー]]\\n*[[ラファフ]]\\n*[[ディール・バラフ]]\\n{{column}}\\n'''ヨルダン川西岸地区'''\\n*[[ヘブロン]](アル=ハリール)\\n*[[ナーブルス]]\\n*[[トゥールカリム]]\\n*[[ジェニーン]]\\n*[[カルキーリヤ]]\\n*[[ベツレヘム]](ベート・ラハム)\\n*[[ラマッラー]]\\n*[[エリコ]](アリーハー)\\n{{columns-end}}\\n\\n==== 交通機関 ====\\n*[[ヤーセル・アラファト国際空港]](閉鎖中)\\n\\n== 脚注 ==\\n{{Reflist}}\\n\\n== 参考文献 ==\\n* 『パレスチナ新版』([[広河隆一]] 著 / [[岩波書店]] 岩波新書 / ISBN 4004307848 / 2002年5月20日)\\n*岡倉徹志『パレスチナ・アラブ\\u3000その歴史と現在』三省堂\\n*エリアス・サンバー『パレスチナ\\u3000動乱の100年』創元社\\n*『パレスチナの歴史』明石書店\\n*横田勇人『パレスチナ紛争史』集英社\\n*山崎雅弘『中東戦争全史』学習研究社\\n*立山良司『図説\\u3000中東戦争全史』学習研究社\\n*森戸幸次『中東百年紛争\\u3000パレスチナと宗教ナショナリズム』平凡社\\n*PLO研究センター『パレスチナ問題』亜紀書房\\n*阿部俊哉『パレスチナ』ミネルヴァ書房\\n*エドワード・サイード『パレスチナとは何か』岩波書店\\n*エドワード・サイード『パレスチナ問題』みすず書房\\n*エドワード・サイード『戦争とプロパガンダ』みすず書房\\n*エドワード・サイード『戦争とプロパガンダ2』みすず書房\\n*エドワード・サイード『戦争とプロパガンダ3』みすず書房\\n*立山良司『揺れるユダヤ人国家\\u3000ポスト・シオニズム』文藝春秋\\n*池田明史『イスラエル国家の諸問題』アジア経済研究所\\n*ウリ・ラーナン『イスラエル現代史』明石書店\\n*高橋和夫『アラブとイスラエル\\u3000パレスチナ問題の構図』講談社\\n*立山良司『イスラエルとパレスチナ\\u3000和平への接点をさぐる』中央公論社\\n*土井敏邦『和平合意とパレスチナ\\u3000イスラエルとの共存は可能か』朝日新聞社\\n*M・ブーバー『ひとつの土地にふたつの民\\u3000ユダヤ、アラブ問題によせて』みすず書房\\n*ミシェル・ワルシャウスキー『イスラエル・パレスチナ民族共生国家への挑戦』柘植書房新社\\n\\n== 関連項目 ==\\n{{Commons|Palestina}}\\n* [[イスラエル]]\\n* [[イスラエルの歴史]]\\n* [[パレスチナ自治政府]]\\n* [[イギリス委任統治領パレスチナ]]\\n* [[パレスチナ問題]]\\n* [[エドワード・サイード]]\\n* [[レジスタンス運動]]\\n* [[インティファーダ]]\\n* [[サマリア人]]\\n\\n== 外部リンク ==\\n=== 政府 ===\\n* [http://palst-jp.com/jp/jp_top.html 駐日パレスチナ常駐総代表部]{{ja icon}}\\n\\n=== 日本政府 ===\\n* [http://www.mofa.go.jp/mofaj/area/plo/ 日本外務省 パレスチナの情報]{{ja icon}}\\n \\t\\n=== メディア ===\\n* [http://www.alquds.com/ アル・クドゥス]{{ar icon}} - [[エルサレム]]を本拠地とし、パレスチナ最大発行部数の日刊紙\\n* [http://arabic.wafa.ps/arabic/ WAFA]{{ar icon}}{{en icon}} - パレスチナ解放通信\\n\\n=== その他 ===\\n* [http://palestine-heiwa.org/ パレスチナ情報センター]\\n* [http://www.palestine-info.co.uk/ The Palestinian Information Center]{{ar icon}}{{en icon}}{{fr icon}}{{tr icon}}{{ur icon}} - パレスチナ情報センター(邦訳すると上記と同名だが、無関係)\\n* [http://www.ngo-jvc.net/jp/projects/palestine/index.html 日本国際ボランティアセンター] - パレスチナで活動している日本のNGO\\n* [http://www.ottomanpalestine.com Ottoman Palestine]\\n\\n{{アジア}}\\n{{OIC}}\\n\\n{{DEFAULTSORT:はれすちな}}\\n[[Category:パレスチナ|*]]\\n[[Category:中東]]\\n[[Category:アジアの地域]]\\n{{Link GA|is}}\\n\\n[[he:ארץ ישראל]]\"" | |
}, | |
"metadata": {}, | |
"execution_count": 5 | |
} | |
] | |
}, | |
{ | |
"metadata": { | |
"collapsed": true, | |
"trusted": true | |
}, | |
"cell_type": "code", | |
"source": "# load_gzipjson_country_text('アイルランド')", | |
"execution_count": 6, | |
"outputs": [] | |
}, | |
{ | |
"metadata": { | |
"collapsed": true, | |
"trusted": true | |
}, | |
"cell_type": "code", | |
"source": "# 基礎情報の終わりパターンを見つける\ndef get_basic_info_template_test():\n '''\n パレスチナとアイルランドは「基礎情報」を持ってないので無視できる。\n '''\n with gzip.open('jawiki-country.json.gz', mode='rb') as gz_file:\n zip_lines = gz_file.readlines()\n template_txt_list = []\n for i, zip_line in enumerate(zip_lines, 1):\n js = json.loads(zip_line.decode(encoding='utf-8'))\n r = re.compile(r'\\{\\{基礎情報(.+)\\n\\}\\}\\n', re.MULTILINE | re.S) \n text = js['text']\n s = r.search(text)\n if s:\n template_txt_list.append(s.group(1))\n else:\n # 基礎情報引っかからない国\n print(js['title'])\n #template_txt_list.append(text.split('\\n\\}\\}\\n')[0])\n #return template_txt_list", | |
"execution_count": 7, | |
"outputs": [] | |
}, | |
{ | |
"metadata": { | |
"collapsed": false, | |
"trusted": true | |
}, | |
"cell_type": "code", | |
"source": "get_basic_info_template_test()", | |
"execution_count": 8, | |
"outputs": [ | |
{ | |
"output_type": "stream", | |
"text": "パレスチナ\nジンバブエ\nカンボジア\nアイルランド\n", | |
"name": "stdout" | |
} | |
] | |
}, | |
{ | |
"metadata": { | |
"collapsed": false, | |
"trusted": true | |
}, | |
"cell_type": "code", | |
"source": "# ジンバブエ \n# {{基礎情報 国\\n| ... \\n|}}\\n\\n \nload_country_text('ジンバブエ')", | |
"execution_count": 9, | |
"outputs": [ | |
{ | |
"output_type": "execute_result", | |
"data": { | |
"text/plain": "'{{基礎情報 国\\n|略名 = ジンバブエ\\n|日本語国名 =ジンバブエ共和国\\n|公式国名 = \\'\\'\\'{{Lang|en|Republic of Zimbabwe}}\\'\\'\\'\\n|国旗画像 = Flag of Zimbabwe.svg\\n|国章画像 = [[ファイル:Coat_of_arms_of_Zimbabwe.svg|100px|ジンバブエの国章]]\\n|国章リンク = ([[ジンバブエの国章|国章]])\\n|標語 = \\'\\'{{Lang|en|Unity, Freedom, Work}}\\'\\'<br/> (英語: 統一、自由、労働)\\n|位置画像 = Zimbabwe (orthographic projection).svg\\n|公用語 = [[英語]]\\n|首都 = [[ハラレ]]\\n|最大都市 = ハラレ\\n|元首等肩書 = [[ジンバブエの大統領|大統領]]\\n|元首等氏名 = [[ロバート・ムガベ]]\\n|首相等肩書 = 首相\\n|首相等氏名 = 廃止\\n|面積順位 = 59\\n|面積大きさ = 1 E11\\n|面積値 = 390,580\\n|水面積率 = 1.0%\\n|人口統計年 = 2012\\n|人口順位 = \\n|人口大きさ = 1 E7\\n|人口値 = 13,720,000\\n|人口密度値 = 32\\n|GDP統計年元 = <!--2007-->\\n|GDP値元 = <!--81兆3,311億<ref name=\"economy\" />-->\\n|GDP統計年MER = 2007\\n|GDP順位MER = 94\\n|GDP値MER = 119億<ref name=\"economy\">IMF Data and Statistics 2009年4月27日閲覧([http://www.imf.org/external/pubs/ft/weo/2009/01/weodata/weorept.aspx?pr.x=96&pr.y=14&sy=2007&ey=2007&scsm=1&ssd=1&sort=country&ds=.&br=1&c=698&s=NGDP%2CNGDPD%2CPPPGDP%2CPPPPC&grp=0&a=])</ref>\\n|GDP統計年 = 2007\\n|GDP順位 = 94\\n|GDP値 = 22億<ref name=\"economy\" />\\n|GDP/人 = 188<ref name=\"economy\" />\\n|建国形態 = [[独立]]<br/> - 宣言<br/> - 承認\\n|建国年月日 = [[イギリス]]より[[ローデシア紛争]]を経て<br/>(ローデシアとして) [[1965年]][[11月11日]]<br/>(ジンバブエとして) [[1980年]][[4月18日]]\\n|通貨 = [[ランド (通貨)|南ア・ランド]]や[[アメリカ合衆国ドル|米ドル]]など ※1\\n|通貨コード = \\n|時間帯 = +2\\n|夏時間 = なし\\n|国歌名 = ジンバブエの大地に祝福を\\n|ISO 3166-1 = ZW / ZWE\\n|ccTLD = [[.zw]]\\n|国際電話番号 = 263\\n|注記 = ※1 独自通貨の[[ジンバブエ・ドル]] (Z$) は、猛烈なインフレの結果[[2009年]]を持って発行が停止されており、[[2014年]]現在[[アメリカ合衆国ドル|米ドル]]、[[ユーロ]]、[[スターリング・ポンド|英ポンド]]、[[ランド (通貨)|南ア・ランド]]、[[プラ|ボツワナ・プラ]]、[[人民元]]、[[インド・ルピー]]、[[オーストラリア・ドル|豪ドル]]、[[円 (通貨)|日本円]]の9つの外国通貨が[[法定通貨]]として定められている。<ref>{{Cite web|url=http://www.bbc.com/news/world-africa-26034078|title=Zimbabwe’s multi-currency confusion|publisher=[[英国放送協会|BBC]]|language=英語|date=2014-02-06|accessdate=2014-03-03}}</ref><ref>{{Cite web|url=http://diamond.jp/articles/-/49266|title=ジンバブエが日本円を採用|publisher=[[ダイヤモンド社|ダイヤモンド・オンライン]]|date=2014-03-03|accessdate=2014-03-03}}</ref>\\n|}}\\n\\n\\'\\'\\'ジンバブエ共和国\\'\\'\\'(ジンバブエきょうわこく)、通称\\'\\'\\'ジンバブエ\\'\\'\\'は、[[アフリカ大陸]]の南部に位置する[[共和制]]の[[国家]]である。首都は[[ハラレ]]。[[内陸国]]であり、[[モザンビーク]]、[[ザンビア]]、[[ボツワナ]]、[[南アフリカ共和国]]に隣接する<ref>地図を一見すると[[ナミビア]]とも接しているように見えるが、両国間は[[ザンビア]]、[[ボツワナ]]を挟んで、僅かに離れている</ref>。[[2002年]]に加盟資格を停止されるまで[[イギリス連邦]]の加盟国であった。\\n\\n大統領の[[ロバート・ムガベ]]は1980年のジンバブエ共和国成立以来権力の座についており、強権的な政治手法が指摘されている。\\n\\n== 国名 ==\\n正式名称は英語で Republic of Zimbabwe。通称 Zimbabwe。日本語の表記は\\'\\'\\'ジンバブエ共和国\\'\\'\\'もしくは\\'\\'\\'ジンバブウェ共和国\\'\\'\\'。通称\\'\\'\\'ジンバブエ\\'\\'\\'。\\n\\n国名は[[ショナ語]]で「石の館(家)」を意味し、ジンバブエ国内にある[[グレート・ジンバブエ遺跡]]に由来する。かつては[[南ローデシア]]と呼ばれていた。\\n\\n== 歴史 ==\\n{{main|{{仮リンク|ジンバブエの歴史|en|History of Zimbabwe}}}}\\n\\n=== ジンバブエの植民地化以前の時代 (1000年–1887年) ===\\n{{main|{{仮リンク|ジンバブエの植民地化以前の時代|en|Pre-colonial history of Zimbabwe}}|{{仮リンク|バントゥー族の拡散|en|Bantu expansion}}}}\\n\\n[[12世紀]]頃、[[リンポポ川]]中流域に[[マプングブエ|マプングヴエ王国]]が成立し、次いで[[13世紀]]から[[14世紀]]中には、[[グレート・ジンバブエ遺跡|グレート・ジンバブエ]]と呼ばれている王国が栄えた。グレートジンバブエの遺構からは、中国製[[陶器]]が発見されており、かなり大規模な交易を行っていたようである。[[15世紀]]頃、グレートジンバブエは放棄され、代わって[[ザンベジ川]]中流域に[[モノモタパ王国]]、現[[ブラワヨ]]周辺の[[カミ遺跡群|カミ遺跡]]を首都として[[トルワ王国]]が興り、覇権を握った。\\n\\n[[16世紀]]から[[17世紀]]にかけて、[[ポルトガル]]人の侵入に苦しむが、撃退。<!-- ロズウィ王国が興るが、18世紀から19世紀には、王位を巡っての内戦、大[[旱魃]]、異民族(ングニ人)の侵入などに見舞われ、ロズウィ王国が滅亡。-->地方首長国の分立状態となる。\\n\\n=== 植民地時代 (1888年–1965年) ===\\n{{main|南ローデシア|ローデシア・ニヤサランド連邦}}\\n\\n[[19世紀]]後半に[[イギリス南アフリカ会社]]に統治された後、[[第一次世界大戦]]後に[[イギリス]]の[[植民地]]に組み込まれ、\\'\\'\\'イギリス領[[南ローデシア]]\\'\\'\\'となった<ref>ローデシアは「ローズの家」の意。[[イギリス南アフリカ会社]]設立者にしてケープ植民地首相の[[セシル・ローズ]]の名からとられている</ref>。国土のほとんどは白人農場主の私有地となり、住民達は先祖の墓参りの自由すらなかった。\\n\\n=== 独立と内戦 (1965年–1979年) ===\\n[[File:RhodesiaAllies1975.png|thumb|200px|[[ローデシア]]とその支援国(青、[[1975年]])]]\\n{{main|ローデシア|ローデシア紛争|ジンバブエ・ローデシア|:en:Lancaster House Agreement}}\\n\\n第二次世界大戦が終結し、世界が[[脱植民地化]]時代に突入すると、南ローデシアでも[[1960年代]]から黒人による[[独立運動]]が本格的に展開されたが、[[民族解放]]までの道のりは険しく、[[1965年]]には世界中から非難を浴びる中で植民地政府首相[[イアン・スミス]]が白人中心の\\'\\'\\'[[ローデシア|ローデシア共和国]]\\'\\'\\'の独立を宣言し、[[人種差別]]政策を推し進めた。これに対して黒人側もスミス政権打倒と黒人国家の樹立を目指して[[ゲリラ]]戦を展開するが、イギリスの調停により100議席中20議席を白人の固定枠とすることで合意、[[ローデシア紛争]]は終結した。\\n\\n=== 独立後 (1980年–1999年) ===\\n[[1980年]]の総選挙の結果、\\'\\'\\'ジンバブエ共和国\\'\\'\\'が成立し、[[カナーン・バナナ]]が初代大統領に、そして[[ロバート・ムガベ]]が初代首相に就任した。[[1987年]]からは大統領が儀礼的役割を果たしていた[[議院内閣制]]を廃して[[大統領制]]に移行し、首相職も廃止され、それまで首相だったムガベが大統領に就任した。[[2012年]]8月現在も引き続きムガベが大統領職にある。\\n\\n=== 経済危機とハイパーインフレ (1999–2008) ===\\n==== コンゴ民主共和国への派兵 ====\\n[[1999年]]、[[コンゴ民主共和国]](以後、コンゴと表記)の[[ローラン・カビラ|カビラ]]大統領と親交のあったムガベ大統領は[[内戦]]([[第二次コンゴ戦争]])が勃発したコンゴに約1万人の軍を派兵した。コンゴのカビラ大統領を支えるという名目だったが、真の目的としてコンゴにあるムガベ一族所有の[[ダイヤモンド]]鉱山を守る事や、それらのダイヤモンドのほか[[銅]]や[[金]]など、コンゴの地下資源を狙う理由があった。反対運動がコンゴの都市部を中心に活発に起き、派兵直後にカビラ大統領が暗殺されるなどコンゴ派兵は混乱を招いた。ムガベ大統領は第二次コンゴ戦争への派兵に専念していったため、[[ジンバブエの経済]]や医療、教育などが悪化していった。\\n\\nそのためムガベ大統領への批判が相次ぎ、[[イギリス]]の[[マスメディア]]などは、ムガベ大統領は批判を避ける目的で白人農場を強制収用する政策にすり替えていったとしている。\\n\\n==== 白人大農場の強制収用 ====\\n{{main|:en:Land reform in Zimbabwe}}\\n[[ファイル:ZWD-USD 2003-.png|thumb|240px|[[2003年]]以降の[[ジンバブエ・ドル]]の[[インフレーション]](単位はデノミ前のZWD、[[片対数グラフ|対数]]表示)]]\\n\\nムガベは初めは黒人と白人の融和政策を進め<ref name=\"外務省\">[http://www.mofa.go.jp/Mofaj/area/zimbabwe/data.html 外務省:ジンバブエ共和国]</ref> 、国際的にも歓迎されてきたが、[[2000年]]8月から白人所有大農場の強制収用を政策化し、協同農場で働く黒人農民に再分配する「[[ファスト・トラック]]」が開始された<ref name=\"外務省\"/>。この結果、白人地主が持っていた農業技術が失われ、食糧危機や第二次世界大戦後世界最悪とも言われる[[インフレーション]]が発生した。こうした経済混乱に、長期政権・一党支配に対する不満と相まって治安の悪化も問題となっている。また、言論の統制などの強権的な政策は外国や人権団体などから批判を受けている。\\n\\n==== 反対派への弾圧 ====\\n\\n2005年5月には「{{仮リンク|ムラムバツビナ作戦|en|Operation Murambatsvina}}」によって地方の貧しい都市地域および周辺都市地域を標的に大規模な強制退去と住居破壊を行い<ref>「[http://www.amnesty.or.jp/modules/news/article.php?storyid=140.html コミュニティ破壊の衛星画像]」。[[アムネスティ・インターナショナル]]。</ref>、さらには2007年3月11日、警察によって活動家{{仮リンク|ギフト・タンダレ|en|Gift Tandare}}が暗殺されている<ref>「[http://www.amnesty.or.jp/modules/news/article.php?storyid=284.html アフリカの指導者はジンバブエの暴力に抗議を]」。[[アムネスティ・インターナショナル]]。</ref>。女性差別は依然存在するばかりか激しさを増しており、女性活動家の行動はおろか生活すらも統制され、トウモロコシを穀物流通公社から買うことさえもできなくなっている<ref>「[http://www.amnesty.or.jp/modules/news/article.php?storyid=344.html 政府の政策と最前戦で闘う女性たちへの弾圧が激化]」。[[アムネスティ・インターナショナル]]。</ref>。\\n\\n=== 2008–現在 ===\\n{{main|:en:Zimbabwean cholera outbreak|:en:2008–09 Zimbabwean political negotiations|:en:Zimbabwean constitutional referendum, 2013}}\\n\\n[[コレラ]]流行が[[2008年]]8月に始まり、患者総数91,164人、死者総数4,037人に達している。2009年2月初めのピーク時には一週間で新患者数8,008人を超えた。[[WHO]](国連世界保健機関)によると2009年3月14日までの1週間に報告された新患者数は2,076人で先週の3,812人から減少した。致死率も1月の6%弱から2.3%に低下した。発生数は全体として低下したが、首都[[ハラレ]]とその周辺では増加の傾向にある。\\n\\n== 政治 ==\\n[[File:Robert Mugabe, 12th AU Summit, 090202-N-0506A-310.jpg|thumb|160px|第2代大統領[[ロバート・ムガベ]]]]\\n\\n[[野党]]勢力への迫害が強く、野党の政治家、野党支持者への暴行・虐殺・拉致などが常態化しており、激しい対立が続いている。事実上、ムガベ大統領の独裁政治体制が続いている。\\n\\nローデシア共和国初代首相であった[[イアン・スミス]]は、政界復帰を狙っていると伝えられていたが、[[2007年]]11月20日に[[南アフリカ共和国]]・[[ケープタウン]]の自宅で[[心不全]]により88歳で死去した。\\n\\n[[2008年]]3月29日より[[2008年ジンバブエ大統領選挙|大統領選挙]]が始まり、現職の与党[[ジンバブエ・アフリカ民族同盟愛国戦線]]のムガベ大統領他、与党から造反した[[シンバ・マコニ]]元財務相と最大野党の[[民主変革運動]](MDC)の[[モーガン・ツァンギライ]]議長が立候補していたが、ムガベ政権からの弾圧によりツァンギライ議長は出馬の取り止めを余儀なくされた。これにより、ムガベ大統領は欧米からの決選投票延期要請を無視し、投票を強行、勝利したと宣言した。[[7月11日]]、[[国際連合安全保障理事会]]にジンバブエ政府非難と、ムガベ大統領ら政権幹部の資産凍結・渡航禁止などの制裁決議案が提出された。しかし、[[中華人民共和国|中国]]と[[ロシア]]が内政問題であるとして[[拒否権]]を発動し、否決された。賛成9([[アメリカ合衆国|アメリカ]]、[[フランス]]、[[イギリス]]、[[イタリア]]、[[ベルギー]]、[[パナマ]]、[[クロアチア]]、[[コスタリカ]]、[[ブルキナファソ]])、反対5(中、露、[[南アフリカ共和国|南アフリカ]]、[[リビア]]、[[ベトナム]])、棄権1([[インドネシア]])だった。その後もライス米国務長官は、ムガベ政権の海外資産を凍結するなどの制裁措置を英国やアフリカの同盟国と協議する事を明らかにしている<ref>{{cite news\\n|title = 米国務長官:ジンバブエ制裁 多国間で協議へ\\n|newspaper = 毎日新聞\\n|date = 2008-12-22\\n|url = http://mainichi.jp/select/world/news/20081224k0000m030034000c.html\\n}}</ref>。\\n\\n2009年2月11日、連立政権が樹立しMDCツァンギライ議長が首相に就任したため独裁体制に区切りがついた形だが、現地の英国大使館が地元紙に「ムガベ大統領が退陣しない限り意味がない」という広告を出すなど、懐疑論も強く残っている<ref>{{cite news\\n|title = ジンバブエ、野党議長が首相に就任\\n|newspaper = 産経新聞\\n|date = 2009-02-11\\n|url = http://sankei.jp.msn.com/world/mideast/090211/mds0902111906002-n1.htm\\n}}</ref>。\\n{{See also|ジンバブエの政党一覧}}\\n\\n=== 国外メディアの報道規制 ===\\n国内では厳しい報道規制が敷かれ、政府は[[CNN]]・[[英国放送協会|BBC]]といった欧米メディアによる取材を禁止している。宗主国であったイギリスに対するジンバブエ国民の悪感情は根強い。またイギリス側のジンバブエ報道も、過度に扇情的であるとの指摘もされている。\\n\\n[[日本]]、[[ガボン]]と同じく、取材対象の公的機関が、一部の報道機関に対して排他的かつ独占的な便宜を供与(取材場所の提供、取材費用の負担等)する形の[[記者クラブ]]制度を有する。\\n\\n=== 海外との関係 ===\\n前述の植民地時代の影響で[[反英]]感情または反白人感情が強く、CNN、BBC の取材禁止や白人が所有していた農地を強引に国有化、白人所有大農場の強制収用を政策をするなどムガベ大統領の反白人感情が影響しており、ムガベは自分を非難した[[コンドリーザ・ライス]]を『[[白人]]の[[奴隷]]』と侮辱し、[[アメリカ合衆国の奴隷制度の歴史|過去のアメリカ合衆国の黒人奴隷制度]]の批判もしていたため[[反米]]感情もある。\\n\\n最近は非白人国家の[[中華人民共和国]]と友好関係を深めている。ムガベは白人社会の欧米諸国や[[オーストラリア]]への入国を禁止されているが、[[華人]]社会の[[香港]]、[[シンガポール]]などに訪問して別荘を購入するなど超豪華生活を堪能している。アメリカ合衆国、イギリス、フランスはジンバブエへの経済制裁を求めているが、他の[[常任理事国]]の中華人民共和国、[[ロシア]]は、ジンバブエへの経済制裁は内政問題という理由で[[拒否権]]を発動した。\\n\\n== 地方行政区分 ==\\n[[ファイル:Zimbabwe Provinces numbered 300px.png|thumb|[[ジンバブエの行政区画]]]]\\n{{main|ジンバブエの行政区画}}\\n#[[ブラワヨ]]市\\n#[[ハラレ]]市\\n#[[マニカランド州]](東部)\\n#[[中央マショナランド州|マショナランド中央州]](北部)\\n#[[東マショナランド州|マショナランド東部州]](北部)\\n#[[西マショナランド州|マショナランド西部州]](北部)\\n#[[マシンゴ州|マスィンゴ州]](南東部)\\n#[[北マタベレランド州]](西部)\\n#[[南マタベレランド州]](西部)\\n#[[ミッドランズ州]]\\n\\n===主要都市===\\n{{Main|ジンバブエの都市の一覧}}\\n主要な都市は[[ハラレ]](首都)、[[ブラワヨ]]がある。\\n\\n== 地理 ==\\n[[ファイル:Zi-map-ja.gif|thumb|right|260px|ジンバブエの地図]]<!--\\n\\'\\'詳細は[[ジンバブエの地理]]を参照\\'\\' -->\\nアフリカ南部に位置し、[[モザンビーク]]、[[南アフリカ]]、[[ボツワナ]]、[[ザンビア]]と国境を接する。ザンビア国境には[[ヴィクトリア滝]]が位置する。[[内陸国]]である。座標は東経30度・南緯20度のあたり。\\n\\n面積は390,580 km²、うち陸地面積が 386,670 km²、内水面面積が 3,910 km²を占める。面積は[[日本]]とほぼ同じである。気候は[[熱帯性]]であるが、高地のためやや温暖である。[[雨季]]は[[11月]]から[[3月]]にかけて続く。地形は高原が大部分を占める。東部は山岳地帯である。国内最低地点は{{仮リンク|ルンデ川|en|Runde River}}と{{仮リンク|サビ川|en|Save River (Africa)}}の合流地点で標高162 m、最高地点は{{仮リンク|ンヤンガニ山|en|Mount Nyangani}}([[ショナ語]]: {{lang|sn|Gomo reNyangani}}、旧インヤンガニ山)で標高2,592 m。\\n\\n[[石炭]]、[[クロム]]鉱石、[[石綿|アスベスト]]、[[金]]、[[ニッケル]]、[[銅]]、[[鉄]]鉱石、[[バナジウム]]、[[リチウム]]、[[スズ|錫]]、[[白金|プラチナ]]族金属を産する。\\n\\n== 経済 ==\\n[[File:Eastgate Centre, Harare, Zimbabwe.jpg|thumb|left|首都[[ハラレ]]]]\\n[[File:Key Crops production in Zimbabwe.svg|thumb|180px|主要作物の生産量の推移([[1999年]]/[[2000年]]から[[2007年]])]]\\n<!--\\'\\'詳細は[[ジンバブエの経済]]を参照\\'\\' -->\\nかつては[[農業]]、[[鉱業]]、[[工業]]のバランスの取れた経済を有する国家であった。白人大規模農家による非常に効率的な農業が行われており、外貨収入の半数を農産物の輸出で得ている農業国として、ヨーロッパから「アフリカの穀物庫」と呼ばれていたほどであった<ref name=\"外務省\"/>。特に[[コムギ]]の生産性は高く、10アールあたりの単収は[[1980年代]]から[[1990年代]]にかけては550kgから600kgにものぼり、ヨーロッパ諸国と肩を並べ世界最高水準に達していた<ref>「図説アフリカ経済」(平野克己著、日本評論社、2002年)p46</ref>。\\n\\nしかし、これを支えていたのは、低賃金で過酷な労働使役についていた黒人であった(注:これはムガベ大統領と大統領の支持派のコメントである)。その恩恵を本来の国民である彼らが受けることはなく、対外的に経済のバランスが保たれる一方で、彼らは貧困に喘ぎ続ける状況にあった。また、国土の90%以上を所有していた白人農場主には、欧米の本国に住みながらの[[不在地主]]も多かった。\\n\\n白人農家に対する強制土地収用政策の開始後、ノウハウを持つ白人農家の消滅、大規模商業農業システムの崩壊<ref name=\"外務省\"/>により、農作物の収量は激減した。なお、農場主と地元民との交渉による自主的な返還も多く、すべての土地が強制的に収用されたわけではない。基幹産業の農業の崩壊によって生じた外貨不足は、さらに部品を輸入で調達していた工業にも打撃を与え、経済は極度に悪化した<ref name=\"外務省\"/>。[[2002年]]には経済成長率は-12.1%を記録した。\\n旱魃により食糧不足が深刻化し、加えて欧米各国による[[経済制裁]]が影響し、[[2003年]]末には600%の[[インフレーション|インフレ]]が発生。[[2006年]]4月には1,000%以上に達した<ref>「[http://www.rbz.co.zw/about/inflation.asp Inflation Rates (2001=100)] 」。the Reserve Bank of Zimbabwe。</ref>。\\n\\n2007年8月23日、ジンバブエ政府が国内の外資系企業に対して株式の過半数を「ジンバブエの黒人」に譲渡するよう義務付ける法案を国会に提出、9月26日に通過した<ref>{{cite news\\n|title = ジンバブエ:外資系の株式過半数を黒人へ 法案提出\\n|newspaper = 毎日新聞\\n|date = 2007-08-24\\n|url = http://www.mainichi-msn.co.jp/kokusai/news/20070825k0000m030073000c.html\\n}}</ref>。\\n\\n通貨[[ジンバブエ・ドル]] ([[ISO 4217|ZWD]]) はアメリカの評論誌Foreign Policyによれば、2007年調査時点で世界で最も価値の低い通貨ワースト5の一つとなり<ref>Foreign Policy:\"[http://www.foreignpolicy.com/story/cms.php?story_id=3880 The List: The World’s Worst Currencies]\"\\nGIGAZINE 2007年06月19日 「[http://gigazine.net/index.php?/news/comments/20070619_worlds_worst_currencies/ 世界で最も価値の低い通貨トップ5]」</ref>、[[2008年]]5月に1億と2億5000万の額面のジンバブエ・ドル札が発行された後も、50億、250億、500億ドル札の発行と続き、7月には1000億ドル札の発行が行われた(これは発行時の時点で世界最高額面の紙幣)。そのため、コンピュータの処理にトラブルが発生したことから、中央銀行は[[デノミネーション]]を実施し、大幅な通貨単位の引き下げを実施した。それにより1000億ドルが10ドルとなり、対応した新紙幣が発行された。しかし、さらにインフレが続いたため、12月末には100億ドル新紙幣を、2009年1月には再び200億ドル紙幣と500億ドル紙幣の発行を行った。この時点でジンバブエ・ドルの価値は、250億(25000000000)ジンバブエ・ドル=1米ドルとなった。年間インフレ率は約2億3000万%に達した(2009年1月)。{{main|ジンバブエ・ドル}}\\n\\n2009年1月29日、ジンバブエ政府は完全に信用を失ったジンバブエ・ドルに代えて[[アメリカ合衆国ドル]]南アフリカ[[ランド (通貨)|ランド]]、ユーロ、英ポンド、ボツワナ・プラの国内流通を公式に認め、公務員の給与も米ドルで支払うことにし、この5通貨を法定通貨とした。これにより同国のハイパーインフレは終息を見せ、ジンバブエ政府によれば同年3月の物価は同1月比0.8%減となった<ref name=time>{{cite news\\n|url = http://www.time.com/time/world/article/0,8599,1887809,00.html\\n|title = Has Zimbabwe\\'s Runaway Inflation Been Tamed?\\n|publisher = [[TIME]]\\n|date = 2009-03-26\\n|accessdate = 2009-03-26\\n}}</ref>。2012年現在は、都市部では経済の復興の傾向がみられはじめている<ref>[http://gigazine.net/news/20120310-zimbabwe-us-dollar/ アフリカ諸国との格の違いを見せつけられたジンバブエの現状]</ref>。\\n\\n[[2013年]]1月29日、ジンバブエ政府は、前週の[[公務員]]への給与支払いにともない、[[国庫金]]の残高が217ドルになったことを明らかにした<ref>[http://www.afpbb.com/article/economy/2924692/10194951 国庫残高1万9700円、ジンバブエ財務相が公表] afp BB News 2013年1月31日</ref>。同時に、年内に予定されている憲法改正をめぐる国民投票と総選挙のための資金が不足していることを認め、国際社会の支援を要請した<ref>[http://www.newsweekjapan.jp/stories/world/2013/01/post-2832.php ジンバブエ「国庫残高217ドル」の焦り] News Week 2013年1月31日</ref>。\\n\\n2014年2月、ジンバブエ政府は法定通貨として、さらに中国人民元、インド・ルピー、豪ドル、日本円を加え、9通貨を法定通貨した。\\n\\n== 国民 ==\\n[[ファイル:Shona witch doctor (Zimbabwe).jpg|thumb|160px|伝統的な衣装に身を包んだ[[ショナ人]]の[[呪術医]]]]<!--\\n\\'\\'詳細は[[ジンバブエの国民]]を参照\\'\\' -->\\n\\n=== 民族 ===\\n{{main|:en:Demographics of Zimbabwe}}\\n\\n[[ショナ人]]が71%、{{仮リンク|北ンデベレ人|en|Northern Ndebele people|label=ンデベレ人}}が16%、その他のアフリカ系([[バントゥー系民族|バントゥー系]]の[[:en:Venda people]]、[[:en:Tonga people of Zambia and Zimbabwe|Tonga people]]、[[シャンガーン人]]、[[:en:Kalanga people]]、[[:en:Sotho people]]、[[:en:Ndau people]]、[[:en:Nambya]])が11%、残りはヨーロッパ人やアジア人などである。\\n\\n=== 言語 ===\\n[[公用語]]は[[英語]]だが、[[ショナ語]]、[[北ンデベレ語]]などが主に使われる。\\n\\n=== 宗教 ===\\n[[キリスト教]]と部族宗教の混合が50%、キリスト教が25%、部族宗教が24%、[[イスラム教]]などが1%となっている。\\n\\n===教育===\\n{{節stub}}\\n\\n=== 保健 ===\\n国民の約3割が [[ヒト免疫不全ウイルス|HIV]] に感染しているといわれており、[[世界保健機関]] (WHO) の2006年版の「世界保健報告」によると、[[平均寿命]]は36歳と世界で最も短い(1990年の時点では62歳であった)。\\n\\n== 文化 ==\\n=== 食文化 ===\\n[[トウモロコシ]]の粉を煮詰めた「[[サザ]]」、[[ホウレンソウ]]と[[ピーナッツバター]]を混ぜた「[[ラリッシュ]]」という料理が存在する。この2つは基本的にセットで食されることが多い。\\n\\n=== 文学 ===\\n{{See also|アフリカ文学}}\\n1960年代の独立戦争の頃からチムレンガ文学と呼ばれる文学潮流が生まれた。『骨たち』 (1988) で知られる[[チェンジェライ・ホーヴェ]]がジンバブエの特に著名な作家の名として挙げられる。\\n\\n=== 世界遺産 ===\\n{{Main|ジンバブエの世界遺産}}\\n\\nジンバブエ国内には、[[国際連合教育科学文化機関|ユネスコ]]の[[世界遺産]]リストに登録された[[文化遺産 (世界遺産)|文化遺産]]が3件、[[自然遺産 (世界遺産)|自然遺産]]が1件存在し、ザンビアにまたがって1件の自然遺産が登録されている。\\n\\n<gallery>\\nファイル:ZmbziRvr.jpg|[[マナ・プールズ|マナ・プールズ国立公園、サピとチュウォールのサファリ地域]] - (1984年、自然遺産)\\nファイル:Great-Zimbabwe-2.jpg|国史跡[[グレート・ジンバブエ遺跡]] - (1986年、文化遺産)\\nファイル:Exterior of great enclosure,G.Zimbabwe.JPG|グレートジンバブエ遺跡の「大囲壁」の外観。Randall-MacIver,D.1906より\\nファイル:Precipice Ruin,Khami(Randall-MacIver,D1906).jpg|国史跡[[カミ遺跡群]] - (1986年、文化遺産)\\nファイル:Victoriafälle.jpg|[[ヴィクトリアの滝|モシ・オ・トゥニャ/ヴィクトリアの滝]] - (1989年、自然遺産)\\n</gallery>\\n\\n=== 祝祭日 ===\\n{|class=\"wikitable\"\\n!日付\\n!日本語表記\\n!現地語表記\\n!備考\\n|-\\n|[[1月1日]]-[[1月2日|2日]]||[[元日]]|| ||\\n|-\\n|[[4月18日]]||[[独立記念日]]|| ||\\n|-\\n|3月 - 4月||[[聖金曜日]]|| ||[[移動祝日]]\\n|-\\n|3月 - 4月||[[復活祭]]月曜日|| ||移動祝日\\n|-\\n|[[5月1日]]||[[メーデー]]|| ||\\n|-\\n|[[5月25日]]||[[アフリカの日]]|| ||\\n|-\\n|[[8月11日]]||英雄の日|| ||\\n|-\\n|[[8月12日]]||国軍記念日|| ||\\n|-\\n|[[12月22日]]||国民統合の日|| ||\\n|-\\n|[[12月25日]]||[[クリスマス]]|| ||\\n|-\\n|[[12月26日]]||[[ボクシングデー]]|| ||\\n|}\\n\\n*祝日が日曜日の場合は翌日が振替休日となる。\\n\\n=== スポーツ ===\\n団体競技では過去2回[[ラグビーワールドカップ|ワールドカップ]]に出場経験のある[[ラグビー]]、2003年に[[ケニア]]・[[南アフリカ共和国|南アフリカ]]と[[クリケットワールドカップ|ワールドカップ]]共催した[[クリケット]]、[[サッカー]]、[[テニス]]等が国際大会で実績を残してきた分野である。また[[ゴルフ]]では[[ワールドゴルフランキング]]1位にもなった1990年代を代表するプロゴルフ選手の一人である[[ニック・プライス]]が、[[競泳]]では[[オリンピック競泳競技|オリンピック]]や[[世界水泳選手権]]で多くのメダル獲得や世界記録を打ち立てた[[カースティ・コベントリー]]が活躍している。しかし2000年以降のムガベによる独裁政治の加速とそれに伴う国内政治・経済の混乱により、スポーツ分野も大きなダメージを受けている。\\n\\nテニスは1990年代から2000年代前半にかけて[[バイロン・ブラック]]、[[ウェイン・ブラック]]、[[カーラ・ブラック]]の「ブラック3兄妹」と[[ケビン・ウリエット]]という、後に全員が[[グランドスラム (テニス)|グランドスラム]]ダブルスタイトル保持者となる4人の白人選手の活躍により栄華を極めた。男子国別対抗戦[[デビスカップ]]でも、[[デビスカップジンバブエ代表]]は最上位グループの「ワールドグループ」に3度出場する等、選手層は薄いながらもテニス強国の一角を占めるまでに成長したが、2000年以降のムガベによる白人層の弾圧により4人の内ウリエットは他の多くの白人国民と同様にイギリスへの亡命を余儀なくされ<ref>{{Cite web\\n|author = Jean-François Pérès\\n|date = 2008年6月3日|url=http://www.rfi.fr/sportfr/articles/102/article_67023.asp\\n|title = «Mon ambition ? Entrer dans le Top 10»\\n|publisher = [[ラジオ・フランス・アンテルナショナル]]\\n|language = フランス語\\n|accessdate = 2010年12月2日}}</ref>、ブラック兄妹も活動拠点をイギリスに移す事態となり<ref>{{Cite web\\n|author=CHRISTOPHER CLAREY\\n|date = 2009年10月25日|url=http://www.nytimes.com/2009/10/26/sports/tennis/26iht-srdouble.html?hpw\\n|title = African Pair Reigns as Doubles Queens\\n|publisher = [[NYタイムズ]]\\n|language = 英語\\n|accessdate = 2010年12月2日}}</ref>、これにバイロンとウェインの現役引退が重なる形でデビスカップジンバブエ代表は主力選手を一気に失い、2002年のワールドグループ陥落から僅か7年で最下位カテゴリのアフリカゾーンⅣまで転落した<ref>{{Cite web\\n|url = http://www.daviscup.com/en/teams/team/profile.aspx?id=ZIM\\n|title =Davis Cup - Team - Profile\\n|publisher = [[国際テニス連盟|ITF]]\\n|language = 英語\\n|accessdate = 2010年12月7日\\n}}</ref>。女子テニスの[[フェドカップジンバブエ代表]]は90年代以降国際レベルで活躍している選手がカーラのみであり、国別対抗戦の[[フェドカップ]]でカーラ一人に掛かる負担が大き過ぎたことや、2000年以降はムガベの独裁政治に対する抗議の意味合いも加わる形で[[フェドカップ1996|1996年]]以降カーラがフェドカップ出場を拒否する状況が長年続いており<ref>{{Cite web\\n|url = http://www.fedcup.com/en/players/player/profile.aspx?playerid=20004191\\n|title = Fed Cup - Player - Profile\\n|publisher = [[国際テニス連盟|ITF]]\\n|language = 英語\\n|accessdate = 2010年12月7日\\n}}</ref>、カーラ個人の国際的な活躍と裏腹に代表は国別ランクで最下位レベルに低迷するばかりか、フェドカップ参加すら覚束ない状態となっている<ref>{{Cite web\\n|url = http://www.fedcup.com/en/teams/team/profile.aspx?id=ZIM\\n|title = Fed Cup - Team - Profile\\n|publisher = [[国際テニス連盟|ITF]]\\n|language = 英語\\n|accessdate = 2010年12月7日\\n}}</ref><ref>{{Cite web\\n|date = 2008年8月7日\\n|url = http://www2.uol.com.br/tenisbrasil/ultnot/ult133u1467.htm\\n|title = Cara Black evita comentar situação política no Zimbábue\\n|publisher = [[ウニヴェルソ・オンライン]]\\n|language = ポルトガル語\\n|accessdate = 2010年12月7日\\n}}</ref>。\\n\\n== 著名な出身者 ==\\n{{main|ジンバブエ人の一覧}}\\n*[[ニック・プライス]] - [[プロゴルファー]]\\n*[[カースティ・コベントリー]] - 競泳選手。[[アテネオリンピック (2004年)|アテネ五輪]]女子200m背泳ぎ[[金メダリスト]]\\n*[[バイロン・ブラック]] - プロ[[テニス選手]]\\n*[[ウェイン・ブラック]] - プロ[[テニス選手]]\\n*[[カーラ・ブラック]] - プロ[[テニス選手]]\\n*[[ケビン・ウリエット]] - プロ[[テニス選手]]\\n*[[ブルース・グロベラー]] - [[プロサッカー選手]]\\n*[[:en:Conrad Rautenbach|コンラッド・ローテンバッハ]] - [[世界ラリー選手権|WRC]]ラリードライバー\\n\\n== 脚注 ==\\n{{脚注ヘルプ}}\\n{{Reflist|2}}\\n\\n== 参考文献 ==\\n* {{Cite book|和書|author=[[小林信次郎]] |translator= |editor=[[岡倉登志]]編 |others= |chapter=アフリカ文学――黒人作家を中心として |title=ハンドブック現代アフリカ |series= |origdate= |origyear= |origmonth= |edition |date=2002年12月 |publisher=[[明石書店]] |location=[[東京]] |id= |isbn= |volume= |page= |pages= |url= |ref=小林(2002)}}\\n\\n== 関連項目 ==\\n{{Commons&cat|Zimbabwe|Zimbabwe}}\\n*[[グレート・ジンバブエ遺跡]]\\n*[[ローデシア]]\\n*[[ジンバブエにおける死刑]]\\n*[[記者クラブ]]\\n\\n== 外部リンク ==\\n*政府\\n**[http://www.zim.gov.zw/ ジンバブエ共和国政府] {{en icon}}\\n**[http://www5.ocn.ne.jp/~zimtokyo/index1.html 在日ジンバブエ大使館] {{ja icon}}\\n*日本政府\\n**[http://www.mofa.go.jp/mofaj/area/zimbabwe/ 日本外務省 - ジンバブエ] {{ja icon}}\\n**[http://www.zw.emb-japan.go.jp/ 在ジンバブエ日本国大使館] {{en icon}}{{ja icon}}\\n*青年海外協力隊ジンバブエ\\n**[https://sites.google.com/site/jocvzimbabwe/ WEB Shamwaring] {{ja icon}}\\n*青年海外協力隊体験記\\n**[http://zimnet.zouri.jp/ Zimbabwe.NET] {{ja icon}}\\n\\n{{アフリカ}}\\n{{イギリス連邦}}\\n{{ZW-stub}}\\n\\n{{DEFAULTSORT:しんはふえ}}\\n\\n[[Category:ジンバブエ|*]]\\n[[Category:内陸国]]\\n[[Category:共和国]]\\n{{Link GA|en}}'" | |
}, | |
"metadata": {}, | |
"execution_count": 9 | |
} | |
] | |
}, | |
{ | |
"metadata": { | |
"collapsed": true, | |
"trusted": true | |
}, | |
"cell_type": "code", | |
"source": "# カンボジア\n# {{基礎情報 国\\n| ... \\n|}}\\n\\n\n#load_gzipjson_country_text('カンボジア')", | |
"execution_count": 10, | |
"outputs": [] | |
}, | |
{ | |
"metadata": {}, | |
"cell_type": "markdown", | |
"source": "### 以上を踏まえて" | |
}, | |
{ | |
"metadata": {}, | |
"cell_type": "markdown", | |
"source": "#### 基礎情報のテキストの抽出" | |
}, | |
{ | |
"metadata": { | |
"collapsed": true, | |
"trusted": true | |
}, | |
"cell_type": "code", | |
"source": "import re\n\nbasic_info_txt_reg = re.compile(r'\\{\\{基礎情報(.+?)\\n\\|?\\}\\}\\n', re.MULTILINE|re.S) \n# 国別\ndef get_basic_info_from_country(country:str):\n text = load_country_text(country)\n #print(text)\n return basic_info_txt_reg.search(text).group(1)", | |
"execution_count": 11, | |
"outputs": [] | |
}, | |
{ | |
"metadata": { | |
"scrolled": true, | |
"collapsed": false, | |
"trusted": true | |
}, | |
"cell_type": "code", | |
"source": "get_basic_info_from_country('カンボジア')", | |
"execution_count": 12, | |
"outputs": [ | |
{ | |
"output_type": "execute_result", | |
"data": { | |
"text/plain": "' 国\\n|略名 = カンボジア\\n|日本語国名 = カンボジア王国\\n| 公式国名 =<big>{{lang|km|ព្រះរាជាណាចក្រកម្ពុជា}}</big>\\n| 国旗画像 =Flag of Cambodia.svg\\n| 国章画像 =[[ファイル:Coat_of_arms_of_Cambodia.svg|100px|カンボジアの国章(画像無し)]]\\n| 国章リンク =([[カンボジアの国章|国章]])\\n| 標語 =[[ファイル:CambodiaMotto.svg|200px|]]<br/>(クメール語:国民、信仰、国王)\\n| 位置画像 =Location Cambodia ASEAN.svg\\n| 公用語 =[[クメール語]]\\n| 首都 =[[プノンペン]]\\n| 最大都市 =プノンペン\\n| 元首等肩書 =[[カンボジアの国王|国王]]\\n| 元首等氏名 =[[ノロドム・シハモニ]]\\n| 首相等肩書 =[[カンボジアの首相|首相]]\\n| 首相等氏名 =[[フン・セン]]\\n| 面積順位 =87\\n| 面積大きさ =1 E11\\n| 面積値 =181,035\\n| 水面積率 =2.5%\\n| 人口統計年 =2013\\n| 人口順位 =68\\n| 人口大きさ =1 E7\\n| 人口値 =15,135,000\\n| 人口密度値 =81.8\\n| GDP統計年元 =2013\\n| GDP値元 =62兆5,592億<ref name=\"imf201404\">{{Cite web|url=http://www.imf.org/external/pubs/ft/weo/2014/01/weodata/weorept.aspx?sy=2012&ey=2014&scsm=1&ssd=1&sort=country&ds=.&br=1&c=522&s=NGDP%2CNGDPD%2CNGDPDPC%2CPPPGDP%2CPPPPC&grp=0&a=&pr.x=87&pr.y=6|title=World Economic Outlook Database, April 2014|publisher=[[国際通貨基金|IMF]]|language=英語|date=2014-04|accessdate=2014-10-04}}</ref>\\n| GDP統計年MER =2013\\n| GDP順位MER =114\\n| GDP値MER =157億<ref name=\"imf201404\" />\\n| GDP統計年 =2013\\n| GDP順位 =102\\n| GDP値 =397億<ref name=\"imf201404\" />\\n| GDP/人 =2,576<ref name=\"imf201404\" />\\n| 建国形態 =[[独立]]\\n| 確立形態1 =[[フランス]]より\\n| 確立年月日1 =[[1953年]][[11月9日]]\\n| 通貨 =[[リエル]]\\n| 通貨コード =KHR\\n| 時間帯 =+7\\n| 夏時間 =なし\\n| 国歌名 =素晴らしき王国\\n|ISO 3166-1 = KH / KHM\\n| ccTLD =[[.kh]]\\n| 国際電話番号 =855'" | |
}, | |
"metadata": {}, | |
"execution_count": 12 | |
} | |
] | |
}, | |
{ | |
"metadata": { | |
"collapsed": false, | |
"trusted": true | |
}, | |
"cell_type": "code", | |
"source": "get_basic_info_from_country('イギリス')", | |
"execution_count": 13, | |
"outputs": [ | |
{ | |
"output_type": "execute_result", | |
"data": { | |
"text/plain": "' 国\\n|略名 = イギリス\\n|日本語国名 = グレートブリテン及び北アイルランド連合王国\\n|公式国名 = {{lang|en|United Kingdom of Great Britain and Northern Ireland}}<ref>英語以外での正式国名:<br/>\\n*{{lang|gd|An Rìoghachd Aonaichte na Breatainn Mhòr agus Eirinn mu Thuath}}([[スコットランド・ゲール語]])<br/>\\n*{{lang|cy|Teyrnas Gyfunol Prydain Fawr a Gogledd Iwerddon}}([[ウェールズ語]])<br/>\\n*{{lang|ga|Ríocht Aontaithe na Breataine Móire agus Tuaisceart na hÉireann}}([[アイルランド語]])<br/>\\n*{{lang|kw|An Rywvaneth Unys a Vreten Veur hag Iwerdhon Glédh}}([[コーンウォール語]])<br/>\\n*{{lang|sco|Unitit Kinrick o Great Breetain an Northren Ireland}}([[スコットランド語]])<br/>\\n**{{lang|sco|Claught Kängrick o Docht Brätain an Norlin Airlann}}、{{lang|sco|Unitet Kängdom o Great Brittain an Norlin Airlann}}(アルスター・スコットランド語)</ref>\\n|国旗画像 = Flag of the United Kingdom.svg\\n|国章画像 = [[ファイル:Royal Coat of Arms of the United Kingdom.svg|85px|イギリスの国章]]\\n|国章リンク = ([[イギリスの国章|国章]])\\n|標語 = {{lang|fr|Dieu et mon droit}}<br/>([[フランス語]]:神と私の権利)\\n|国歌 = [[女王陛下万歳|神よ女王陛下を守り給え]]\\n|位置画像 = Location_UK_EU_Europe_001.svg\\n|公用語 = [[英語]](事実上)\\n|首都 = [[ロンドン]]\\n|最大都市 = ロンドン\\n|元首等肩書 = [[イギリスの君主|女王]]\\n|元首等氏名 = [[エリザベス2世]]\\n|首相等肩書 = [[イギリスの首相|首相]]\\n|首相等氏名 = [[デーヴィッド・キャメロン]]\\n|面積順位 = 76\\n|面積大きさ = 1 E11\\n|面積値 = 244,820\\n|水面積率 = 1.3%\\n|人口統計年 = 2011\\n|人口順位 = 22\\n|人口大きさ = 1 E7\\n|人口値 = 63,181,775<ref>[http://esa.un.org/unpd/wpp/Excel-Data/population.htm United Nations Department of Economic and Social Affairs>Population Division>Data>Population>Total Population]</ref>\\n|人口密度値 = 246\\n|GDP統計年元 = 2012\\n|GDP値元 = 1兆5478億<ref name=\"imf-statistics-gdp\">[http://www.imf.org/external/pubs/ft/weo/2012/02/weodata/weorept.aspx?pr.x=70&pr.y=13&sy=2010&ey=2012&scsm=1&ssd=1&sort=country&ds=.&br=1&c=112&s=NGDP%2CNGDPD%2CPPPGDP%2CPPPPC&grp=0&a= IMF>Data and Statistics>World Economic Outlook Databases>By Countrise>United Kingdom]</ref>\\n|GDP統計年MER = 2012\\n|GDP順位MER = 5\\n|GDP値MER = 2兆4337億<ref name=\"imf-statistics-gdp\" />\\n|GDP統計年 = 2012\\n|GDP順位 = 6\\n|GDP値 = 2兆3162億<ref name=\"imf-statistics-gdp\" />\\n|GDP/人 = 36,727<ref name=\"imf-statistics-gdp\" />\\n|建国形態 = 建国\\n|確立形態1 = [[イングランド王国]]/[[スコットランド王国]]<br />(両国とも[[連合法 (1707年)|1707年連合法]]まで)\\n|確立年月日1 = [[927年]]/[[843年]]\\n|確立形態2 = [[グレートブリテン王国]]建国<br />([[連合法 (1707年)|1707年連合法]])\\n|確立年月日2 = [[1707年]]\\n|確立形態3 = [[グレートブリテン及びアイルランド連合王国]]建国<br />([[連合法 (1800年)|1800年連合法]])\\n|確立年月日3 = [[1801年]]\\n|確立形態4 = 現在の国号「\\'\\'\\'グレートブリテン及び北アイルランド連合王国\\'\\'\\'」に変更\\n|確立年月日4 = [[1927年]]\\n|通貨 = [[スターリング・ポンド|UKポンド]] (£)\\n|通貨コード = GBP\\n|時間帯 = ±0\\n|夏時間 = +1\\n|ISO 3166-1 = GB / GBR\\n|ccTLD = [[.uk]] / [[.gb]]<ref>使用は.ukに比べ圧倒的少数。</ref>\\n|国際電話番号 = 44\\n|注記 = <references />'" | |
}, | |
"metadata": {}, | |
"execution_count": 13 | |
} | |
] | |
}, | |
{ | |
"metadata": { | |
"collapsed": false, | |
"trusted": true | |
}, | |
"cell_type": "code", | |
"source": "# \\n}}\\n\nget_basic_info_from_country('イラン')", | |
"execution_count": 14, | |
"outputs": [ | |
{ | |
"output_type": "execute_result", | |
"data": { | |
"text/plain": "' 国|\\n 略名 =イラン|\\n 日本語国名 =イラン・イスラム共和国|\\n 公式国名 =\\'\\'\\'{{Lang|fa|جمهوری اسلامی ایران}}\\'\\'\\'|\\n 国旗画像 =Flag of Iran.svg|\\n 国章画像 =[[ファイル:Coat of arms of Iran.svg|100px|イランの国章]]|\\n 国章リンク =[[イランの国章|国章]]|\\n 標語 =<span lang=\"fa\"> استقلال آزادی جمهوری اسلامی</span><br />ラテン文字転写:\\'\\'Esteqlāl, Āzādī, Jomhūrī-ye Eslāmī\\'\\'<br /> ([[ペルシア語]] : \"独立、自由、イスラム共和制\")|\\n 位置画像 =Iran (orthographic projection).svg|\\n 公用語 =[[ペルシア語]]|\\n 首都 =[[テヘラン]]|\\n 最大都市 =テヘラン|\\n 元首等肩書 =[[イランの最高指導者|最高指導者]]|\\n 元首等氏名 =[[アリー・ハーメネイー]]|\\n 首相等肩書 =[[イランの大統領|大統領]]|\\n 首相等氏名 =[[ハサン・ロウハーニー]]|\\n 面積順位 =17|\\n 面積大きさ =1 E12|\\n 面積値 =1,648,195|\\n 水面積率 =0.7%|\\n 人口統計年 =2012|\\n 人口順位 =|\\n 人口大きさ =1 E7|\\n 人口値 =75,600,000|\\n 人口密度値 =43|\\n GDP統計年元 =2013|\\n GDP値元 =9,072兆2,320億<ref name=\"imf201404\">{{Cite web|url=http://www.imf.org/external/pubs/ft/weo/2014/01/weodata/weorept.aspx?sy=2012&ey=2014&scsm=1&ssd=1&sort=country&ds=.&br=1&c=429&s=NGDP_R%2CNGDP_RPCH%2CNGDP%2CNGDPD%2CNGDPRPC%2CNGDPPC%2CNGDPDPC%2CPPPGDP%2CPPPPC%2CPPPSH%2CNGSD_NGDP&grp=0&a=&pr.x=54&pr.y=5|title=World Economic Outlook Database, April 2014|publisher = [[国際通貨基金|IMF]]|date = 2014-04|accessdate = 2014-09-28}}</ref>|\\n GDP統計年MER =2013|\\n GDP順位MER =32|\\n GDP値MER =3,663億<ref name=\"imf201404\" />|\\n GDP統計年 =2013|\\n GDP順位 =18|\\n GDP値 =9,455億<ref name=\"imf201404\" />|\\n GDP/人 =12,264<ref name=\"imf201404\" />|\\n 建国形態 =成立<br /> - |\\n 建国年月日 =[[イラン革命|イラン・イスラム革命]]<br />[[1979年]][[4月1日]]|\\n 通貨 =[[イラン・リヤル]] (IR) |\\n 通貨コード =IRR|\\n 時間帯 =+3:30|\\n 夏時間 =+4:30|\\n 国歌名 =イラン・イスラム共和国国歌|\\n ISO 3166-1 = IR / IRN|\\n ccTLD =[[.ir]]|\\n 国際電話番号 =98|\\n 注記 =|\\n 駐日大使館の所在地 =東京都港区南麻布三丁目13-9'" | |
}, | |
"metadata": {}, | |
"execution_count": 14 | |
} | |
] | |
}, | |
{ | |
"metadata": {}, | |
"cell_type": "markdown", | |
"source": "#### 基礎情報を辞書で返す(国別)" | |
}, | |
{ | |
"metadata": { | |
"collapsed": false, | |
"trusted": true | |
}, | |
"cell_type": "code", | |
"source": "import re\n\nsplit_reg = re.compile(r'\\n\\||\\|\\n', re.MULTILINE|re.S)\ndict_reg = re.compile(r'^(.+?)\\s*=\\s*(.+)$')\ndef get_basic_info_dict_from_country(country:str):\n basic_info_txt = get_basic_info_from_country(country)\n basic_info_lines = split_reg.split(basic_info_txt)\n return {dict_reg.search(line).group(1).strip():dict_reg.search(line).group(2).strip() for line in basic_info_lines if dict_reg.search(line)}", | |
"execution_count": 15, | |
"outputs": [] | |
}, | |
{ | |
"metadata": { | |
"collapsed": false, | |
"trusted": true | |
}, | |
"cell_type": "code", | |
"source": "eng = get_basic_info_dict_from_country('イギリス')\nprint(len(eng))\neng", | |
"execution_count": 16, | |
"outputs": [ | |
{ | |
"output_type": "stream", | |
"text": "50\n", | |
"name": "stdout" | |
}, | |
{ | |
"output_type": "execute_result", | |
"data": { | |
"text/plain": "{'GDP/人': '36,727<ref name=\"imf-statistics-gdp\" />',\n 'GDP値': '2兆3162億<ref name=\"imf-statistics-gdp\" />',\n 'GDP値MER': '2兆4337億<ref name=\"imf-statistics-gdp\" />',\n 'GDP値元': '1兆5478億<ref name=\"imf-statistics-gdp\">[http://www.imf.org/external/pubs/ft/weo/2012/02/weodata/weorept.aspx?pr.x=70&pr.y=13&sy=2010&ey=2012&scsm=1&ssd=1&sort=country&ds=.&br=1&c=112&s=NGDP%2CNGDPD%2CPPPGDP%2CPPPPC&grp=0&a= IMF>Data and Statistics>World Economic Outlook Databases>By Countrise>United Kingdom]</ref>',\n 'GDP統計年': '2012',\n 'GDP統計年MER': '2012',\n 'GDP統計年元': '2012',\n 'GDP順位': '6',\n 'GDP順位MER': '5',\n 'ISO 3166-1': 'GB / GBR',\n 'ccTLD': '[[.uk]] / [[.gb]]<ref>使用は.ukに比べ圧倒的少数。</ref>',\n '人口値': '63,181,775<ref>[http://esa.un.org/unpd/wpp/Excel-Data/population.htm United Nations Department of Economic and Social Affairs>Population Division>Data>Population>Total Population]</ref>',\n '人口大きさ': '1 E7',\n '人口密度値': '246',\n '人口統計年': '2011',\n '人口順位': '22',\n '位置画像': 'Location_UK_EU_Europe_001.svg',\n '元首等氏名': '[[エリザベス2世]]',\n '元首等肩書': '[[イギリスの君主|女王]]',\n '公用語': '[[英語]](事実上)',\n '国旗画像': 'Flag of the United Kingdom.svg',\n '国歌': '[[女王陛下万歳|神よ女王陛下を守り給え]]',\n '国章リンク': '([[イギリスの国章|国章]])',\n '国章画像': '[[ファイル:Royal Coat of Arms of the United Kingdom.svg|85px|イギリスの国章]]',\n '国際電話番号': '44',\n '夏時間': '+1',\n '建国形態': '建国',\n '日本語国名': 'グレートブリテン及び北アイルランド連合王国',\n '時間帯': '±0',\n '最大都市': 'ロンドン',\n '標語': '{{lang|fr|Dieu et mon droit}}<br/>([[フランス語]]:神と私の権利)',\n '水面積率': '1.3%',\n '注記': '<references />',\n '略名': 'イギリス',\n '確立年月日1': '[[927年]]/[[843年]]',\n '確立年月日2': '[[1707年]]',\n '確立年月日3': '[[1801年]]',\n '確立年月日4': '[[1927年]]',\n '確立形態1': '[[イングランド王国]]/[[スコットランド王国]]<br />(両国とも[[連合法 (1707年)|1707年連合法]]まで)',\n '確立形態2': '[[グレートブリテン王国]]建国<br />([[連合法 (1707年)|1707年連合法]])',\n '確立形態3': '[[グレートブリテン及びアイルランド連合王国]]建国<br />([[連合法 (1800年)|1800年連合法]])',\n '確立形態4': \"現在の国号「'''グレートブリテン及び北アイルランド連合王国'''」に変更\",\n '通貨': '[[スターリング・ポンド|UKポンド]] (£)',\n '通貨コード': 'GBP',\n '面積値': '244,820',\n '面積大きさ': '1 E11',\n '面積順位': '76',\n '首相等氏名': '[[デーヴィッド・キャメロン]]',\n '首相等肩書': '[[イギリスの首相|首相]]',\n '首都': '[[ロンドン]]'}" | |
}, | |
"metadata": {}, | |
"execution_count": 16 | |
} | |
] | |
}, | |
{ | |
"metadata": { | |
"scrolled": true, | |
"collapsed": false, | |
"trusted": true | |
}, | |
"cell_type": "code", | |
"source": "get_basic_info_dict_from_country('カンボジア')", | |
"execution_count": 17, | |
"outputs": [ | |
{ | |
"output_type": "execute_result", | |
"data": { | |
"text/plain": "{'GDP/人': '2,576<ref name=\"imf201404\" />',\n 'GDP値': '397億<ref name=\"imf201404\" />',\n 'GDP値MER': '157億<ref name=\"imf201404\" />',\n 'GDP値元': '62兆5,592億<ref name=\"imf201404\">{{Cite web|url=http://www.imf.org/external/pubs/ft/weo/2014/01/weodata/weorept.aspx?sy=2012&ey=2014&scsm=1&ssd=1&sort=country&ds=.&br=1&c=522&s=NGDP%2CNGDPD%2CNGDPDPC%2CPPPGDP%2CPPPPC&grp=0&a=&pr.x=87&pr.y=6|title=World Economic Outlook Database, April 2014|publisher=[[国際通貨基金|IMF]]|language=英語|date=2014-04|accessdate=2014-10-04}}</ref>',\n 'GDP統計年': '2013',\n 'GDP統計年MER': '2013',\n 'GDP統計年元': '2013',\n 'GDP順位': '102',\n 'GDP順位MER': '114',\n 'ISO 3166-1': 'KH / KHM',\n 'ccTLD': '[[.kh]]',\n '人口値': '15,135,000',\n '人口大きさ': '1 E7',\n '人口密度値': '81.8',\n '人口統計年': '2013',\n '人口順位': '68',\n '位置画像': 'Location Cambodia ASEAN.svg',\n '元首等氏名': '[[ノロドム・シハモニ]]',\n '元首等肩書': '[[カンボジアの国王|国王]]',\n '公式国名': '<big>{{lang|km|ព្រះរាជាណាចក្រកម្ពុជា}}</big>',\n '公用語': '[[クメール語]]',\n '国旗画像': 'Flag of Cambodia.svg',\n '国歌名': '素晴らしき王国',\n '国章リンク': '([[カンボジアの国章|国章]])',\n '国章画像': '[[ファイル:Coat_of_arms_of_Cambodia.svg|100px|カンボジアの国章(画像無し)]]',\n '国際電話番号': '855',\n '夏時間': 'なし',\n '建国形態': '[[独立]]',\n '日本語国名': 'カンボジア王国',\n '時間帯': '+7',\n '最大都市': 'プノンペン',\n '標語': '[[ファイル:CambodiaMotto.svg|200px|]]<br/>(クメール語:国民、信仰、国王)',\n '水面積率': '2.5%',\n '略名': 'カンボジア',\n '確立年月日1': '[[1953年]][[11月9日]]',\n '確立形態1': '[[フランス]]より',\n '通貨': '[[リエル]]',\n '通貨コード': 'KHR',\n '面積値': '181,035',\n '面積大きさ': '1 E11',\n '面積順位': '87',\n '首相等氏名': '[[フン・セン]]',\n '首相等肩書': '[[カンボジアの首相|首相]]',\n '首都': '[[プノンペン]]'}" | |
}, | |
"metadata": {}, | |
"execution_count": 17 | |
} | |
] | |
}, | |
{ | |
"metadata": { | |
"scrolled": true, | |
"collapsed": false, | |
"trusted": true | |
}, | |
"cell_type": "code", | |
"source": "get_basic_info_dict_from_country('ボリビア')", | |
"execution_count": 18, | |
"outputs": [ | |
{ | |
"output_type": "execute_result", | |
"data": { | |
"text/plain": "{'GDP/人': '4,330<ref name=\"economy\" />',\n 'GDP値': '434億<ref name=\"economy\" />',\n 'GDP値MER': '174億<ref name=\"economy\" />',\n 'GDP値元': '1,265億<ref name=\"economy\">IMF Data and Statistics 2009年4月27日閲覧([http://www.imf.org/external/pubs/ft/weo/2009/01/weodata/weorept.aspx?pr.x=43&pr.y=8&sy=2008&ey=2008&scsm=1&ssd=1&sort=country&ds=.&br=1&c=218&s=NGDP%2CNGDPD%2CPPPGDP%2CPPPPC&grp=0&a=])</ref>',\n 'GDP統計年': '2008',\n 'GDP統計年MER': '2008',\n 'GDP統計年元': '2008',\n 'GDP順位': '103',\n 'GDP順位MER': '101',\n 'ISO 3166-1': 'BO / BOL',\n 'ccTLD': '[[.bo]]',\n '人口値': '9,863,000',\n '人口大きさ': '1 E6',\n '人口密度値': '8',\n '人口統計年': '2008',\n '人口順位': '86',\n '位置画像': 'Bolivia (orthographic projection).svg',\n '元首等氏名': '[[エボ・モラレス]]',\n '元首等肩書': '[[ボリビアの大統領|大統領]]',\n '公式国名': \"'''{{Lang|es|Estado Plurinacional de Bolivia}}'''(スペイン語)<br/>'''{{lang|aym|Bulibiya Suyu}}'''(ケチュア語)<br/>'''{{lang|que|Buliwiya Mama Llaqta}}'''(アイマラ語)\",\n '公用語': '[[スペイン語]]、[[ケチュア|ケチュア語]]、[[アイマラ語]]、[[グアラニー語]]',\n '国旗画像': 'Flag of Bolivia.svg',\n '国歌名': 'ボリビアの国歌',\n '国章リンク': '([[ボリビアの国章|国章]])',\n '国章画像': '[[画像:Coat_of_arms_of_Bolivia.svg|100px|ボリビアの国章]]',\n '国際電話番号': '591',\n '夏時間': 'なし',\n '建国年月日': '[[スペイン]]より<br/>[[1825年]][[8月6日]]',\n '建国形態': '[[独立]]',\n '日本語国名': 'ボリビア多民族国',\n '時間帯': '-4',\n '最大都市': '[[サンタクルス|サンタ・クルス・デ・ラ・シエラ]]',\n '標語': \"''{{Lang|es|La unión es la fuerza!}}''<br/>([[スペイン語]]: 統一は力なり)\",\n '水面積率': '1.3%',\n '注記': '註1 : スクレは、憲法上の首都であり、司法府(最高裁判所)の所在地。ラパスは、立法府・行政府の所在地。',\n '略名': 'ボリビア',\n '通貨': '[[ボリビアーノ]] (Bs)',\n '通貨コード': 'BOB',\n '面積値': '1,098,580',\n '面積大きさ': '1 E12',\n '面積順位': '27',\n '首相等氏名': 'なし',\n '首相等肩書': '首相',\n '首都': '[[スクレ (ボリビア)|スクレ]](憲法上)¹<br />[[ラパス]](事実上)'}" | |
}, | |
"metadata": {}, | |
"execution_count": 18 | |
} | |
] | |
}, | |
{ | |
"metadata": { | |
"scrolled": true, | |
"collapsed": false, | |
"trusted": true | |
}, | |
"cell_type": "code", | |
"source": "get_basic_info_dict_from_country('イラン')", | |
"execution_count": 19, | |
"outputs": [ | |
{ | |
"output_type": "execute_result", | |
"data": { | |
"text/plain": "{'GDP/人': '12,264<ref name=\"imf201404\" />',\n 'GDP値': '9,455億<ref name=\"imf201404\" />',\n 'GDP値MER': '3,663億<ref name=\"imf201404\" />',\n 'GDP値元': '9,072兆2,320億<ref name=\"imf201404\">{{Cite web|url=http://www.imf.org/external/pubs/ft/weo/2014/01/weodata/weorept.aspx?sy=2012&ey=2014&scsm=1&ssd=1&sort=country&ds=.&br=1&c=429&s=NGDP_R%2CNGDP_RPCH%2CNGDP%2CNGDPD%2CNGDPRPC%2CNGDPPC%2CNGDPDPC%2CPPPGDP%2CPPPPC%2CPPPSH%2CNGSD_NGDP&grp=0&a=&pr.x=54&pr.y=5|title=World Economic Outlook Database, April 2014|publisher = [[国際通貨基金|IMF]]|date = 2014-04|accessdate = 2014-09-28}}</ref>',\n 'GDP統計年': '2013',\n 'GDP統計年MER': '2013',\n 'GDP統計年元': '2013',\n 'GDP順位': '18',\n 'GDP順位MER': '32',\n 'ISO 3166-1': 'IR / IRN',\n 'ccTLD': '[[.ir]]',\n '人口値': '75,600,000',\n '人口大きさ': '1 E7',\n '人口密度値': '43',\n '人口統計年': '2012',\n '位置画像': 'Iran (orthographic projection).svg',\n '元首等氏名': '[[アリー・ハーメネイー]]',\n '元首等肩書': '[[イランの最高指導者|最高指導者]]',\n '公式国名': \"'''{{Lang|fa|جمهوری اسلامی ایران}}'''\",\n '公用語': '[[ペルシア語]]',\n '国旗画像': 'Flag of Iran.svg',\n '国歌名': 'イラン・イスラム共和国国歌',\n '国章リンク': '[[イランの国章|国章]]',\n '国章画像': '[[ファイル:Coat of arms of Iran.svg|100px|イランの国章]]',\n '国際電話番号': '98',\n '夏時間': '+4:30',\n '建国年月日': '[[イラン革命|イラン・イスラム革命]]<br />[[1979年]][[4月1日]]',\n '建国形態': '成立<br /> -',\n '日本語国名': 'イラン・イスラム共和国',\n '時間帯': '+3:30',\n '最大都市': 'テヘラン',\n '標語': '<span lang=\"fa\"> استقلال آزادی جمهوری اسلامی</span><br />ラテン文字転写:\\'\\'Esteqlāl, Āzādī, Jomhūrī-ye Eslāmī\\'\\'<br /> ([[ペルシア語]] : \"独立、自由、イスラム共和制\")',\n '水面積率': '0.7%',\n '略名': 'イラン',\n '通貨': '[[イラン・リヤル]] (IR)',\n '通貨コード': 'IRR',\n '面積値': '1,648,195',\n '面積大きさ': '1 E12',\n '面積順位': '17',\n '首相等氏名': '[[ハサン・ロウハーニー]]',\n '首相等肩書': '[[イランの大統領|大統領]]',\n '首都': '[[テヘラン]]',\n '駐日大使館の所在地': '東京都港区南麻布三丁目13-9'}" | |
}, | |
"metadata": {}, | |
"execution_count": 19 | |
} | |
] | |
}, | |
{ | |
"metadata": { | |
"collapsed": false, | |
"trusted": true | |
}, | |
"cell_type": "code", | |
"source": "get_basic_info_dict_from_country('エジプト')", | |
"execution_count": 20, | |
"outputs": [ | |
{ | |
"output_type": "execute_result", | |
"data": { | |
"text/plain": "{'GDP/人': '5,898<ref name=\"economy\" />',\n 'GDP値': '4,426億<ref name=\"economy\" />',\n 'GDP値MER': '1,621億<ref name=\"economy\" />',\n 'GDP値元': '8,965億<ref name=\"economy\">IMF Data and Statistics 2009年4月27日閲覧([http://www.imf.org/external/pubs/ft/weo/2009/01/weodata/weorept.aspx?pr.x=77&pr.y=19&sy=2008&ey=2008&scsm=1&ssd=1&sort=country&ds=.&br=1&c=469&s=NGDP%2CNGDPD%2CPPPGDP%2CPPPPC&grp=0&a=])</ref>',\n 'GDP統計年': '2008',\n 'GDP統計年MER': '2008',\n 'GDP統計年元': '2008',\n 'GDP順位': '28',\n 'GDP順位MER': '49',\n 'ISO 3166-1': 'EG / EGY',\n 'ccTLD': '[[.eg]]',\n '人口値': '81,120,000',\n '人口大きさ': '1 E7',\n '人口密度値': '76',\n '人口統計年': '2011',\n '位置画像': 'Egypt (orthographic projection).svg',\n '元首等氏名': '[[アブドルファッターフ・アッ=シーシー]]',\n '元首等肩書': '[[近代エジプトの国家元首の一覧|大統領]]',\n '公式国名': \"'''{{lang|ar|جمهورية مصر العربية}}'''\",\n '公用語': '[[アラビア語]]',\n '国旗画像': 'Flag of Egypt.svg',\n '国歌名': '我が祖国',\n '国章リンク': '([[エジプトの国章|国章]])',\n '国章画像': '[[ファイル:Coat_of_arms_of_Egypt.svg|100px|エジプトの国章]]',\n '国際電話番号': '20',\n '夏時間': '(+3)',\n '建国年月日': '[[イギリス]]より<br />[[1922年]][[2月28日]]',\n '建国形態': '[[独立]]<br /> - 日付',\n '日本語国名': 'エジプト・アラブ共和国',\n '時間帯': '(+2)',\n '最大都市': 'カイロ',\n '標語': 'なし',\n '水面積率': '0.6%',\n '略名': 'エジプト',\n '通貨': '[[エジプト・ポンド]] (£)',\n '通貨コード': 'EGP',\n '面積値': '1,001,450',\n '面積大きさ': '1 E12',\n '面積順位': '29',\n '首相等氏名': '[[イブラヒーム・メフレブ]]',\n '首相等肩書': '[[エジプトの首相|首相]]',\n '首都': '[[カイロ]]'}" | |
}, | |
"metadata": {}, | |
"execution_count": 20 | |
} | |
] | |
}, | |
{ | |
"metadata": {}, | |
"cell_type": "markdown", | |
"source": "#### すべてのテンプレートのテキストを返す" | |
}, | |
{ | |
"metadata": { | |
"collapsed": true, | |
"trusted": true | |
}, | |
"cell_type": "code", | |
"source": "def get_basic_info_template():\n with gzip.open('jawiki-country.json.gz', mode='rb') as gz_file:\n zip_lines = gz_file.readlines()\n template_txt_list = []\n for zip_line in zip_lines:\n js = json.loads(zip_line.decode(encoding='utf-8'))\n text = js['text']\n s = basic_info_txt_reg.search(text)\n if s:\n template_txt_list.append(s.group(1))\n else:\n pass\n # 基礎情報引っかからない国\n # print(js['title'])\n return template_txt_list", | |
"execution_count": 21, | |
"outputs": [] | |
}, | |
{ | |
"metadata": { | |
"collapsed": false, | |
"trusted": true | |
}, | |
"cell_type": "code", | |
"source": "temp = get_basic_info_template()\nlen(temp)", | |
"execution_count": 22, | |
"outputs": [ | |
{ | |
"output_type": "execute_result", | |
"data": { | |
"text/plain": "204" | |
}, | |
"metadata": {}, | |
"execution_count": 22 | |
} | |
] | |
}, | |
{ | |
"metadata": {}, | |
"cell_type": "markdown", | |
"source": "#### すべてのテンプレートをdictのlist で返す。" | |
}, | |
{ | |
"metadata": { | |
"collapsed": true, | |
"trusted": true | |
}, | |
"cell_type": "code", | |
"source": "def get_template_dicts():\n '''\n Return:\n list have dict, [{}]\n\n 204カ国 in 206カ国\n '''\n templlate_txt_list = get_basic_info_template()\n templates = []\n for txt in templlate_txt_list:\n #lines = txt.split('\\n|') if len(txt.split('\\n|')) > 1 else txt.split('|\\n')\n lines = split_reg.split(txt)\n d = {dict_reg.search(line).group(1).strip():dict_reg.search(line).group(2).strip() for line in lines if dict_reg.search(line)}\n templates.append(d)\n return templates", | |
"execution_count": 23, | |
"outputs": [] | |
}, | |
{ | |
"metadata": { | |
"collapsed": false, | |
"trusted": true | |
}, | |
"cell_type": "code", | |
"source": "dicts = get_template_dicts()\nlen(dicts)\ndicts[0]", | |
"execution_count": 24, | |
"outputs": [ | |
{ | |
"output_type": "execute_result", | |
"data": { | |
"text/plain": "{'GDP/人': '5,898<ref name=\"economy\" />',\n 'GDP値': '4,426億<ref name=\"economy\" />',\n 'GDP値MER': '1,621億<ref name=\"economy\" />',\n 'GDP値元': '8,965億<ref name=\"economy\">IMF Data and Statistics 2009年4月27日閲覧([http://www.imf.org/external/pubs/ft/weo/2009/01/weodata/weorept.aspx?pr.x=77&pr.y=19&sy=2008&ey=2008&scsm=1&ssd=1&sort=country&ds=.&br=1&c=469&s=NGDP%2CNGDPD%2CPPPGDP%2CPPPPC&grp=0&a=])</ref>',\n 'GDP統計年': '2008',\n 'GDP統計年MER': '2008',\n 'GDP統計年元': '2008',\n 'GDP順位': '28',\n 'GDP順位MER': '49',\n 'ISO 3166-1': 'EG / EGY',\n 'ccTLD': '[[.eg]]',\n '人口値': '81,120,000',\n '人口大きさ': '1 E7',\n '人口密度値': '76',\n '人口統計年': '2011',\n '位置画像': 'Egypt (orthographic projection).svg',\n '元首等氏名': '[[アブドルファッターフ・アッ=シーシー]]',\n '元首等肩書': '[[近代エジプトの国家元首の一覧|大統領]]',\n '公式国名': \"'''{{lang|ar|جمهورية مصر العربية}}'''\",\n '公用語': '[[アラビア語]]',\n '国旗画像': 'Flag of Egypt.svg',\n '国歌名': '我が祖国',\n '国章リンク': '([[エジプトの国章|国章]])',\n '国章画像': '[[ファイル:Coat_of_arms_of_Egypt.svg|100px|エジプトの国章]]',\n '国際電話番号': '20',\n '夏時間': '(+3)',\n '建国年月日': '[[イギリス]]より<br />[[1922年]][[2月28日]]',\n '建国形態': '[[独立]]<br /> - 日付',\n '日本語国名': 'エジプト・アラブ共和国',\n '時間帯': '(+2)',\n '最大都市': 'カイロ',\n '標語': 'なし',\n '水面積率': '0.6%',\n '略名': 'エジプト',\n '通貨': '[[エジプト・ポンド]] (£)',\n '通貨コード': 'EGP',\n '面積値': '1,001,450',\n '面積大きさ': '1 E12',\n '面積順位': '29',\n '首相等氏名': '[[イブラヒーム・メフレブ]]',\n '首相等肩書': '[[エジプトの首相|首相]]',\n '首都': '[[カイロ]]'}" | |
}, | |
"metadata": {}, | |
"execution_count": 24 | |
} | |
] | |
}, | |
{ | |
"metadata": {}, | |
"cell_type": "markdown", | |
"source": "## 26. 強調マークアップの除去" | |
}, | |
{ | |
"metadata": { | |
"collapsed": true | |
}, | |
"cell_type": "markdown", | |
"source": "25の処理時に,テンプレートの値からMediaWikiの強調マークアップ(弱い強調,強調,強い強調のすべて)を除去してテキストに変換せよ(\n[参考: マークアップ早見表](http://ja.wikipedia.org/wiki/Help:%E6%97%A9%E8%A6%8B%E8%A1%A8))." | |
}, | |
{ | |
"metadata": { | |
"collapsed": true, | |
"trusted": true | |
}, | |
"cell_type": "code", | |
"source": "import re\n\nem_markup_remove_reg = re.compile(r\"''+(.+?)''+\", re.MULTILINE|re.S)\n# 国別\ndef get_basic_info_dict_remove_emmarkup_from_country(country:str):\n dic = get_basic_info_dict_from_country(country)\n # print(dic)\n return {l[0]: em_markup_remove_reg.sub(r\"\\1\", l[1]) for l in dic.items()}", | |
"execution_count": 25, | |
"outputs": [] | |
}, | |
{ | |
"metadata": { | |
"scrolled": true, | |
"collapsed": false, | |
"trusted": true | |
}, | |
"cell_type": "code", | |
"source": "get_basic_info_dict_remove_emmarkup_from_country('エジプト')", | |
"execution_count": 26, | |
"outputs": [ | |
{ | |
"output_type": "execute_result", | |
"data": { | |
"text/plain": "{'GDP/人': '5,898<ref name=\"economy\" />',\n 'GDP値': '4,426億<ref name=\"economy\" />',\n 'GDP値MER': '1,621億<ref name=\"economy\" />',\n 'GDP値元': '8,965億<ref name=\"economy\">IMF Data and Statistics 2009年4月27日閲覧([http://www.imf.org/external/pubs/ft/weo/2009/01/weodata/weorept.aspx?pr.x=77&pr.y=19&sy=2008&ey=2008&scsm=1&ssd=1&sort=country&ds=.&br=1&c=469&s=NGDP%2CNGDPD%2CPPPGDP%2CPPPPC&grp=0&a=])</ref>',\n 'GDP統計年': '2008',\n 'GDP統計年MER': '2008',\n 'GDP統計年元': '2008',\n 'GDP順位': '28',\n 'GDP順位MER': '49',\n 'ISO 3166-1': 'EG / EGY',\n 'ccTLD': '[[.eg]]',\n '人口値': '81,120,000',\n '人口大きさ': '1 E7',\n '人口密度値': '76',\n '人口統計年': '2011',\n '位置画像': 'Egypt (orthographic projection).svg',\n '元首等氏名': '[[アブドルファッターフ・アッ=シーシー]]',\n '元首等肩書': '[[近代エジプトの国家元首の一覧|大統領]]',\n '公式国名': '{{lang|ar|جمهورية مصر العربية}}',\n '公用語': '[[アラビア語]]',\n '国旗画像': 'Flag of Egypt.svg',\n '国歌名': '我が祖国',\n '国章リンク': '([[エジプトの国章|国章]])',\n '国章画像': '[[ファイル:Coat_of_arms_of_Egypt.svg|100px|エジプトの国章]]',\n '国際電話番号': '20',\n '夏時間': '(+3)',\n '建国年月日': '[[イギリス]]より<br />[[1922年]][[2月28日]]',\n '建国形態': '[[独立]]<br /> - 日付',\n '日本語国名': 'エジプト・アラブ共和国',\n '時間帯': '(+2)',\n '最大都市': 'カイロ',\n '標語': 'なし',\n '水面積率': '0.6%',\n '略名': 'エジプト',\n '通貨': '[[エジプト・ポンド]] (£)',\n '通貨コード': 'EGP',\n '面積値': '1,001,450',\n '面積大きさ': '1 E12',\n '面積順位': '29',\n '首相等氏名': '[[イブラヒーム・メフレブ]]',\n '首相等肩書': '[[エジプトの首相|首相]]',\n '首都': '[[カイロ]]'}" | |
}, | |
"metadata": {}, | |
"execution_count": 26 | |
} | |
] | |
}, | |
{ | |
"metadata": { | |
"collapsed": true, | |
"trusted": true | |
}, | |
"cell_type": "code", | |
"source": "# すべて\nimport re\n\ndef get_templates_remove_emmarkup():\n template_dic_list = get_template_dicts()\n remove_list = []\n for temp_dic in template_dic_list:\n dic = {temp_list[0]:em_markup_remove_reg.sub(r\"\\1\", temp_list[1]) for temp_list in temp_dic.items()}\n remove_list.append(dic)\n return remove_list", | |
"execution_count": 27, | |
"outputs": [] | |
}, | |
{ | |
"metadata": { | |
"collapsed": false, | |
"trusted": true | |
}, | |
"cell_type": "code", | |
"source": "temps = get_templates_remove_emmarkup()\nlen(temps)\ntemps[0]", | |
"execution_count": 28, | |
"outputs": [ | |
{ | |
"output_type": "execute_result", | |
"data": { | |
"text/plain": "{'GDP/人': '5,898<ref name=\"economy\" />',\n 'GDP値': '4,426億<ref name=\"economy\" />',\n 'GDP値MER': '1,621億<ref name=\"economy\" />',\n 'GDP値元': '8,965億<ref name=\"economy\">IMF Data and Statistics 2009年4月27日閲覧([http://www.imf.org/external/pubs/ft/weo/2009/01/weodata/weorept.aspx?pr.x=77&pr.y=19&sy=2008&ey=2008&scsm=1&ssd=1&sort=country&ds=.&br=1&c=469&s=NGDP%2CNGDPD%2CPPPGDP%2CPPPPC&grp=0&a=])</ref>',\n 'GDP統計年': '2008',\n 'GDP統計年MER': '2008',\n 'GDP統計年元': '2008',\n 'GDP順位': '28',\n 'GDP順位MER': '49',\n 'ISO 3166-1': 'EG / EGY',\n 'ccTLD': '[[.eg]]',\n '人口値': '81,120,000',\n '人口大きさ': '1 E7',\n '人口密度値': '76',\n '人口統計年': '2011',\n '位置画像': 'Egypt (orthographic projection).svg',\n '元首等氏名': '[[アブドルファッターフ・アッ=シーシー]]',\n '元首等肩書': '[[近代エジプトの国家元首の一覧|大統領]]',\n '公式国名': '{{lang|ar|جمهورية مصر العربية}}',\n '公用語': '[[アラビア語]]',\n '国旗画像': 'Flag of Egypt.svg',\n '国歌名': '我が祖国',\n '国章リンク': '([[エジプトの国章|国章]])',\n '国章画像': '[[ファイル:Coat_of_arms_of_Egypt.svg|100px|エジプトの国章]]',\n '国際電話番号': '20',\n '夏時間': '(+3)',\n '建国年月日': '[[イギリス]]より<br />[[1922年]][[2月28日]]',\n '建国形態': '[[独立]]<br /> - 日付',\n '日本語国名': 'エジプト・アラブ共和国',\n '時間帯': '(+2)',\n '最大都市': 'カイロ',\n '標語': 'なし',\n '水面積率': '0.6%',\n '略名': 'エジプト',\n '通貨': '[[エジプト・ポンド]] (£)',\n '通貨コード': 'EGP',\n '面積値': '1,001,450',\n '面積大きさ': '1 E12',\n '面積順位': '29',\n '首相等氏名': '[[イブラヒーム・メフレブ]]',\n '首相等肩書': '[[エジプトの首相|首相]]',\n '首都': '[[カイロ]]'}" | |
}, | |
"metadata": {}, | |
"execution_count": 28 | |
} | |
] | |
}, | |
{ | |
"metadata": {}, | |
"cell_type": "markdown", | |
"source": "## 27. 内部リンクの除去" | |
}, | |
{ | |
"metadata": {}, | |
"cell_type": "markdown", | |
"source": "26の処理に加えて,テンプレートの値からMediaWikiの内部リンクマークアップを除去し,テキストに変換せよ([参考: マークアップ早見表](https://ja.wikipedia.org/wiki/Help:%E6%97%A9%E8%A6%8B%E8%A1%A8))." | |
}, | |
{ | |
"metadata": { | |
"collapsed": true, | |
"trusted": true | |
}, | |
"cell_type": "code", | |
"source": "import re\n\nlink_remove_reg = re.compile(r\"\\[\\[(.+?)\\]\\]\", re.MULTILINE|re.S)\n# 国別\ndef get_basic_info_dict_remove_link_from_country(country:str):\n dic = get_basic_info_dict_remove_emmarkup_from_country(country)\n return {l[0]: link_remove_reg.sub(r\"\\1\", l[1]) for l in dic.items()}", | |
"execution_count": 29, | |
"outputs": [] | |
}, | |
{ | |
"metadata": { | |
"collapsed": false, | |
"trusted": true | |
}, | |
"cell_type": "code", | |
"source": "get_basic_info_dict_remove_link_from_country('エジプト')", | |
"execution_count": 30, | |
"outputs": [ | |
{ | |
"output_type": "execute_result", | |
"data": { | |
"text/plain": "{'GDP/人': '5,898<ref name=\"economy\" />',\n 'GDP値': '4,426億<ref name=\"economy\" />',\n 'GDP値MER': '1,621億<ref name=\"economy\" />',\n 'GDP値元': '8,965億<ref name=\"economy\">IMF Data and Statistics 2009年4月27日閲覧([http://www.imf.org/external/pubs/ft/weo/2009/01/weodata/weorept.aspx?pr.x=77&pr.y=19&sy=2008&ey=2008&scsm=1&ssd=1&sort=country&ds=.&br=1&c=469&s=NGDP%2CNGDPD%2CPPPGDP%2CPPPPC&grp=0&a=])</ref>',\n 'GDP統計年': '2008',\n 'GDP統計年MER': '2008',\n 'GDP統計年元': '2008',\n 'GDP順位': '28',\n 'GDP順位MER': '49',\n 'ISO 3166-1': 'EG / EGY',\n 'ccTLD': '.eg',\n '人口値': '81,120,000',\n '人口大きさ': '1 E7',\n '人口密度値': '76',\n '人口統計年': '2011',\n '位置画像': 'Egypt (orthographic projection).svg',\n '元首等氏名': 'アブドルファッターフ・アッ=シーシー',\n '元首等肩書': '近代エジプトの国家元首の一覧|大統領',\n '公式国名': '{{lang|ar|جمهورية مصر العربية}}',\n '公用語': 'アラビア語',\n '国旗画像': 'Flag of Egypt.svg',\n '国歌名': '我が祖国',\n '国章リンク': '(エジプトの国章|国章)',\n '国章画像': 'ファイル:Coat_of_arms_of_Egypt.svg|100px|エジプトの国章',\n '国際電話番号': '20',\n '夏時間': '(+3)',\n '建国年月日': 'イギリスより<br />1922年2月28日',\n '建国形態': '独立<br /> - 日付',\n '日本語国名': 'エジプト・アラブ共和国',\n '時間帯': '(+2)',\n '最大都市': 'カイロ',\n '標語': 'なし',\n '水面積率': '0.6%',\n '略名': 'エジプト',\n '通貨': 'エジプト・ポンド (£)',\n '通貨コード': 'EGP',\n '面積値': '1,001,450',\n '面積大きさ': '1 E12',\n '面積順位': '29',\n '首相等氏名': 'イブラヒーム・メフレブ',\n '首相等肩書': 'エジプトの首相|首相',\n '首都': 'カイロ'}" | |
}, | |
"metadata": {}, | |
"execution_count": 30 | |
} | |
] | |
}, | |
{ | |
"metadata": { | |
"scrolled": true, | |
"collapsed": false, | |
"trusted": true | |
}, | |
"cell_type": "code", | |
"source": "get_basic_info_dict_remove_link_from_country('イラン')", | |
"execution_count": 31, | |
"outputs": [ | |
{ | |
"output_type": "execute_result", | |
"data": { | |
"text/plain": "{'GDP/人': '12,264<ref name=\"imf201404\" />',\n 'GDP値': '9,455億<ref name=\"imf201404\" />',\n 'GDP値MER': '3,663億<ref name=\"imf201404\" />',\n 'GDP値元': '9,072兆2,320億<ref name=\"imf201404\">{{Cite web|url=http://www.imf.org/external/pubs/ft/weo/2014/01/weodata/weorept.aspx?sy=2012&ey=2014&scsm=1&ssd=1&sort=country&ds=.&br=1&c=429&s=NGDP_R%2CNGDP_RPCH%2CNGDP%2CNGDPD%2CNGDPRPC%2CNGDPPC%2CNGDPDPC%2CPPPGDP%2CPPPPC%2CPPPSH%2CNGSD_NGDP&grp=0&a=&pr.x=54&pr.y=5|title=World Economic Outlook Database, April 2014|publisher = 国際通貨基金|IMF|date = 2014-04|accessdate = 2014-09-28}}</ref>',\n 'GDP統計年': '2013',\n 'GDP統計年MER': '2013',\n 'GDP統計年元': '2013',\n 'GDP順位': '18',\n 'GDP順位MER': '32',\n 'ISO 3166-1': 'IR / IRN',\n 'ccTLD': '.ir',\n '人口値': '75,600,000',\n '人口大きさ': '1 E7',\n '人口密度値': '43',\n '人口統計年': '2012',\n '位置画像': 'Iran (orthographic projection).svg',\n '元首等氏名': 'アリー・ハーメネイー',\n '元首等肩書': 'イランの最高指導者|最高指導者',\n '公式国名': '{{Lang|fa|جمهوری اسلامی ایران}}',\n '公用語': 'ペルシア語',\n '国旗画像': 'Flag of Iran.svg',\n '国歌名': 'イラン・イスラム共和国国歌',\n '国章リンク': 'イランの国章|国章',\n '国章画像': 'ファイル:Coat of arms of Iran.svg|100px|イランの国章',\n '国際電話番号': '98',\n '夏時間': '+4:30',\n '建国年月日': 'イラン革命|イラン・イスラム革命<br />1979年4月1日',\n '建国形態': '成立<br /> -',\n '日本語国名': 'イラン・イスラム共和国',\n '時間帯': '+3:30',\n '最大都市': 'テヘラン',\n '標語': '<span lang=\"fa\"> استقلال آزادی جمهوری اسلامی</span><br />ラテン文字転写:Esteqlāl, Āzādī, Jomhūrī-ye Eslāmī<br /> (ペルシア語 : \"独立、自由、イスラム共和制\")',\n '水面積率': '0.7%',\n '略名': 'イラン',\n '通貨': 'イラン・リヤル (IR)',\n '通貨コード': 'IRR',\n '面積値': '1,648,195',\n '面積大きさ': '1 E12',\n '面積順位': '17',\n '首相等氏名': 'ハサン・ロウハーニー',\n '首相等肩書': 'イランの大統領|大統領',\n '首都': 'テヘラン',\n '駐日大使館の所在地': '東京都港区南麻布三丁目13-9'}" | |
}, | |
"metadata": {}, | |
"execution_count": 31 | |
} | |
] | |
}, | |
{ | |
"metadata": { | |
"collapsed": true, | |
"trusted": true | |
}, | |
"cell_type": "code", | |
"source": "def get_templates_remove_link():\n template_dic_list = get_templates_remove_emmarkup()\n remove_list = []\n for temp_dic in template_dic_list:\n dic = {temp_list[0]:link_remove_reg.sub(r'\\1', temp_list[1]) for temp_list in temp_dic.items()}\n remove_list.append(dic)\n return remove_list", | |
"execution_count": 32, | |
"outputs": [] | |
}, | |
{ | |
"metadata": { | |
"collapsed": false, | |
"trusted": true | |
}, | |
"cell_type": "code", | |
"source": "temp = get_templates_remove_link()\nprint(len(temp))\ntemp[0]", | |
"execution_count": 33, | |
"outputs": [ | |
{ | |
"output_type": "stream", | |
"text": "204\n", | |
"name": "stdout" | |
}, | |
{ | |
"output_type": "execute_result", | |
"data": { | |
"text/plain": "{'GDP/人': '5,898<ref name=\"economy\" />',\n 'GDP値': '4,426億<ref name=\"economy\" />',\n 'GDP値MER': '1,621億<ref name=\"economy\" />',\n 'GDP値元': '8,965億<ref name=\"economy\">IMF Data and Statistics 2009年4月27日閲覧([http://www.imf.org/external/pubs/ft/weo/2009/01/weodata/weorept.aspx?pr.x=77&pr.y=19&sy=2008&ey=2008&scsm=1&ssd=1&sort=country&ds=.&br=1&c=469&s=NGDP%2CNGDPD%2CPPPGDP%2CPPPPC&grp=0&a=])</ref>',\n 'GDP統計年': '2008',\n 'GDP統計年MER': '2008',\n 'GDP統計年元': '2008',\n 'GDP順位': '28',\n 'GDP順位MER': '49',\n 'ISO 3166-1': 'EG / EGY',\n 'ccTLD': '.eg',\n '人口値': '81,120,000',\n '人口大きさ': '1 E7',\n '人口密度値': '76',\n '人口統計年': '2011',\n '位置画像': 'Egypt (orthographic projection).svg',\n '元首等氏名': 'アブドルファッターフ・アッ=シーシー',\n '元首等肩書': '近代エジプトの国家元首の一覧|大統領',\n '公式国名': '{{lang|ar|جمهورية مصر العربية}}',\n '公用語': 'アラビア語',\n '国旗画像': 'Flag of Egypt.svg',\n '国歌名': '我が祖国',\n '国章リンク': '(エジプトの国章|国章)',\n '国章画像': 'ファイル:Coat_of_arms_of_Egypt.svg|100px|エジプトの国章',\n '国際電話番号': '20',\n '夏時間': '(+3)',\n '建国年月日': 'イギリスより<br />1922年2月28日',\n '建国形態': '独立<br /> - 日付',\n '日本語国名': 'エジプト・アラブ共和国',\n '時間帯': '(+2)',\n '最大都市': 'カイロ',\n '標語': 'なし',\n '水面積率': '0.6%',\n '略名': 'エジプト',\n '通貨': 'エジプト・ポンド (£)',\n '通貨コード': 'EGP',\n '面積値': '1,001,450',\n '面積大きさ': '1 E12',\n '面積順位': '29',\n '首相等氏名': 'イブラヒーム・メフレブ',\n '首相等肩書': 'エジプトの首相|首相',\n '首都': 'カイロ'}" | |
}, | |
"metadata": {}, | |
"execution_count": 33 | |
} | |
] | |
}, | |
{ | |
"metadata": { | |
"collapsed": true | |
}, | |
"cell_type": "markdown", | |
"source": "## MediaWikiマークアップの除去" | |
}, | |
{ | |
"metadata": {}, | |
"cell_type": "markdown", | |
"source": "27の処理に加えて,テンプレートの値からMediaWikiマークアップを可能な限り除去し,国の基本情報を整形せよ." | |
}, | |
{ | |
"metadata": { | |
"collapsed": true, | |
"trusted": true | |
}, | |
"cell_type": "code", | |
"source": "import re\n\ndef remove_reg(s:str):\n s_ = s\n # htmlタグの除去\n html_tag_remove_reg = re.compile(r'\\<.+\\>(.+?)\\<\\/.+\\>', re.MULTILINE|re.S)\n s_ = html_tag_remove_reg.sub(r'\\1', s_)\n # htmlタグの閉じタグ削除\n html_close_tag_remove_reg = re.compile(r'\\<.+\\/\\>', re.MULTILINE|re.S)\n s_ = html_close_tag_remove_reg.sub(r'', s_)\n \n return s_\n \ndef get_basic_info_dict_remove_mediawiki_markup(country:str):\n dic = get_basic_info_dict_remove_link_from_country(country)\n return {l[0]:remove_reg(l[1]) for l in dic.items()}", | |
"execution_count": 34, | |
"outputs": [] | |
}, | |
{ | |
"metadata": { | |
"collapsed": false, | |
"trusted": true | |
}, | |
"cell_type": "code", | |
"source": "get_basic_info_dict_remove_mediawiki_markup('イギリス')", | |
"execution_count": 35, | |
"outputs": [ | |
{ | |
"output_type": "execute_result", | |
"data": { | |
"text/plain": "{'GDP/人': '36,727',\n 'GDP値': '2兆3162億',\n 'GDP値MER': '2兆4337億',\n 'GDP値元': '1兆5478億United Kingdom]',\n 'GDP統計年': '2012',\n 'GDP統計年MER': '2012',\n 'GDP統計年元': '2012',\n 'GDP順位': '6',\n 'GDP順位MER': '5',\n 'ISO 3166-1': 'GB / GBR',\n 'ccTLD': '.uk / .gb使用は.ukに比べ圧倒的少数。',\n '人口値': '63,181,775Total Population]',\n '人口大きさ': '1 E7',\n '人口密度値': '246',\n '人口統計年': '2011',\n '人口順位': '22',\n '位置画像': 'Location_UK_EU_Europe_001.svg',\n '元首等氏名': 'エリザベス2世',\n '元首等肩書': 'イギリスの君主|女王',\n '公用語': '英語(事実上)',\n '国旗画像': 'Flag of the United Kingdom.svg',\n '国歌': '女王陛下万歳|神よ女王陛下を守り給え',\n '国章リンク': '(イギリスの国章|国章)',\n '国章画像': 'ファイル:Royal Coat of Arms of the United Kingdom.svg|85px|イギリスの国章',\n '国際電話番号': '44',\n '夏時間': '+1',\n '建国形態': '建国',\n '日本語国名': 'グレートブリテン及び北アイルランド連合王国',\n '時間帯': '±0',\n '最大都市': 'ロンドン',\n '標語': '{{lang|fr|Dieu et mon droit}}(フランス語:神と私の権利)',\n '水面積率': '1.3%',\n '注記': '',\n '略名': 'イギリス',\n '確立年月日1': '927年/843年',\n '確立年月日2': '1707年',\n '確立年月日3': '1801年',\n '確立年月日4': '1927年',\n '確立形態1': 'イングランド王国/スコットランド王国(両国とも連合法 (1707年)|1707年連合法まで)',\n '確立形態2': 'グレートブリテン王国建国(連合法 (1707年)|1707年連合法)',\n '確立形態3': 'グレートブリテン及びアイルランド連合王国建国(連合法 (1800年)|1800年連合法)',\n '確立形態4': '現在の国号「グレートブリテン及び北アイルランド連合王国」に変更',\n '通貨': 'スターリング・ポンド|UKポンド (£)',\n '通貨コード': 'GBP',\n '面積値': '244,820',\n '面積大きさ': '1 E11',\n '面積順位': '76',\n '首相等氏名': 'デーヴィッド・キャメロン',\n '首相等肩書': 'イギリスの首相|首相',\n '首都': 'ロンドン'}" | |
}, | |
"metadata": {}, | |
"execution_count": 35 | |
} | |
] | |
}, | |
{ | |
"metadata": { | |
"collapsed": false, | |
"trusted": true | |
}, | |
"cell_type": "code", | |
"source": "get_basic_info_dict_remove_mediawiki_markup('エジプト')", | |
"execution_count": 36, | |
"outputs": [ | |
{ | |
"output_type": "execute_result", | |
"data": { | |
"text/plain": "{'GDP/人': '5,898',\n 'GDP値': '4,426億',\n 'GDP値MER': '1,621億',\n 'GDP値元': '8,965億IMF Data and Statistics 2009年4月27日閲覧([http://www.imf.org/external/pubs/ft/weo/2009/01/weodata/weorept.aspx?pr.x=77&pr.y=19&sy=2008&ey=2008&scsm=1&ssd=1&sort=country&ds=.&br=1&c=469&s=NGDP%2CNGDPD%2CPPPGDP%2CPPPPC&grp=0&a=])',\n 'GDP統計年': '2008',\n 'GDP統計年MER': '2008',\n 'GDP統計年元': '2008',\n 'GDP順位': '28',\n 'GDP順位MER': '49',\n 'ISO 3166-1': 'EG / EGY',\n 'ccTLD': '.eg',\n '人口値': '81,120,000',\n '人口大きさ': '1 E7',\n '人口密度値': '76',\n '人口統計年': '2011',\n '位置画像': 'Egypt (orthographic projection).svg',\n '元首等氏名': 'アブドルファッターフ・アッ=シーシー',\n '元首等肩書': '近代エジプトの国家元首の一覧|大統領',\n '公式国名': '{{lang|ar|جمهورية مصر العربية}}',\n '公用語': 'アラビア語',\n '国旗画像': 'Flag of Egypt.svg',\n '国歌名': '我が祖国',\n '国章リンク': '(エジプトの国章|国章)',\n '国章画像': 'ファイル:Coat_of_arms_of_Egypt.svg|100px|エジプトの国章',\n '国際電話番号': '20',\n '夏時間': '(+3)',\n '建国年月日': 'イギリスより1922年2月28日',\n '建国形態': '独立 - 日付',\n '日本語国名': 'エジプト・アラブ共和国',\n '時間帯': '(+2)',\n '最大都市': 'カイロ',\n '標語': 'なし',\n '水面積率': '0.6%',\n '略名': 'エジプト',\n '通貨': 'エジプト・ポンド (£)',\n '通貨コード': 'EGP',\n '面積値': '1,001,450',\n '面積大きさ': '1 E12',\n '面積順位': '29',\n '首相等氏名': 'イブラヒーム・メフレブ',\n '首相等肩書': 'エジプトの首相|首相',\n '首都': 'カイロ'}" | |
}, | |
"metadata": {}, | |
"execution_count": 36 | |
} | |
] | |
}, | |
{ | |
"metadata": { | |
"collapsed": false, | |
"trusted": true | |
}, | |
"cell_type": "code", | |
"source": "get_basic_info_dict_remove_mediawiki_markup('イラン')", | |
"execution_count": 37, | |
"outputs": [ | |
{ | |
"output_type": "execute_result", | |
"data": { | |
"text/plain": "{'GDP/人': '12,264',\n 'GDP値': '9,455億',\n 'GDP値MER': '3,663億',\n 'GDP値元': '9,072兆2,320億{{Cite web|url=http://www.imf.org/external/pubs/ft/weo/2014/01/weodata/weorept.aspx?sy=2012&ey=2014&scsm=1&ssd=1&sort=country&ds=.&br=1&c=429&s=NGDP_R%2CNGDP_RPCH%2CNGDP%2CNGDPD%2CNGDPRPC%2CNGDPPC%2CNGDPDPC%2CPPPGDP%2CPPPPC%2CPPPSH%2CNGSD_NGDP&grp=0&a=&pr.x=54&pr.y=5|title=World Economic Outlook Database, April 2014|publisher = 国際通貨基金|IMF|date = 2014-04|accessdate = 2014-09-28}}',\n 'GDP統計年': '2013',\n 'GDP統計年MER': '2013',\n 'GDP統計年元': '2013',\n 'GDP順位': '18',\n 'GDP順位MER': '32',\n 'ISO 3166-1': 'IR / IRN',\n 'ccTLD': '.ir',\n '人口値': '75,600,000',\n '人口大きさ': '1 E7',\n '人口密度値': '43',\n '人口統計年': '2012',\n '位置画像': 'Iran (orthographic projection).svg',\n '元首等氏名': 'アリー・ハーメネイー',\n '元首等肩書': 'イランの最高指導者|最高指導者',\n '公式国名': '{{Lang|fa|جمهوری اسلامی ایران}}',\n '公用語': 'ペルシア語',\n '国旗画像': 'Flag of Iran.svg',\n '国歌名': 'イラン・イスラム共和国国歌',\n '国章リンク': 'イランの国章|国章',\n '国章画像': 'ファイル:Coat of arms of Iran.svg|100px|イランの国章',\n '国際電話番号': '98',\n '夏時間': '+4:30',\n '建国年月日': 'イラン革命|イラン・イスラム革命1979年4月1日',\n '建国形態': '成立 -',\n '日本語国名': 'イラン・イスラム共和国',\n '時間帯': '+3:30',\n '最大都市': 'テヘラン',\n '標語': ' استقلال آزادی جمهوری اسلامی (ペルシア語 : \"独立、自由、イスラム共和制\")',\n '水面積率': '0.7%',\n '略名': 'イラン',\n '通貨': 'イラン・リヤル (IR)',\n '通貨コード': 'IRR',\n '面積値': '1,648,195',\n '面積大きさ': '1 E12',\n '面積順位': '17',\n '首相等氏名': 'ハサン・ロウハーニー',\n '首相等肩書': 'イランの大統領|大統領',\n '首都': 'テヘラン',\n '駐日大使館の所在地': '東京都港区南麻布三丁目13-9'}" | |
}, | |
"metadata": {}, | |
"execution_count": 37 | |
} | |
] | |
}, | |
{ | |
"metadata": { | |
"collapsed": true, | |
"trusted": true | |
}, | |
"cell_type": "code", | |
"source": "def get_basic_info_dict_remove_mediawiki_markup(country:str):\n dic = get_basic_info_dict_remove_link_from_country(country)\n return {l[0]:remove_reg(l[1]) for l in dic.items()}\n\ndef get_templates_remove_mediawiki_markup():\n templates = get_templates_remove_link()\n temps = []\n for temp in templates:\n temps.append({l[0]:remove_reg(l[1]) for l in temp.items()})\n return temps", | |
"execution_count": 38, | |
"outputs": [] | |
}, | |
{ | |
"metadata": { | |
"collapsed": false, | |
"trusted": true | |
}, | |
"cell_type": "code", | |
"source": "temps = get_templates_remove_mediawiki_markup()\nprint(len(temps))\ntemps[0]", | |
"execution_count": 39, | |
"outputs": [ | |
{ | |
"output_type": "stream", | |
"text": "204\n", | |
"name": "stdout" | |
}, | |
{ | |
"output_type": "execute_result", | |
"data": { | |
"text/plain": "{'GDP/人': '5,898',\n 'GDP値': '4,426億',\n 'GDP値MER': '1,621億',\n 'GDP値元': '8,965億IMF Data and Statistics 2009年4月27日閲覧([http://www.imf.org/external/pubs/ft/weo/2009/01/weodata/weorept.aspx?pr.x=77&pr.y=19&sy=2008&ey=2008&scsm=1&ssd=1&sort=country&ds=.&br=1&c=469&s=NGDP%2CNGDPD%2CPPPGDP%2CPPPPC&grp=0&a=])',\n 'GDP統計年': '2008',\n 'GDP統計年MER': '2008',\n 'GDP統計年元': '2008',\n 'GDP順位': '28',\n 'GDP順位MER': '49',\n 'ISO 3166-1': 'EG / EGY',\n 'ccTLD': '.eg',\n '人口値': '81,120,000',\n '人口大きさ': '1 E7',\n '人口密度値': '76',\n '人口統計年': '2011',\n '位置画像': 'Egypt (orthographic projection).svg',\n '元首等氏名': 'アブドルファッターフ・アッ=シーシー',\n '元首等肩書': '近代エジプトの国家元首の一覧|大統領',\n '公式国名': '{{lang|ar|جمهورية مصر العربية}}',\n '公用語': 'アラビア語',\n '国旗画像': 'Flag of Egypt.svg',\n '国歌名': '我が祖国',\n '国章リンク': '(エジプトの国章|国章)',\n '国章画像': 'ファイル:Coat_of_arms_of_Egypt.svg|100px|エジプトの国章',\n '国際電話番号': '20',\n '夏時間': '(+3)',\n '建国年月日': 'イギリスより1922年2月28日',\n '建国形態': '独立 - 日付',\n '日本語国名': 'エジプト・アラブ共和国',\n '時間帯': '(+2)',\n '最大都市': 'カイロ',\n '標語': 'なし',\n '水面積率': '0.6%',\n '略名': 'エジプト',\n '通貨': 'エジプト・ポンド (£)',\n '通貨コード': 'EGP',\n '面積値': '1,001,450',\n '面積大きさ': '1 E12',\n '面積順位': '29',\n '首相等氏名': 'イブラヒーム・メフレブ',\n '首相等肩書': 'エジプトの首相|首相',\n '首都': 'カイロ'}" | |
}, | |
"metadata": {}, | |
"execution_count": 39 | |
} | |
] | |
}, | |
{ | |
"metadata": {}, | |
"cell_type": "markdown", | |
"source": "## 29. 国旗画像のURLを取得する" | |
}, | |
{ | |
"metadata": {}, | |
"cell_type": "markdown", | |
"source": "テンプレートの内容を利用し,国旗画像のURLを取得せよ.(ヒント: [MediaWiki API](http://www.mediawiki.org/wiki/API:Main_page/ja)の[imageinfo](http://www.mediawiki.org/wiki/API:Properties/ja#imageinfo_.2F_ii)を呼び出して,ファイル参照をURLに変換すればよい)" | |
}, | |
{ | |
"metadata": { | |
"collapsed": true | |
}, | |
"cell_type": "markdown", | |
"source": "imageinfo: https://www.mediawiki.org/wiki/API:Imageinfo" | |
}, | |
{ | |
"metadata": {}, | |
"cell_type": "markdown", | |
"source": "sample api\nhttps://ja.wikipedia.org/w/api.php?action=query&format=json&titles=File:Albert%20Einstein%20Head.jpg&prop=imageinfo&&iiprop=url" | |
}, | |
{ | |
"metadata": { | |
"collapsed": false, | |
"trusted": true | |
}, | |
"cell_type": "code", | |
"source": "import httplib2\nfrom urllib.parse import urlencode\nimport json\n\nh = httplib2.Http('.cache')\ndata = {'action': 'query', \n 'format': 'json', \n 'titles': 'File:Albert Einstein Head.jpg',\n 'prop':'imageinfo',\n 'iiprop':'url'\n }\nendpoint_url = 'https://ja.wikipedia.org/w/api.php'\nresponse, content = h.request(endpoint_url, \n 'POST', \n urlencode(data),\n headers={'Content-Type': 'application/x-www-form-urlencoded'}\n )\nresponse.status ", | |
"execution_count": 40, | |
"outputs": [ | |
{ | |
"output_type": "execute_result", | |
"data": { | |
"text/plain": "200" | |
}, | |
"metadata": {}, | |
"execution_count": 40 | |
} | |
] | |
}, | |
{ | |
"metadata": { | |
"collapsed": false, | |
"trusted": true | |
}, | |
"cell_type": "code", | |
"source": "urlencode(data)", | |
"execution_count": 41, | |
"outputs": [ | |
{ | |
"output_type": "execute_result", | |
"data": { | |
"text/plain": "'action=query&titles=File%3AAlbert+Einstein+Head.jpg&iiprop=url&format=json&prop=imageinfo'" | |
}, | |
"metadata": {}, | |
"execution_count": 41 | |
} | |
] | |
}, | |
{ | |
"metadata": { | |
"collapsed": false, | |
"trusted": true | |
}, | |
"cell_type": "code", | |
"source": "response", | |
"execution_count": 42, | |
"outputs": [ | |
{ | |
"output_type": "execute_result", | |
"data": { | |
"text/plain": "{'-content-encoding': 'gzip',\n 'accept-ranges': 'bytes',\n 'age': '0',\n 'backend-timing': 'D=47740 t=1464880020916833',\n 'cache-control': 'private, must-revalidate, max-age=0',\n 'connection': 'keep-alive',\n 'content-length': '574',\n 'content-type': 'application/json; charset=utf-8',\n 'date': 'Thu, 02 Jun 2016 15:07:01 GMT',\n 'p3p': 'CP=\"This is not a P3P policy! See https://ja.wikipedia.org/wiki/%E7%89%B9%E5%88%A5:CentralAutoLogin/P3P for more info.\"',\n 'server': 'mw1117.eqiad.wmnet',\n 'set-cookie': 'WMF-Last-Access=02-Jun-2016;Path=/;HttpOnly;secure;Expires=Mon, 04 Jul 2016 12:00:00 GMT, GeoIP=JP:40:Tokyo:35.68:139.76:v4; Path=/; secure; Domain=.wikipedia.org',\n 'status': '200',\n 'strict-transport-security': 'max-age=31536000; includeSubDomains; preload',\n 'vary': 'Accept-Encoding,Treat-as-Untrusted,X-Forwarded-Proto,Cookie,Authorization',\n 'via': '1.1 varnish, 1.1 varnish, 1.1 varnish, 1.1 varnish',\n 'x-analytics': 'https=1;nocookies=1',\n 'x-cache': 'cp1067 pass, cp2004 pass, cp4018 pass, cp4008 pass',\n 'x-client-ip': '106.188.62.51',\n 'x-content-type-options': 'nosniff',\n 'x-frame-options': 'DENY',\n 'x-powered-by': 'HHVM/3.12.1',\n 'x-varnish': '1209575054, 2077180842, 1636681480, 493836056'}" | |
}, | |
"metadata": {}, | |
"execution_count": 42 | |
} | |
] | |
}, | |
{ | |
"metadata": { | |
"collapsed": false, | |
"trusted": true | |
}, | |
"cell_type": "code", | |
"source": "content", | |
"execution_count": 43, | |
"outputs": [ | |
{ | |
"output_type": "execute_result", | |
"data": { | |
"text/plain": "b'{\"continue\":{\"iistart\":\"2008-06-06T22:27:45Z\",\"continue\":\"||\"},\"query\":{\"normalized\":[{\"from\":\"File:Albert Einstein Head.jpg\",\"to\":\"\\\\u30d5\\\\u30a1\\\\u30a4\\\\u30eb:Albert Einstein Head.jpg\"}],\"pages\":{\"-1\":{\"ns\":6,\"title\":\"\\\\u30d5\\\\u30a1\\\\u30a4\\\\u30eb:Albert Einstein Head.jpg\",\"missing\":\"\",\"imagerepository\":\"shared\",\"imageinfo\":[{\"url\":\"https://upload.wikimedia.org/wikipedia/commons/d/d3/Albert_Einstein_Head.jpg\",\"descriptionurl\":\"https://commons.wikimedia.org/wiki/File:Albert_Einstein_Head.jpg\",\"descriptionshorturl\":\"https://commons.wikimedia.org/w/index.php?curid=925243\"}]}}}}'" | |
}, | |
"metadata": {}, | |
"execution_count": 43 | |
} | |
] | |
}, | |
{ | |
"metadata": { | |
"collapsed": false, | |
"trusted": true | |
}, | |
"cell_type": "code", | |
"source": "j = json.loads(content.decode('utf-8'))\nj['query']['pages']['-1']['imageinfo'][0]['url']", | |
"execution_count": 44, | |
"outputs": [ | |
{ | |
"output_type": "execute_result", | |
"data": { | |
"text/plain": "'https://upload.wikimedia.org/wikipedia/commons/d/d3/Albert_Einstein_Head.jpg'" | |
}, | |
"metadata": {}, | |
"execution_count": 44 | |
} | |
] | |
}, | |
{ | |
"metadata": { | |
"collapsed": true, | |
"trusted": true | |
}, | |
"cell_type": "code", | |
"source": "import httplib2\nfrom urllib.parse import urlencode\nimport json\nimport time\n\ndef get_url_from_title(s:str, sleep=1.5):\n h = httplib2.Http('.cache')\n endpoint_url = 'https://ja.wikipedia.org/w/api.php'\n data = {'action': 'query', \n 'format': 'json', \n 'titles': s,\n 'prop':'imageinfo',\n 'iiprop':'url'\n }\n \n response, content = h.request(endpoint_url, 'POST', urlencode(data),\n headers={'Content-Type': 'application/x-www-form-urlencoded'}\n )\n j = json.loads(content.decode('utf-8'))\n # 高付加を避けるためにsleep\n time.sleep(sleep)\n return j['query']['pages']['-1']['imageinfo'][0]['url']", | |
"execution_count": 45, | |
"outputs": [] | |
}, | |
{ | |
"metadata": { | |
"collapsed": false, | |
"trusted": true | |
}, | |
"cell_type": "code", | |
"source": "get_url_from_title('File:Albert Einstein Head.jpg')", | |
"execution_count": 46, | |
"outputs": [ | |
{ | |
"output_type": "execute_result", | |
"data": { | |
"text/plain": "'https://upload.wikimedia.org/wikipedia/commons/d/d3/Albert_Einstein_Head.jpg'" | |
}, | |
"metadata": {}, | |
"execution_count": 46 | |
} | |
] | |
}, | |
{ | |
"metadata": { | |
"collapsed": true, | |
"trusted": true | |
}, | |
"cell_type": "code", | |
"source": "def get_country_img_url_from_country_name(country_name:str):\n country = get_basic_info_dict_remove_mediawiki_markup(country_name)\n return get_url_from_title('ファイル:' + country['国旗画像'])", | |
"execution_count": 47, | |
"outputs": [] | |
}, | |
{ | |
"metadata": { | |
"collapsed": false, | |
"trusted": true | |
}, | |
"cell_type": "code", | |
"source": "get_country_img_url_from_country_name('イラン')", | |
"execution_count": 48, | |
"outputs": [ | |
{ | |
"output_type": "execute_result", | |
"data": { | |
"text/plain": "'https://upload.wikimedia.org/wikipedia/commons/c/ca/Flag_of_Iran.svg'" | |
}, | |
"metadata": {}, | |
"execution_count": 48 | |
} | |
] | |
}, | |
{ | |
"metadata": { | |
"collapsed": false, | |
"trusted": true | |
}, | |
"cell_type": "code", | |
"source": "get_country_img_url_from_country_name('イギリス')", | |
"execution_count": 49, | |
"outputs": [ | |
{ | |
"output_type": "execute_result", | |
"data": { | |
"text/plain": "'https://upload.wikimedia.org/wikipedia/commons/a/ae/Flag_of_the_United_Kingdom.svg'" | |
}, | |
"metadata": {}, | |
"execution_count": 49 | |
} | |
] | |
}, | |
{ | |
"metadata": {}, | |
"cell_type": "markdown", | |
"source": "### all" | |
}, | |
{ | |
"metadata": { | |
"collapsed": true, | |
"trusted": true | |
}, | |
"cell_type": "code", | |
"source": "def get_img_urls_from_country_templates():\n temps = get_templates_remove_mediawiki_markup()\n return [get_url_from_title('ファイル:' + temp['国旗画像']) for temp in temps if '国旗画像' in temp]", | |
"execution_count": 50, | |
"outputs": [] | |
}, | |
{ | |
"metadata": { | |
"collapsed": false, | |
"trusted": true | |
}, | |
"cell_type": "code", | |
"source": "img_urls = get_img_urls_from_country_templates()\nlen(img_urls)", | |
"execution_count": 55, | |
"outputs": [ | |
{ | |
"output_type": "execute_result", | |
"data": { | |
"text/plain": "201" | |
}, | |
"metadata": {}, | |
"execution_count": 55 | |
} | |
] | |
}, | |
{ | |
"metadata": { | |
"scrolled": true, | |
"collapsed": false, | |
"trusted": true | |
}, | |
"cell_type": "code", | |
"source": "img_urls[:10]", | |
"execution_count": 56, | |
"outputs": [ | |
{ | |
"output_type": "execute_result", | |
"data": { | |
"text/plain": "['https://upload.wikimedia.org/wikipedia/commons/f/fe/Flag_of_Egypt.svg',\n 'https://upload.wikimedia.org/wikipedia/commons/4/41/Flag_of_Austria.svg',\n 'https://upload.wikimedia.org/wikipedia/commons/9/9f/Flag_of_Indonesia.svg',\n 'https://upload.wikimedia.org/wikipedia/commons/f/f6/Flag_of_Iraq.svg',\n 'https://upload.wikimedia.org/wikipedia/commons/c/ca/Flag_of_Iran.svg',\n 'https://upload.wikimedia.org/wikipedia/commons/c/ce/Flag_of_Tunisia.svg',\n 'https://upload.wikimedia.org/wikipedia/commons/b/b4/Flag_of_Turkey.svg',\n 'https://upload.wikimedia.org/wikipedia/commons/f/f3/Flag_of_Russia.svg',\n 'https://upload.wikimedia.org/wikipedia/commons/b/bc/Flag_of_Costa_Rica_%28state%29.svg',\n 'https://upload.wikimedia.org/wikipedia/commons/f/fa/Flag_of_the_People%27s_Republic_of_China.svg']" | |
}, | |
"metadata": {}, | |
"execution_count": 56 | |
} | |
] | |
}, | |
{ | |
"metadata": {}, | |
"cell_type": "markdown", | |
"source": "## 参考リンク" | |
}, | |
{ | |
"metadata": {}, | |
"cell_type": "markdown", | |
"source": "- [自然言語処理100本ノック 第3章 正規表現(後半) Qiita](http://qiita.com/tdrk/items/875e74af83de162fb6fd)\n- [言語処理100本ノック with Python(第3章)Qiita](http://qiita.com/gamma1129/items/68e955853e265cb12ebe)" | |
} | |
], | |
"metadata": { | |
"kernelspec": { | |
"name": "python3", | |
"display_name": "Python 3", | |
"language": "python" | |
}, | |
"language_info": { | |
"codemirror_mode": { | |
"name": "ipython", | |
"version": 3 | |
}, | |
"name": "python", | |
"version": "3.5.1", | |
"nbconvert_exporter": "python", | |
"file_extension": ".py", | |
"mimetype": "text/x-python", | |
"pygments_lexer": "ipython3" | |
}, | |
"_draft": { | |
"nbviewer_url": "https://gist.github.com/02205cbae0161ecffc105ff4a1c5d77b" | |
}, | |
"hide_input": false, | |
"toc": { | |
"toc_threshold": "6", | |
"toc_cell": true, | |
"toc_number_sections": true, | |
"toc_window_display": false | |
}, | |
"gist": { | |
"id": "02205cbae0161ecffc105ff4a1c5d77b", | |
"data": { | |
"description": "言語処理100本ノック 3章 正規表現 後半 25-", | |
"public": true | |
} | |
} | |
}, | |
"nbformat": 4, | |
"nbformat_minor": 0 | |
} |
Sign up for free
to join this conversation on GitHub.
Already have an account?
Sign in to comment