Last active
August 22, 2019 19:45
-
-
Save kzinmr/14c224efc43b7e21ff95fa9c54f829f1 to your computer and use it in GitHub Desktop.
This file contains hidden or bidirectional Unicode text that may be interpreted or compiled differently than what appears below. To review, open the file in an editor that reveals hidden Unicode characters.
Learn more about bidirectional Unicode characters
{ | |
'NAME': | |
{ | |
'Name_Other': {}, | |
'Person': {}, | |
'God': {}, | |
'Organization': | |
{ | |
'Organization_Other': {}, | |
'International_Organization': {}, | |
'Show_Organization': {}, | |
'Family': {}, | |
'Ethnic_Group': | |
{ | |
'Ethnic_Group_Other': {}, | |
'Nationality': {} | |
}, | |
'Sports_Organization': | |
{ | |
'Sports_Organization_Other': {}, | |
'Pro_Sports_Organization': {}, | |
'Sports_League': {} | |
}, | |
'Corporation': | |
{ | |
'Corporation_Other': {}, | |
'Company': {}, | |
'Company_Group': {} | |
}, | |
'Political_Organization': | |
{ | |
'Political_Organization_Other': {}, | |
'Government': {}, | |
'Political_Party': {}, | |
'Cabinet': {}, | |
'Military': {} | |
} | |
}, | |
'Location': | |
{ | |
'Location_Other': {}, | |
'Spa': {}, | |
'GPE': | |
{ | |
'GPE_Other': {}, | |
'City': {}, | |
'County': {}, | |
'Province': {}, | |
'Country': {} | |
}, | |
'Region': | |
{ | |
'Region_Other': {}, | |
'Continental_Region': {}, | |
'Domestic_Region': {} | |
}, | |
'Geological_Region': | |
{ | |
'Geological_Region_Other': {}, | |
'Mountain': {}, | |
'Island': {}, | |
'River': {}, | |
'Lake': {}, | |
'Sea': {}, | |
'Bay': {} | |
}, | |
'Astral_Body': | |
{ | |
'Astral_Body_Other': {}, | |
'Star': {}, | |
'Planet': {}, | |
'Constellation': {} | |
}, | |
'Address': | |
{ | |
'Address_Other': {}, | |
'Postal_Address': {}, | |
'Phone_Number': {}, | |
'Email': {}, | |
'URL': {} | |
}, | |
}, | |
'Facility': | |
{ | |
'Facility_Other': {}, | |
'Facility_Part': {}, | |
'Archaeological_Place': | |
{ | |
'Archaeological_Place_Other': {}, | |
'Tumulus': {} | |
}, | |
'GOE': | |
{ | |
'GOE_Other': {}, | |
'Public_Institution': {}, | |
'School': {}, | |
'Research_Institute': {}, | |
'Market': {}, | |
'Park': {}, | |
'Sports_Facility': {}, | |
'Museum': {}, | |
'Zoo': {}, | |
'Amusement_Park': {}, | |
'Theater': {}, | |
'Worship_Place': {}, | |
'Car_Stop': {}, | |
'Station': {}, | |
'Airport': {}, | |
'Port': {} | |
}, | |
'Line': | |
{ | |
'Line_Other': {}, | |
'Railroad': {}, | |
'Road': {}, | |
'Canal': {}, | |
'Water_Route': {}, | |
'Tunnel': {}, | |
'Bridge': {} | |
} | |
}, | |
'Product': | |
{ | |
'Product_Other': {}, | |
'Material': {}, | |
'Clothing': {}, | |
'Money_Form': {}, | |
'Drug': {}, | |
'Weapon': {}, | |
'Stock': {}, | |
'Award': {}, | |
'Decoration': {}, | |
'Offence': {}, | |
'Service': {}, | |
'Class': {}, | |
'Character': {}, | |
'ID_Number': {}, | |
'Vehicle': | |
{ | |
'Vehicle_Other': {}, | |
'Car': {}, | |
'Train': {}, | |
'Aircraft': {}, | |
'Spaceship': {}, | |
'Ship': {}, | |
}, | |
'Food': | |
{ | |
'Food_Other': {}, | |
'Dish': {} | |
}, | |
'Art': | |
{ | |
'Art_Other': {}, | |
'Picture': {}, | |
'Broadcast_Program': {}, | |
'Movie': {}, | |
'Show': {}, | |
'Music': {}, | |
'Book': {} | |
}, | |
'Printing': | |
{ | |
'Printing_Other': {}, | |
'Newspaper': {}, | |
'Magazine': {}, | |
}, | |
'Doctrine_Method': | |
{ | |
'Doctrine_Method_Other': {}, | |
'Culture': {}, | |
'Religion': {}, | |
'Academic': {}, | |
'Sport': {}, | |
'Style': {}, | |
'Movement': {}, | |
'Theory': {}, | |
'Plan': {} | |
}, | |
'Rule': | |
{ | |
'Rule_Other': {}, | |
'Treaty': {}, | |
'Law': {} | |
}, | |
'Title': | |
{ | |
'Title_Other': {}, | |
'Position_Vocation': {} | |
}, | |
'Language': | |
{ | |
'Language_Other': {}, | |
'National_Language': {} | |
}, | |
'Unit': | |
{ | |
'Unit_Other': {}, | |
'Currency': {} | |
} | |
}, | |
'Event': | |
{ | |
'Event_Other': {}, | |
'Occasion': | |
{ | |
'Occasion_Other': {}, | |
'Religious_Festival': {}, | |
'Game': {}, | |
'Conference': {} | |
}, | |
'Incident': | |
{ | |
'Incident_Other': {}, | |
'War': {} | |
}, | |
'Natural_Phenomenon': | |
{ | |
'Natural_Phenomenon_Other': {}, | |
'Natural_Disaster': {}, | |
'Earthquake': {} | |
} | |
}, | |
'Natural_Object': | |
{ | |
'Natural_Object_Other': {}, | |
'Element': {}, | |
'Compound': {}, | |
'Mineral': {}, | |
'Living_Thing': | |
{ | |
'Living_Thing_Other': {}, | |
'Fungus': {}, | |
'Mollusc_Arthropod': {}, | |
'Insect': {}, | |
'Fish': {}, | |
'Amphibia': {}, | |
'Reptile': {}, | |
'Bird': {}, | |
'Mammal': {}, | |
'Flora': {} | |
}, | |
'Living_Thing_Part': | |
{ | |
'Living_Thing_Part_Other': {}, | |
'Animal_Part': {}, | |
'Flora_Part': {} | |
} | |
}, | |
'Disease': | |
{ | |
'Disease_Other': {}, | |
'Animal_Disease': {} | |
}, | |
'Color': | |
{ | |
'Color_Other': {}, | |
'Nature_Color': {} | |
} | |
}, | |
'Time_Top': | |
{ | |
'Time_Top_Other': {}, | |
'Timex': | |
{ | |
'Timex_Other': {}, | |
'Time': {}, | |
'Date': {}, | |
'Day_Of_Week': {}, | |
'Era': {} | |
}, | |
'Periodx': | |
{ | |
'Periodx_Other': {}, | |
'Period_Time': {}, | |
'Period_Day': {}, | |
'Period_Week': {}, | |
'Period_Month': {}, | |
'Period_Year': {} | |
} | |
}, | |
'Numex': | |
{ | |
'Numex_Other': {}, | |
'Money': {}, | |
'Stock_Index': {}, | |
'Point': {}, | |
'Percent': {}, | |
'Multiplication': {}, | |
'Frequency': {}, | |
'Age': {}, | |
'School_Age': {}, | |
'Ordinal_Number': {}, | |
'Rank': {}, | |
'Latitude_Longtitude': {}, | |
'Measurement': | |
{ | |
'Measurement_Other': {}, | |
'Physical_Extent': {}, | |
'Space': {}, | |
'Volume': {}, | |
'Weight': {}, | |
'Speed': {}, | |
'Intensity': {}, | |
'Temperature': {}, | |
'Calorie': {}, | |
'Seismic_Intensity': {}, | |
'Seismic_Magnitude': {} | |
}, | |
'Countx': | |
{ | |
'Countx_Other': {}, | |
'N_Person': {}, | |
'N_Organization': {}, | |
'N_Location': | |
{ | |
'N_Location_Other': {}, | |
'N_Country': {} | |
}, | |
'N_Facility': {}, | |
'N_Product': {}, | |
'N_Event': {}, | |
'N_Natural_Object': | |
{ | |
'N_Natural_Object_Other': {}, | |
'N_Animal': {}, | |
'N_Flora': {} | |
} | |
} | |
} | |
} |
Author
kzinmr
commented
May 22, 2019
人物・組織クラスサブセット from 仲野&乾, 2017
ene_subset = {
# 'NAME':
# {
# 'Name_Other': {},
'Person': 'PERSON',
# 'God': {},
# 'Organization':
# {
'Organization_Other': 'ORGNIZATION',
'International_Organization': 'ORGNIZATION',
'Show_Organization': 'ORGNIZATION',
'Family': 'ORGNIZATION',
# 'Ethnic_Group':
# {
'Ethnic_Group_Other': 'ORGNIZATION',
'Nationality': 'ORGNIZATION',
# },
# 'Sports_Organization':
# {
'Sports_Organization_Other': 'ORGNIZATION',
'Pro_Sports_Organization': 'ORGNIZATION',
'Sports_League': 'ORGNIZATION',
# },
# 'Corporation':
# {
'Corporation_Other': 'ORGNIZATION',
'Company': 'ORGNIZATION',
'Company_Group': 'ORGNIZATION',
# },
# 'Political_Organization':
# {
'Political_Organization_Other': 'ORGNIZATION',
'Government': 'ORGNIZATION',
'Political_Party': 'ORGNIZATION',
'Cabinet': 'ORGNIZATION',
'Military': 'ORGNIZATION',
# }
# },
# 'Location':
# {
# 'GPE':
# {
'GPE_Other': 'GPE',
'City': 'GPE',
'County': 'GPE',
'Province': 'GPE',
'Country': 'GPE',
# },
# 'Facility':
# {
# 'GOE':
# {
'GOE_Other': 'GOE',
'Public_Institution': 'GOE',
'School': 'GOE',
'Research_Institute': 'GOE',
'Market': 'GOE',
'Park': 'GOE',
'Sports_Facility': 'GOE',
'Museum': 'GOE',
'Zoo': 'GOE',
'Amusement_Park': 'GOE',
'Theater': 'GOE',
'Worship_Place': 'GOE',
'Car_Stop': 'GOE',
'Station': 'GOE',
'Airport': 'GOE',
'Port': 'GOE',
# },
# },
# 'Product':
# {
# 'Title':
# {
# 'Title_Other': {},
'Position_Vocation': 'POSITION_VOCATION'
# },
# },
# },
}
From ENEv711
翻訳マップのdict (GPE_その他 を半角に修正, Company, Company_Group, Organization_Other, Offenceがtypoだったため修正)
s = """ENE | 例 | ENE英語表記
-- | -- | --
名前_その他 | たま, ポチ, オグリキャップ, トントン | Name_Other
人名 | 岡本文弥, カーン, 長門美保, フォスター, 武帝 | Person
神名 | アテネ, インドラ, ゼウス, 大国主命, 帝釈天 | God
組織名(Organizaton) | 組織名_その他 | 総務課, 孔門の十哲, 向田ファミリー, 精華町町内会, 第二工学部 | Organization_Other
国際組織名 | 国際連盟, イスラム諸国会議機構, 南太平洋フォーラム, 東南アジア条約機構 | International_Organization
公演組織名 | クリーブランド管弦楽団, ビージーズ, ボリショイ・バレエ団 | Show_Organization
家系名 | 久我氏, 清水家, 近衛家, 伏見宮家 | Family
民族名(Ethnic_Group) | 民族名_その他 | ケルト人, モンゴロイド, トラジャ(人), チェコ人, アフリカーナー | Ethnic_Group_Other
国籍名 | イスラエル人, アメリカ人, 日本国籍 | Nationality
競技組織名(Sports_Organization) | 競技組織名_その他 | 野良黒山の会, 桐山部屋, 馬家軍, 全日本, グリーンツダ | Sports_Organization_Other
プロ競技組織名 | 読売ジャイアンツ, ACミラン, 鹿島アントラーズ, ニューヨーク・ヤンキース | Pro_Sports_Organization
競技リーグ名 | NBA, セリエA, セントラル・リーグ, 日本プロサッカーリーグ, アイビー・リーグ | Sports_League
法人名(Corporation) | 法人名_その他 | 日本弁護士連合会, 宇宙開発事業団, 冷泉家時雨亭文庫, 日本相撲協会 | Corporation_Other
企業名 | BMW, 富士電機(株), 三菱銀行, トステム(株), 岩波書店(株) | Company
企業グループ名 | 三井財閥, 住友財閥, 日産コンツェルン, ロックフェラー財閥, デュポン財閥 | Company_Group
政治的組織名(Political_Organization) | 政治的組織名_その他 | 竹下派, 奥羽越列藩同盟, 公明市議団, 自民党府連 | Political_Organization_Other
政府組織名 | 文部省, 経済企画庁, 韓国中央情報部, 気象庁, ナイ委員会 | Government
政党名 | ロシア共産党, 新党さきがけ, 日本新党, 共和党, 中国国民党 | Political_Party
内閣名 | 田中角栄内閣, 原敬内閣, 小渕恵三内閣, 三木武夫内閣, 西園寺公望内閣 | Cabinet
軍隊名 | 自衛隊, アメリカ空軍, 国連軍, 多国籍軍, 連合軍 | Military
地名(Location) | 地名_その他 | タイムズ・スクエア, グランド・ゼロ, 日本三景, 天国, エデンの園 | Location_Other
温泉名 | 月ヶ瀬温泉, 遠刈田温泉, 白馬温泉, 福地温泉, 湯の山温泉 | Spa
GPE(GPE) | GPE_その他 | パレスチナ自治地域, 台湾, 大阪府・市, 仏領ポリネシア | GPE_Other
市区町村名 | 月形(町), 五箇(村), レッチワース, ブランドン, リオ・デ・ジャネイロ | City
郡名 | 真番郡, 帯方郡, 巨摩, 金堤, 固城 | County
都道府県州名 | 群馬(県), カンザス, ニューヨーク(州), 熊本(県), アルトア | Province
国名 | アラブ首長国連邦, オーストラリア, 西サモア, コートジボアール, 唐 | Country
地域名(Region) | 地域名_その他 | | Region_Other
大陸地域名 | オリエント, 北アフリカ, ゴンドワナ大陸, バビロニア, 陸半球 | Continental_Region
国内地域名 | 奥羽地方, 中部地方, カルナティック, ボスニア, 可美 | Domestic_Region
地形名(Geological_Region) | 地形名_その他 | アルタミラ洞窟, 野島断層, 秋芳洞, 阿波の土柱, 利根川構造線 | Geological_Region_Other
山地名 | 富士山, 間ノ岳, 青崩峠, 中央アルプス, 木曽駒ケ岳 | Mountain
島名 | ラクシャドウィープ諸島, 友ヶ島, 大スンダ列島, 西表島, 沖縄諸島 | Island
河川名 | 早出川, アーレ川, マージー川, 千種川, ダニューブ川 | River
湖沼名 | 大浪池, グレート湖, シルヤン湖, 丸沼, サロマ湖 | Lake
海洋名 | 日本海, バルト海, 周防灘, 関門海峡, ホルムズ海峡 | Sea
湾名 | シェレホフ湾, 浦戸湾, 九十九湾, ピョートル大帝湾, ベンガル湾 | Bay
天体名(Astral_Body) | 天体名_その他 | 銀河系, 太陽系, 獅子座流星群 | Astral_Body_Other
恒星名 | アケルナル, ウォルフ‐ライエ星, カノープス, ベガ, レグルス | Star
惑星名 | 木星, 土星, 海王星, ベスタ, イカルス | Planet
星座名 | いて座, エリダヌス座, きりん座, こと座, ほうおう座 | Constellation
アドレス(Address) | アドレス_その他 | | Address_Other
郵便住所 | 東京都目黒区大岡山2-12-1, 123-0045, 富士見町3-2 | Postal_Address
電話番号 | 3726-1111, (03)3269―3471, 内線123, 110番 | Phone_Number
電子メイル | sekine@cs.nyu.edu | Email
URL | http://cs.nyu.edu/~sekine | URL
施設名(Facility) | 施設名_その他 | 雄勝柵, 春草廬, 唐人屋敷, 三蔵, ヘンドリク・フェアウールト・ダム | Facility_Other
施設部分名 | 8階, 南口, 1204号室, 華の間, ハチ公口, 南ウィング | Facility_Part
遺跡名(Archaeological_Place) | 遺跡名_その他 | トゥルカナ遺跡, 犬伏瓦経塚, 貔子窩, 高根木戸遺跡群, ニップール | Archaeological_Place_Other
古墳名 | 那須八幡塚古墳, 岩戸山古墳, 新山古墳, チブサン古墳, 昭陵 | Tumulus
GOE(GOE) | GOE_その他 | ホワイトハウス, 帝国ホテル, 葵文庫, 赤坂離宮, 横田基地 | GOE_Other
公共機関名 | 黒中央郵便局, 東京家庭裁判所, 新宿駅西口交番, 高槻市役所 | Public_Institution
学校名 | プリンストン大学, ローマ大学, 香川医科大学, 青山学院大学, 明治大学 | School
研究機関名 | ストックホルム国際平和研究所, グリニッジ天文台, 種子島宇宙センター | Research_Institute
取引所名 | 東京証券取引所, 関西商品取引所, 神戸生糸取引所 | Market
公園名 | 上信越高原国立公園, ザイオン国立公園, 旧円覚寺庭園, 小石川後楽園 | Park
競技施設名 | 東京ドーム, 花園ラグビー場, 石打丸山スキー場, 鳥羽CC | Sports_Facility
美術博物館名 | ルーブル美術館, ボストン美術館, 東京国立博物館, 日本民俗資料館 | Museum
動植物園名 | 上野動物園, ヒールズビル野生動物公園, ニューヨーク動物公園 | Zoo
遊園施設名 | 東京ディズニーランド, こどもの国, チボリ公園, ユネスコ村 | Amusement_Park
劇場名 | 明治座, ボリショイ劇場, パリ・オペラ座, メトロポリタン歌劇場 | Theater
神社寺名 | 寿福寺, サン・ドニ修道院, 円教寺, 多度神社, スルタン・ハッサン・モスク | Worship_Place
停車場名 | 秋保神社前, 京都駅パーキングエリア, 海老名サービスエリア | Car_Stop
電車駅名 | 東京駅, 大阪駅 | Station
空港名 | 東京国際空港, ジョン・エフ・ケネディ国際空港, オヘア国際空港 | Airport
港名 | 神戸港, 安濃津, 十三湊, 韓泊, 横瀬浦 | Port
路線名(Line) | 路線名_その他 | 駒ケ岳ロープウェイ, シルク・ロード | Line_Other
電車路線名 | 関西本線, 山口線, 東海道本線, 釧網本線, 宝成線 | Railroad
道路名 | 中国横断自動車道, シルク・ロード, ブロードウェー, オペラ座通り, 山辺の道 | Road
運河名 | スエズ運河, アムステルダム運河, 見沼通船堀, セント・ローレンス水路 | Canal
航路名 | 西廻海運, エンパイア・ルート, 青函航路, 宇高航路, 海の道 | Water_Route
トンネル名 | アペニン・トンネル, 清水トンネル, 丹那トンネル, モファット・トンネル | Tunnel
橋名 | 瀬戸大橋, ロンドン・ブリッジ, 万世橋, 天草五橋, クイーンズボロ橋 | Bridge
製品名(Product) | 製品名_その他 | サランラップ, 博多人形, 縄文土器, 警察権, 金メダル, GDP, 米国債 | Product_Other
材料名 | ポリビニルピロリドン, ジェット燃料, クロムグリーン, ナフトール染料, オクトーゲン | Material
衣類名 | 菅笠, 木沓, 沖着物, 甲掛, 晴れ着 | Clothing
貨幣名 | ソリドゥス金貨, デナリウス貨, 王莽銭, アッシニャ | Money_Form
医薬品名 | 経口血糖降下薬, アセタゾラミド, 男性ホルモン剤, サルファ剤, プロベネシド | Drug
武器名 | 軌道爆弾, スプリングフィールド銃, 自走砲, 巡航ミサイル, 火炎びん | Weapon
株名 | NTT株, ナビスコ株, タテホ株, リクルートコスモス株 | Stock
賞名 | ノーベル賞, アカデミー賞, 国民栄誉賞, ピュリッツァー賞, フィールズ賞 | Award
勲章名 | 文化勲章, ガーター勲章, レーニン勲章, 賜杯, ブルーリボン | Decoration
罪名 | 住居侵入罪, 収賄罪, 殺人罪, 不敬罪, マネー・ロンダリング | Offence
便名 | ノースウエスト69便, ひかり40号, インドネシア航空872便 | Service
等級名 | 4級, 八段, トリプルA, 黒帯, 女子48キロ級, 一軍 | Class
キャラクター名 | ミッキー・マウス, ポパイ, シンデレラ, 黄金バット | Character
識別番号 | IE1234-5678, クモハ123-4567 | ID_Number
乗り物名(Vehicle) | 乗り物名_その他 | ラクーン, ハーレーダビッドソン, ウイングカスタム, Wave125i | Vehicle_Other
車名 | カローラ, プリマス・フューリI, そよかぜ号 | Car
列車名 | ロコモーション号, 弁慶号, 一号機関車, ペンドリーノ, SE車, 零戦 | Train
飛行機名 | フライヤー号, 紫電改, スピリット・オブ・セントルイス号, FSX | Aircraft
宇宙船名 | スペースシャトル, ウォストーク, サリュート, スプートニク, ミール | Spaceship
船名 | クイーン・エリザベス号, 日本丸, ノルマンディー号, 武蔵, 高瀬舟 | Ship
食べ物名(Food) | 食べ物名_その他 | 米, リンゴ, 水 | Food_Other
料理名 | 赤飯, 弁当, 流動食, 粥, 桶茶 | Dish
芸術作品名(Art) | 芸術作品名_その他 | ミロのヴィーナス, 聖徳太子絵伝, 聖観音菩薩像 | Art_Other
絵画名 | ゲルニカ, モナ・リザ, 冨嶽三十六景, イーゼンハイム祭壇画, 彦根屏風 | Picture
番組名 | 紅白歌合戦, 街頭録音 | Broadcast_Program
映画名 | 七人の侍, モダン・タイムス, ゴジラ男はつらいよ, 第三の男 | Movie
公演名 | おふくろ, 隅田川続俤, 通小町, 明日の幸福, 鰍沢 | Show
音楽名 | 動物の謝肉祭, おけさ節, 魔弾の射手, ルスランとリュドミラ, 木更津甚句 | Music
文学名 | アンタル物語, 蔭凉軒日録, 食道楽, 長ぐつ下のピッピ, 立花大全 | Book
出版物名(Printing) | 出版物名_その他 | 京都大学入学案内書, ポケモンカレンダー, アマルナ文書 | Printing_Other
新聞名 | 信濃毎日新聞, ジャパンタイムズ, 官板バタヒヤ新聞, 東亜日報, デーリー・ミラー | Newspaper
雑誌名 | 主婦の友, 四季, ナショナル・ジオグラフィック, 馬酔木, フォーリン・アフェアーズ | Magazine
主義方式名(Doctrine_Method) | 主義方式名_その他 | 民主主義, 護送船団方式, 育児休暇制, アラビア文字, ユダヤ暦, 足入れ婚 | Doctrine_Method_Other
文化名 | アシュール文化, アンデス文明, アメリカ美術 | Culture
宗教名 | イスラム教, 吉田神道, 天照皇大神宮教, モルモン教, シーア派 | Religion
学問名 | 温泉化学, 言語美学, 材料力学, 農芸化学, 量子エレクトロニクス | Academic
競技名 | 軟式テニス, ドッジボール, クロスカントリー・レース, キックボクシング, かるた会 | Sport
流派名 | 一羽流, 美濃派, 文法学派, 甲源一刀流, 小原流 | Style
運動名 | ベトナム反戦運動, 沖縄復帰運動, 光州学生運動 | Movement
理論名 | 相対性理論, 進化論, プレートテクトニクス理論 | Theory
政策計画名 | アポロ計画, 情報スーパーハイウェー構想, ニューディール政策 | Plan
規則名(Rule) | 規則名_その他 | 公示の原則, 戦後五十年国会決議, 民法改正要綱試案 | Rule_Other
条約名 | 国際人権規約, 薩土盟約, モスクワ協定, パヒキナサーリ条約, ビョルケ密約 | Treaty
法令名 | 家電リサイクル法, 御成敗式目, 労働基準法, イスラエル破壊条項, 2%条項 | Law
称号名(Titile) | 称号名_その他 | さん, 様, 氏, ちゃん, 君, 殿, 夫人 | Title_Other
地位職業名 | 内閣総理大臣, 奈良奉行, 大関, 栄養士, 商人 | Position_Vocation
言語名(Language) | 言語名_その他 | 印欧語族, ウラル・アルタイ語族, 大阪弁 | Language_Other
国語名 | 英語, 満州語, ハンガリー語, スウェーデン語, チャム語 | National_Language
単位名(Unit) | 単位名_その他 | アンペア, ニュートン, ビット, ロックウェル硬さ, 連 | Unit_Other
通貨単位名 | 円, ドル, ウォン, フラン, ユーロ | Currency
イベント名(Event) | イベント名_その他 | 第一次ベビーブーム, アジア通貨危機, 北方領土問題 | Event_Other
催し物名(Occasion) | 催し物名_その他 | 筑波科学万博, 春のブライダルフェア‘95, ノーベル賞授賞式, 江戸の浮世絵展 | Occasion_Other
例祭名 | 端午の節供, 灯籠流し, 海神祭, 曲水宴, チャンココ | Religious_Festival
競技会名 | 東京オリンピック, ウィンブルドンテニス大会, ワールドカップ, 国民体育大会 | Game
会議名 | ヨーロッパ安保協力会議, 日米構造協議, アルカディア会談, 世界女性会議, G7 | Conference
事故事件名(Incident) | 事故事件名_その他 | 蘆溝橋事件, ウォーターゲート事件, 生麦事件, チャタレイ事件, 東海村臨界事故 | Incident_Other
戦争名 | 関ヶ原の戦い, プロイセン・オーストリア戦争, 中国征伐, 宗教戦争 | War
自然現象名(Natural_Phenomenon) | 自然現象名_その他 | シベリア高気圧, 偏西風, 千島海流, エルニーニョ | Natural_Phenomenon_Other
自然災害名 | 伊勢湾台風, 諫早豪雨, 雲仙普賢岳噴火災害, 寛永の飢饉 | Natural_Disaster
地震名 | アラスカ地震, チリ地震, 長野県西部地震, 三河地震, ルーマニア地震 | Earthquake
自然物名(Natural_Object) | 自然物名_その他 | | Natural_Object_Other
元素名 | 酸素, 水素, ヘリウム, ルビジウム | Element
化合物名 | 塩酸, フッ酸, 臭化アセチル, 多価アルコール, メタロセン | Compound
鉱物名 | 苦土橄欖石, 硬マンガン鉱, フェルグソン石, 自然銅, 芋子石 | Mineral
生物名(Living_Thing) | 生物名_その他 | インフルエンザ菌, アンモニア化成菌, 発酵菌, コクサッキーウイルス, 硝化細菌 | Living_Thing_Other
真菌類名 | ドクベニタケ, ワタカビ, バンダイキノリ, キヌガサタケ, ケカビ | Fungus
軟体動物_節足動物名 | コブシガニ, サザエ, ヤナギダコ, アカヒトデ, トゲサンゴ | Mollusc_Arthropod
昆虫類名 | ウラミスジシジミ, シンクイガ, トコジラミ, マイマイカブリ, ヤノネカイガラムシ | Insect
魚類名 | ニゴイ, オヒョウ, ホシザメ, ヒメマス, カワビシャ | Fish
両生類名 | サンショウウオ, ツノガエル, イボイモリ, トウキョウダルマガエル, アンヒューマ | Amphibia
爬虫類名 | ワニガメ, アホロテトカゲ, ヨロイハブ, エリマキトカゲ, クロコダイル | Reptile
鳥類名 | クジャク, ナベヅル, クロコシジロウミツバメ, カンムリツクシガモ, ウミアイサ | Bird
哺乳類名 | アメリカバイソン, モウコウマ, ハタリス, オオマメジカ, 紀州犬 | Mammal
植物名 | バラ, 松, チューリップ, クローバー | Flora
生物部位名(Living_Thing_Part) | 生物部位名_その他 | 細胞, 染色体, 伝令RNA, DNA | Living_Thing_Part
動物部位名 | ロレンチーニ器官, 視神経, 胎盤, 腎管, つむじ | Animal_Part
植物部位名 | 花茎, 雌しべ, 前出葉, 機械組織, 道管 | Flora_Part
病気名(Disease) | 病気名_その他 | 黒星病, むれ苗, 樹病 | Disease_Other
動物病気名 | WPW症候群, 結節性多発動脈炎, 歯肉炎, 乳癌, 膀胱結核 | Animal_Disease
色名(Color) | 色名_その他 | 江戸紫, べに色, 韓紅花, 猩々緋, 黄丹 | Color_Other
自然色名 | 赤, 青, 白, 黒, 黄 | Nature_Color
時間表現_その他 | | Time_Top_Other
時間(Timex) | 時間_その他 | 一学期, 後期, 3時間目 | Timex_Other
時刻表現 | 3時10分50秒, 18:40, 午後 18時, 午後6時, 丑三つ時 | Time
日付表現 | 2001年12月14日, 5/31, 平成14年, 96年春, こどもの日 | Date
曜日表現 | 月曜, 火曜日, 水, 週末 | Day_Of_Week
時代表現 | 明治, 昭和, 江戸時代, 原始時代, ソ連時代, 若貴時代, 戦後 | Era
期間(Periodx) | 期間_その他 | 3期 | Periodx_Other
時刻期間 | 3秒間, 10分間, 50時間, 一昼夜 | Period_Time
日数期間 | 10日間, 30日間, 半日間, 二晩 | Period_Day
週数期間 | 一週間, 50週間, 週 | Period_Week
月数期間 | 一ヶ月間, 4ヶ月間, 1箇月間, ひと月 | Period_Month
年数期間 | 一年間, 10年間, 5ヵ年 | Period_Year
数値表現_その他 | 8階建て, 2LDK, 二重, Version6.0.5 | Numex_Other
金額表現 | 10円, 一万円, 参千円, 50ドル | Money
株指標 | 26 5/8 | Stock_Index
ポイント | 10点, 22ポイント, 12得点 | Point
割合表現 | 100パーセント, 半分, 三分の二, 3割5分 | Percent
倍数表現 | 2倍, 1.5倍, 百倍 | Multiplication
頻度表現 | 3回 , 8度 | Frequency
年齢 | 3ヶ月, 5歳, 18才, 還暦, 20代後半 | Age
学齢 | 1年生, 中学2年, 高三, 幼稚園児 | School_Age
序数 | 第1一次, 第1回, 17代, 第3ラウンド | Ordinal_Number
順位表現 | 一位, 優勝, ブービー, ベスト5, 8強 | Rank
緯度経度 | 北緯30度, 西経135度20分 | Latitude_Longtitude
寸法表現(Measurement) | 寸法表現_その他 | 20ワット, 50フォン, 10デシベル, 小さじ2, A4 | Measurement_Other
長さ | 3ミリ, 8mm, 9メートル, 5里, 8ヤード, 5尺6寸 | Physical_Extent
面積 | 2ヘクタール, 30坪, 7平方メートル | Space
体積 | 350ml, 100立方メートル, 一升 | Volume
重量 | 3オンス, 5マイクロ, 3パウンド, 十貫, 5トン | Weight
速度 | 時速100キロ, 50km/h, 89ヘルツ | Speed
密度 | 5キログラム毎立方メートル, 30kg/立方メートル | Intensity
温度 | 15度, 氷点下3℃, 摂氏6度, -2℃ | Temperature
カロリー | 2000カロリー, 120kcal | Calorie
震度 | 震度4, 震度五 | Seismic_Intensity
マグニチュード | マグニチュード7.2 | Seismic_Magnitude
個数(Countx) | 個数_その他 | 2膳, 3杯, 3言語, 100万画素, 100アクセス, 10ビット | Contx_Other
人数 | 3人, 千人, 7選手, 3名人, 6閣僚 | N_Person
組織数 | 10産業グループ, 10企業, 6団体, 4組, 8家族 | N_Organization
場所数(N_Location) | 場所数_その他 | 10地域, 5領域, 二十三都道府県, 10惑星, 7ヶ所 | N_Location_Other
国数 | 2国, 四ヶ国, 3か国 | N_Country
施設数 | 10校, 10空港, 8棟, 二万戸 | N_Facility
製品数 | 10システム, 20枚, 五万台, 三十曲, 7冊 | N_Product
イベント数 | 5つ, 4件, 3大会, 70公演, 3勝, 4場所 | N_Event
自然物数(N_Natural_Object) | 自然物数_その他 | 10個, 10原子 | N_Natural_Object_Other
動物数 | 10匹, 10羽, 10頭 | N_Animal
植物数 | 10輪, 10本, 10株 | N_Flora
"""
en2ja_ene = dict([(l.split(' | ')[-1], l.split(' | ')[-3]) for l in s.split('\n') if ' | ' in l and len(l.split(' | '))>2][2:])
en2ja_ene```
```python
{'Name_Other': '名前_その他',
'Person': '人名',
'God': '神名',
'Organization_Other': '組織名_その他',
'International_Organization': '国際組織名',
'Show_Organization': '公演組織名',
'Family': '家系名',
'Ethnic_Group_Other': '民族名_その他',
'Nationality': '国籍名',
'Sports_Organization_Other': '競技組織名_その他',
'Pro_Sports_Organization': 'プロ競技組織名',
'Sports_League': '競技リーグ名',
'Corporation_Other': '法人名_その他',
'Company': '企業名',
'Company_Group': '企業グループ名',
'Political_Organization_Other': '政治的組織名_その他',
'Government': '政府組織名',
'Political_Party': '政党名',
'Cabinet': '内閣名',
'Military': '軍隊名',
'Location_Other': '地名_その他',
'Spa': '温泉名',
'GPE_Other': 'GPE_その他',
'City': '市区町村名',
'County': '郡名',
'Province': '都道府県州名',
'Country': '国名',
'Region_Other': '地域名_その他',
'Continental_Region': '大陸地域名',
'Domestic_Region': '国内地域名',
'Geological_Region_Other': '地形名_その他',
'Mountain': '山地名',
'Island': '島名',
'River': '河川名',
'Lake': '湖沼名',
'Sea': '海洋名',
'Bay': '湾名',
'Astral_Body_Other': '天体名_その他',
'Star': '恒星名',
'Planet': '惑星名',
'Constellation': '星座名',
'Address_Other': 'アドレス_その他',
'Postal_Address': '郵便住所',
'Phone_Number': '電話番号',
'Email': '電子メイル',
'URL': 'URL',
'Facility_Other': '施設名_その他',
'Facility_Part': '施設部分名',
'Archaeological_Place_Other': '遺跡名_その他',
'Tumulus': '古墳名',
'GOE_Other': 'GOE_その他',
'Public_Institution': '公共機関名',
'School': '学校名',
'Research_Institute': '研究機関名',
'Market': '取引所名',
'Park': '公園名',
'Sports_Facility': '競技施設名',
'Museum': '美術博物館名',
'Zoo': '動植物園名',
'Amusement_Park': '遊園施設名',
'Theater': '劇場名',
'Worship_Place': '神社寺名',
'Car_Stop': '停車場名',
'Station': '電車駅名',
'Airport': '空港名',
'Port': '港名',
'Line_Other': '路線名_その他',
'Railroad': '電車路線名',
'Road': '道路名',
'Canal': '運河名',
'Water_Route': '航路名',
'Tunnel': 'トンネル名',
'Bridge': '橋名',
'Product_Other': '製品名_その他',
'Material': '材料名',
'Clothing': '衣類名',
'Money_Form': '貨幣名',
'Drug': '医薬品名',
'Weapon': '武器名',
'Stock': '株名',
'Award': '賞名',
'Decoration': '勲章名',
'Offence': '罪名',
'Service': '便名',
'Class': '等級名',
'Character': 'キャラクター名',
'ID_Number': '識別番号',
'Vehicle_Other': '乗り物名_その他',
'Car': '車名',
'Train': '列車名',
'Aircraft': '飛行機名',
'Spaceship': '宇宙船名',
'Ship': '船名',
'Food_Other': '食べ物名_その他',
'Dish': '料理名',
'Art_Other': '芸術作品名_その他',
'Picture': '絵画名',
'Broadcast_Program': '番組名',
'Movie': '映画名',
'Show': '公演名',
'Music': '音楽名',
'Book': '文学名',
'Printing_Other': '出版物名_その他',
'Newspaper': '新聞名',
'Magazine': '雑誌名',
'Doctrine_Method_Other': '主義方式名_その他',
'Culture': '文化名',
'Religion': '宗教名',
'Academic': '学問名',
'Sport': '競技名',
'Style': '流派名',
'Movement': '運動名',
'Theory': '理論名',
'Plan': '政策計画名',
'Rule_Other': '規則名_その他',
'Treaty': '条約名',
'Law': '法令名',
'Title_Other': '称号名_その他',
'Position_Vocation': '地位職業名',
'Language_Other': '言語名_その他',
'National_Language': '国語名',
'Unit_Other': '単位名_その他',
'Currency': '通貨単位名',
'Event_Other': 'イベント名_その他',
'Occasion_Other': '催し物名_その他',
'Religious_Festival': '例祭名',
'Game': '競技会名',
'Conference': '会議名',
'Incident_Other': '事故事件名_その他',
'War': '戦争名',
'Natural_Phenomenon_Other': '自然現象名_その他',
'Natural_Disaster': '自然災害名',
'Earthquake': '地震名',
'Natural_Object_Other': '自然物名_その他',
'Element': '元素名',
'Compound': '化合物名',
'Mineral': '鉱物名',
'Living_Thing_Other': '生物名_その他',
'Fungus': '真菌類名',
'Mollusc_Arthropod': '軟体動物_節足動物名',
'Insect': '昆虫類名',
'Fish': '魚類名',
'Amphibia': '両生類名',
'Reptile': '爬虫類名',
'Bird': '鳥類名',
'Mammal': '哺乳類名',
'Flora': '植物名',
'Living_Thing_Part': '生物部位名_その他',
'Animal_Part': '動物部位名',
'Flora_Part': '植物部位名',
'Disease_Other': '病気名_その他',
'Animal_Disease': '動物病気名',
'Color_Other': '色名_その他',
'Nature_Color': '自然色名',
'Time_Top_Other': '時間表現_その他',
'Timex_Other': '時間_その他',
'Time': '時刻表現',
'Date': '日付表現',
'Day_Of_Week': '曜日表現',
'Era': '時代表現',
'Periodx_Other': '期間_その他',
'Period_Time': '時刻期間',
'Period_Day': '日数期間',
'Period_Week': '週数期間',
'Period_Month': '月数期間',
'Period_Year': '年数期間',
'Numex_Other': '数値表現_その他',
'Money': '金額表現',
'Stock_Index': '株指標',
'Point': 'ポイント',
'Percent': '割合表現',
'Multiplication': '倍数表現',
'Frequency': '頻度表現',
'Age': '年齢',
'School_Age': '学齢',
'Ordinal_Number': '序数',
'Rank': '順位表現',
'Latitude_Longtitude': '緯度経度',
'Measurement_Other': '寸法表現_その他',
'Physical_Extent': '長さ',
'Space': '面積',
'Volume': '体積',
'Weight': '重量',
'Speed': '速度',
'Intensity': '密度',
'Temperature': '温度',
'Calorie': 'カロリー',
'Seismic_Intensity': '震度',
'Seismic_Magnitude': 'マグニチュード',
'Contx_Other': '個数_その他',
'N_Person': '人数',
'N_Organization': '組織数',
'N_Location_Other': '場所数_その他',
'N_Country': '国数',
'N_Facility': '施設数',
'N_Product': '製品数',
'N_Event': 'イベント数',
'N_Natural_Object_Other': '自然物数_その他',
'N_Animal': '動物数',
'N_Flora': '植物数'}
def walk(d):
for k, v in d.items():
if not v:
yield k
else:
for kk in walk(v):
yield kk
with open('ene_labels_all.txt', 'w') as f:
for k in list(walk(d)):
f.write(f'B-{k}\n')
f.write(f'I-{k}\n')
Sign up for free
to join this conversation on GitHub.
Already have an account?
Sign in to comment