Skip to content

Instantly share code, notes, and snippets.

@kzinmr
Last active August 22, 2019 19:45
Show Gist options
  • Save kzinmr/14c224efc43b7e21ff95fa9c54f829f1 to your computer and use it in GitHub Desktop.
Save kzinmr/14c224efc43b7e21ff95fa9c54f829f1 to your computer and use it in GitHub Desktop.
{
'NAME':
{
'Name_Other': {},
'Person': {},
'God': {},
'Organization':
{
'Organization_Other': {},
'International_Organization': {},
'Show_Organization': {},
'Family': {},
'Ethnic_Group':
{
'Ethnic_Group_Other': {},
'Nationality': {}
},
'Sports_Organization':
{
'Sports_Organization_Other': {},
'Pro_Sports_Organization': {},
'Sports_League': {}
},
'Corporation':
{
'Corporation_Other': {},
'Company': {},
'Company_Group': {}
},
'Political_Organization':
{
'Political_Organization_Other': {},
'Government': {},
'Political_Party': {},
'Cabinet': {},
'Military': {}
}
},
'Location':
{
'Location_Other': {},
'Spa': {},
'GPE':
{
'GPE_Other': {},
'City': {},
'County': {},
'Province': {},
'Country': {}
},
'Region':
{
'Region_Other': {},
'Continental_Region': {},
'Domestic_Region': {}
},
'Geological_Region':
{
'Geological_Region_Other': {},
'Mountain': {},
'Island': {},
'River': {},
'Lake': {},
'Sea': {},
'Bay': {}
},
'Astral_Body':
{
'Astral_Body_Other': {},
'Star': {},
'Planet': {},
'Constellation': {}
},
'Address':
{
'Address_Other': {},
'Postal_Address': {},
'Phone_Number': {},
'Email': {},
'URL': {}
},
},
'Facility':
{
'Facility_Other': {},
'Facility_Part': {},
'Archaeological_Place':
{
'Archaeological_Place_Other': {},
'Tumulus': {}
},
'GOE':
{
'GOE_Other': {},
'Public_Institution': {},
'School': {},
'Research_Institute': {},
'Market': {},
'Park': {},
'Sports_Facility': {},
'Museum': {},
'Zoo': {},
'Amusement_Park': {},
'Theater': {},
'Worship_Place': {},
'Car_Stop': {},
'Station': {},
'Airport': {},
'Port': {}
},
'Line':
{
'Line_Other': {},
'Railroad': {},
'Road': {},
'Canal': {},
'Water_Route': {},
'Tunnel': {},
'Bridge': {}
}
},
'Product':
{
'Product_Other': {},
'Material': {},
'Clothing': {},
'Money_Form': {},
'Drug': {},
'Weapon': {},
'Stock': {},
'Award': {},
'Decoration': {},
'Offence': {},
'Service': {},
'Class': {},
'Character': {},
'ID_Number': {},
'Vehicle':
{
'Vehicle_Other': {},
'Car': {},
'Train': {},
'Aircraft': {},
'Spaceship': {},
'Ship': {},
},
'Food':
{
'Food_Other': {},
'Dish': {}
},
'Art':
{
'Art_Other': {},
'Picture': {},
'Broadcast_Program': {},
'Movie': {},
'Show': {},
'Music': {},
'Book': {}
},
'Printing':
{
'Printing_Other': {},
'Newspaper': {},
'Magazine': {},
},
'Doctrine_Method':
{
'Doctrine_Method_Other': {},
'Culture': {},
'Religion': {},
'Academic': {},
'Sport': {},
'Style': {},
'Movement': {},
'Theory': {},
'Plan': {}
},
'Rule':
{
'Rule_Other': {},
'Treaty': {},
'Law': {}
},
'Title':
{
'Title_Other': {},
'Position_Vocation': {}
},
'Language':
{
'Language_Other': {},
'National_Language': {}
},
'Unit':
{
'Unit_Other': {},
'Currency': {}
}
},
'Event':
{
'Event_Other': {},
'Occasion':
{
'Occasion_Other': {},
'Religious_Festival': {},
'Game': {},
'Conference': {}
},
'Incident':
{
'Incident_Other': {},
'War': {}
},
'Natural_Phenomenon':
{
'Natural_Phenomenon_Other': {},
'Natural_Disaster': {},
'Earthquake': {}
}
},
'Natural_Object':
{
'Natural_Object_Other': {},
'Element': {},
'Compound': {},
'Mineral': {},
'Living_Thing':
{
'Living_Thing_Other': {},
'Fungus': {},
'Mollusc_Arthropod': {},
'Insect': {},
'Fish': {},
'Amphibia': {},
'Reptile': {},
'Bird': {},
'Mammal': {},
'Flora': {}
},
'Living_Thing_Part':
{
'Living_Thing_Part_Other': {},
'Animal_Part': {},
'Flora_Part': {}
}
},
'Disease':
{
'Disease_Other': {},
'Animal_Disease': {}
},
'Color':
{
'Color_Other': {},
'Nature_Color': {}
}
},
'Time_Top':
{
'Time_Top_Other': {},
'Timex':
{
'Timex_Other': {},
'Time': {},
'Date': {},
'Day_Of_Week': {},
'Era': {}
},
'Periodx':
{
'Periodx_Other': {},
'Period_Time': {},
'Period_Day': {},
'Period_Week': {},
'Period_Month': {},
'Period_Year': {}
}
},
'Numex':
{
'Numex_Other': {},
'Money': {},
'Stock_Index': {},
'Point': {},
'Percent': {},
'Multiplication': {},
'Frequency': {},
'Age': {},
'School_Age': {},
'Ordinal_Number': {},
'Rank': {},
'Latitude_Longtitude': {},
'Measurement':
{
'Measurement_Other': {},
'Physical_Extent': {},
'Space': {},
'Volume': {},
'Weight': {},
'Speed': {},
'Intensity': {},
'Temperature': {},
'Calorie': {},
'Seismic_Intensity': {},
'Seismic_Magnitude': {}
},
'Countx':
{
'Countx_Other': {},
'N_Person': {},
'N_Organization': {},
'N_Location':
{
'N_Location_Other': {},
'N_Country': {}
},
'N_Facility': {},
'N_Product': {},
'N_Event': {},
'N_Natural_Object':
{
'N_Natural_Object_Other': {},
'N_Animal': {},
'N_Flora': {}
}
}
}
}
@kzinmr
Copy link
Author

kzinmr commented May 22, 2019

IREXMAP = {
#     'NAME':  # PERSON, LOCATION, ORGANIZATION, ARTIFACT
#     {
#         'Name_Other': {},
        'Person': 'PERSON',
#         'God': {},
#         'Organization':  # 'ORGANIZATION'
#         {
            'Organization_Other': 'ORGANIZATION',
            'International_Organization': 'ORGANIZATION',
            'Show_Organization': 'ORGANIZATION',
            'Family': 'ORGANIZATION',
#             'Ethnic_Group': 
#             {
                'Ethnic_Group_Other': 'ORGANIZATION',
                'Nationality': 'ORGANIZATION',
#             },
#             'Sports_Organization':
#             {
                'Sports_Organization_Other': 'ORGANIZATION',
                'Pro_Sports_Organization': 'ORGANIZATION',
                'Sports_League': 'ORGANIZATION',
#             },
#             'Corporation': 
#             {
                'Corporation_Other': 'ORGANIZATION',
                'Company': 'ORGANIZATION',
                'Company_Group': 'ORGANIZATION',
#             },
#             'Political_Organization':
#             {
                'Political_Organization_Other': 'ORGANIZATION',
                'Government': 'ORGANIZATION',
                'Political_Party': 'ORGANIZATION',
                'Cabinet': 'ORGANIZATION',
                'Military': 'ORGANIZATION',
#             }
#         },
#         'Location':  # LOCATION
#         {
            'Location_Other': 'LOCATION',
            'Spa': 'LOCATION',
#             'GPE':
#             {
                'GPE_Other': 'LOCATION',
                'City': 'LOCATION',
                'County': 'LOCATION',
                'Province': 'LOCATION',
                'Country': 'LOCATION',
#             },
#             'Region':
#             {
                'Region_Other': 'LOCATION',
                'Continental_Region': 'LOCATION',
                'Domestic_Region': 'LOCATION',
#             },
#             'Geological_Region':
#             {
                'Geological_Region_Other': 'LOCATION',
                'Mountain': 'LOCATION',
                'Island': 'LOCATION',
                'River': 'LOCATION',
                'Lake': 'LOCATION',
                'Sea': 'LOCATION',
                'Bay': 'LOCATION',
#             },
#             'Astral_Body':  # - LOCATION
#             {
#                 'Astral_Body_Other': {},
#                 'Star': {},
#                 'Planet': {},
#                 'Constellation': {},
#             },
#             'Address':
#             {
                'Address_Other': 'LOCATION',
                'Postal_Address': 'LOCATION',
#                 'Phone_Number': {},  # - LOCATION
#                 'Email': {},  # - LOCATION
#                 'URL': {}  # - LOCATION
#             },
#         },
#         'Facility':  # 'LOCATION'
#         {
            'Facility_Other': 'LOCATION',
            'Facility_Part': 'LOCATION',
#             'Archaeological_Place':
#             {
                'Archaeological_Place_Other': 'LOCATION',
                'Tumulus': 'LOCATION',
#             },
#             'GOE':
#             {
                'GOE_Other': 'LOCATION',
                'Public_Institution': 'LOCATION',
                'School': 'LOCATION',
                'Research_Institute': 'LOCATION',
                'Market': 'LOCATION',
                'Park': 'LOCATION',
                'Sports_Facility': 'LOCATION',
                'Museum': 'LOCATION',
                'Zoo': 'LOCATION',
                'Amusement_Park': 'LOCATION',
                'Theater': 'LOCATION',
                'Worship_Place': 'LOCATION',
                'Car_Stop': 'LOCATION',
                'Station': 'LOCATION',
                'Airport': 'LOCATION',
                'Port': 'LOCATION',
#             },
#             'Line':  # - LOCATION
#             {
#                 'Line_Other': {},
#                 'Railroad': {},
#                 'Road': {},
#                 'Canal': {},
#                 'Water_Route': {},
#                 'Tunnel': {},
#                 'Bridge': {}
#             }
#         },
#         'Product':   # 'ARTIFACT'
#         {
            'Product_Other': 'ARTIFACT',
            'Material': 'ARTIFACT',
            'Clothing': 'ARTIFACT',
            'Money_Form': 'ARTIFACT',
            'Drug': 'ARTIFACT',
            'Weapon': 'ARTIFACT',
            'Stock': 'ARTIFACT',
            'Award': 'ARTIFACT',
            'Decoration': 'ARTIFACT',
            'Offence': 'ARTIFACT',
            'Service': 'ARTIFACT',
            'Class': 'ARTIFACT',
            'Character': 'ARTIFACT',
            'ID_Number': 'ARTIFACT',
#             'Vehicle':
#             {
                'Vehicle_Other': 'ARTIFACT',
                'Car': 'ARTIFACT',
                'Train': 'ARTIFACT',
                'Aircraft': 'ARTIFACT',
                'Spaceship': 'ARTIFACT',
                'Ship': 'ARTIFACT',
#             },
#             'Food':
#             {
                'Food_Other': 'ARTIFACT',
                'Dish': 'ARTIFACT',
#             },
#             'Art':
#             {
                'Art_Other': 'ARTIFACT',
                'Picture': 'ARTIFACT',
                'Broadcast_Program': 'ARTIFACT',
                'Movie': 'ARTIFACT',
                'Show': 'ARTIFACT',
                'Music': 'ARTIFACT',
                'Book': 'ARTIFACT',
#             },
#             'Printing':
#             {
                'Printing_Other': 'ARTIFACT',
                'Newspaper': 'ARTIFACT',
                'Magazine': 'ARTIFACT',
#             },
#             'Doctrine_Method':
#             {
                'Doctrine_Method_Other': 'ARTIFACT',
                'Culture': 'ARTIFACT',
                'Religion': 'ARTIFACT',
                'Academic': 'ARTIFACT',
                'Sport': 'ARTIFACT',
                'Style': 'ARTIFACT',
                'Movement': 'ARTIFACT',
                'Theory': 'ARTIFACT',
                'Plan': 'ARTIFACT',
#             },
#             'Rule':
#             {
                'Rule_Other': 'ARTIFACT',
                'Treaty': 'ARTIFACT',
                'Law': 'ARTIFACT',
#             },
#             'Title':
#             {
                'Title_Other': 'ARTIFACT',
                'Position_Vocation': 'ARTIFACT',
#             },
#             'Language':
#             {
                'Language_Other': 'ARTIFACT',
                'National_Language': 'ARTIFACT',
#             },
#             'Unit':
#             {
                'Unit_Other': 'ARTIFACT',
                'Currency': 'ARTIFACT',
#             }
#         },
#         'Event': 
#         {
#             'Event_Other': {},
#             'Occasion':
#             {
#                 'Occasion_Other': {},
#                 'Religious_Festival': {},
#                 'Game': {},
#                 'Conference': {}
#             },
#             'Incident':
#             {
#                 'Incident_Other': {},
#                 'War': {}
#             },
#             'Natural_Phenomenon':
#             {
#                 'Natural_Phenomenon_Other': {},
#                 'Natural_Disaster': {},
#                 'Earthquake': {}
#             }
#         },
#         'Natural_Object': 
#         {
#             'Natural_Object_Other': {},
#             'Element': {},
#             'Compound': {},
#             'Mineral': {},
#             'Living_Thing':
#             {
#                 'Living_Thing_Other': {},
#                 'Fungus': {},
#                 'Mollusc_Arthropod': {},
#                 'Insect': {},
#                 'Fish': {},
#                 'Amphibia': {},
#                 'Reptile': {},
#                 'Bird': {},
#                 'Mammal': {},
#                 'Flora': {}
#             },
#             'Living_Thing_Part':
#             {
#                 'Living_Thing_Part_Other': {},
#                 'Animal_Part': {},
#                 'Flora_Part': {}
#             }
#         },
#         'Disease': 
#         {
#             'Disease_Other': {},
#             'Animal_Disease': {}
#         },
#         'Color': 
#         {
#             'Color_Other': {},
#             'Nature_Color': {}
#         }
#     },

        
#     'Time_Top':
#     {
#         'Time_Top_Other': {},
#         'Timex': 
#         {
            'Timex_Other': 'TIME',  # OK?
            'Time': 'TIME',
            'Date': 'DATE',
            'Day_Of_Week': 'DATE',
            'Era': 'DATE',
#         },
#         'Periodx': 
#         {
#             'Periodx_Other': {},
#             'Period_Time': {},
#             'Period_Day': {},
#             'Period_Week': {},
#             'Period_Month': {},
#             'Period_Year': {}
#         }
#     },

#     'Numex':  # MONEY, PERCENT
#     {
        'Money': 'MONEY',
#         'Stock_Index': {},
#         'Point': {},
        'Percent': 'PERCENT',
#         'Multiplication': {},
#         'Frequency': {},
#         'Age': {},
#         'School_Age': {},
#         'Ordinal_Number': {},
#         'Rank': {},
#         'Latitude_Longtitude': {},
#         'Measurement': 
#         {
#             'Measurement_Other': {},
#             'Physical_Extent': {},
#             'Space': {},
#             'Volume': {},
#             'Weight': {},
#             'Speed': {},
#             'Intensity': {},
#             'Temperature': {},
#             'Calorie': {},
#             'Seismic_Intensity': {},
#             'Seismic_Magnitude': {}
#         },
#         'Countx': 
#         {
#             'Countx_Other': {},
#             'N_Person': {},
#             'N_Organization': {},
#             'N_Location':
#             {
#                 'N_Location_Other': {},
#                 'N_Country': {}
#             },
#             'N_Facility': {},
#             'N_Product': {},
#             'N_Event': {},
#             'N_Natural_Object':
#             {
#                 'N_Natural_Object_Other': {},
#                 'N_Animal': {},
#                 'N_Flora': {}
#             }
#         }
#     }
}

@kzinmr
Copy link
Author

kzinmr commented Aug 13, 2019

人物・組織クラスサブセット from 仲野&乾, 2017

ene_subset = {
#     'NAME':
#     {
#         'Name_Other': {},
        'Person': 'PERSON',
#         'God': {},
#         'Organization': 
#         {
            'Organization_Other': 'ORGNIZATION',
            'International_Organization': 'ORGNIZATION',
            'Show_Organization': 'ORGNIZATION',
            'Family': 'ORGNIZATION',
#             'Ethnic_Group':
#             {
                'Ethnic_Group_Other': 'ORGNIZATION',
                'Nationality': 'ORGNIZATION',
#             },
#             'Sports_Organization':
#             {
                'Sports_Organization_Other': 'ORGNIZATION',
                'Pro_Sports_Organization': 'ORGNIZATION',
                'Sports_League': 'ORGNIZATION',
#             },
#             'Corporation': 
#             {
                'Corporation_Other': 'ORGNIZATION',
                'Company': 'ORGNIZATION',
                'Company_Group': 'ORGNIZATION',
#             },
#             'Political_Organization':
#             {
                'Political_Organization_Other': 'ORGNIZATION',
                'Government': 'ORGNIZATION',
                'Political_Party': 'ORGNIZATION',
                'Cabinet': 'ORGNIZATION',
                'Military': 'ORGNIZATION',
#             }
#         },
#         'Location': 
#         {
#             'GPE':
#             {
                'GPE_Other': 'GPE',
                'City': 'GPE',
                'County': 'GPE',
                'Province': 'GPE',
                'Country': 'GPE',
#             },
#         'Facility': 
#         {
#             'GOE':
#             {
                'GOE_Other': 'GOE',
                'Public_Institution': 'GOE',
                'School': 'GOE',
                'Research_Institute': 'GOE',
                'Market': 'GOE',
                'Park': 'GOE',
                'Sports_Facility': 'GOE',
                'Museum': 'GOE',
                'Zoo': 'GOE',
                'Amusement_Park': 'GOE',
                'Theater': 'GOE',
                'Worship_Place': 'GOE',
                'Car_Stop': 'GOE',
                'Station': 'GOE',
                'Airport': 'GOE',
                'Port': 'GOE',
#             },
#         },
#         'Product': 
#         {
#             'Title':
#             {
#                 'Title_Other': {},
                'Position_Vocation': 'POSITION_VOCATION'
#             },
#         },
#     },
}

@kzinmr
Copy link
Author

kzinmr commented Aug 13, 2019

From ENEv711

翻訳マップのdict (GPE_その他 を半角に修正, Company, Company_Group, Organization_Other, Offenceがtypoだったため修正)

s = """ENE | 例 | ENE英語表記
-- | -- | --
名前_その他 | たま,  ポチ,  オグリキャップ,  トントン | Name_Other
人名 | 岡本文弥,  カーン,  長門美保,  フォスター,  武帝 | Person
神名 | アテネ,  インドラ,  ゼウス,  大国主命,  帝釈天 | God
組織名(Organizaton) | 組織名_その他 | 総務課,  孔門の十哲,  向田ファミリー,  精華町町内会,  第二工学部 | Organization_Other
国際組織名 | 国際連盟,  イスラム諸国会議機構,  南太平洋フォーラム,  東南アジア条約機構 | International_Organization
公演組織名 | クリーブランド管弦楽団,  ビージーズ,  ボリショイ・バレエ団 | Show_Organization
家系名 | 久我氏,  清水家,  近衛家,  伏見宮家 | Family
民族名(Ethnic_Group) | 民族名_その他 | ケルト人,  モンゴロイド,  トラジャ(人),  チェコ人,  アフリカーナー | Ethnic_Group_Other
国籍名 | イスラエル人,  アメリカ人,  日本国籍 | Nationality
競技組織名(Sports_Organization) | 競技組織名_その他 | 野良黒山の会,  桐山部屋,  馬家軍,  全日本,  グリーンツダ | Sports_Organization_Other
プロ競技組織名 | 読売ジャイアンツ,  ACミラン,  鹿島アントラーズ,  ニューヨーク・ヤンキース | Pro_Sports_Organization
競技リーグ名 | NBA,  セリエA,  セントラル・リーグ,  日本プロサッカーリーグ,  アイビー・リーグ | Sports_League
法人名(Corporation) | 法人名_その他 | 日本弁護士連合会,  宇宙開発事業団,  冷泉家時雨亭文庫,  日本相撲協会 | Corporation_Other
企業名 | BMW,  富士電機(株),  三菱銀行,  トステム(株),  岩波書店(株) | Company
企業グループ名 | 三井財閥,  住友財閥,  日産コンツェルン,  ロックフェラー財閥,  デュポン財閥 | Company_Group
政治的組織名(Political_Organization) | 政治的組織名_その他 | 竹下派,  奥羽越列藩同盟,  公明市議団,  自民党府連 | Political_Organization_Other
政府組織名 | 文部省,  経済企画庁,  韓国中央情報部,  気象庁,  ナイ委員会 | Government
政党名 | ロシア共産党,  新党さきがけ,  日本新党,  共和党,  中国国民党 | Political_Party
内閣名 | 田中角栄内閣,  原敬内閣,  小渕恵三内閣,  三木武夫内閣,  西園寺公望内閣 | Cabinet
軍隊名 | 自衛隊,  アメリカ空軍,  国連軍,  多国籍軍,  連合軍 | Military
地名(Location) | 地名_その他 | タイムズ・スクエア,  グランド・ゼロ,  日本三景,  天国,  エデンの園 | Location_Other
温泉名 | 月ヶ瀬温泉,  遠刈田温泉,  白馬温泉,  福地温泉,  湯の山温泉 | Spa
GPE(GPE) | GPE_その他 | パレスチナ自治地域,  台湾,  大阪府・市,  仏領ポリネシア | GPE_Other
市区町村名 | 月形(町),  五箇(村),  レッチワース,  ブランドン,  リオ・デ・ジャネイロ | City
郡名 | 真番郡,  帯方郡,  巨摩,  金堤,  固城 | County
都道府県州名 | 群馬(県),  カンザス,  ニューヨーク(州),  熊本(県),  アルトア | Province
国名 | アラブ首長国連邦,  オーストラリア,  西サモア,  コートジボアール,  唐 | Country
地域名(Region) | 地域名_その他 |   | Region_Other
大陸地域名 | オリエント,  北アフリカ,  ゴンドワナ大陸,  バビロニア,  陸半球 | Continental_Region
国内地域名 | 奥羽地方,  中部地方,  カルナティック,  ボスニア,  可美 | Domestic_Region
地形名(Geological_Region) | 地形名_その他 | アルタミラ洞窟,  野島断層,  秋芳洞,  阿波の土柱,  利根川構造線 | Geological_Region_Other
山地名 | 富士山,  間ノ岳,  青崩峠,  中央アルプス,  木曽駒ケ岳 | Mountain
島名 | ラクシャドウィープ諸島,  友ヶ島,  大スンダ列島,  西表島,  沖縄諸島 | Island
河川名 | 早出川,  アーレ川,  マージー川,  千種川,  ダニューブ川 | River
湖沼名 | 大浪池,  グレート湖,  シルヤン湖,  丸沼,  サロマ湖 | Lake
海洋名 | 日本海,  バルト海,  周防灘,  関門海峡,  ホルムズ海峡 | Sea
湾名 | シェレホフ湾,  浦戸湾,  九十九湾,  ピョートル大帝湾,  ベンガル湾 | Bay
天体名(Astral_Body) | 天体名_その他 | 銀河系,  太陽系,  獅子座流星群 | Astral_Body_Other
恒星名 | アケルナル,  ウォルフ‐ライエ星,  カノープス,  ベガ,  レグルス | Star
惑星名 | 木星,  土星,  海王星,  ベスタ,  イカルス | Planet
星座名 | いて座,  エリダヌス座,  きりん座,  こと座,  ほうおう座 | Constellation
アドレス(Address) | アドレス_その他 |   | Address_Other
郵便住所 | 東京都目黒区大岡山2-12-1,  123-0045,  富士見町3-2 | Postal_Address
電話番号 | 3726-1111,  (03)3269―3471,  内線123,  110番 | Phone_Number
電子メイル | sekine@cs.nyu.edu | Email
URL | http://cs.nyu.edu/~sekine | URL
施設名(Facility) | 施設名_その他 | 雄勝柵,  春草廬,  唐人屋敷,  三蔵,  ヘンドリク・フェアウールト・ダム | Facility_Other
施設部分名 | 8階,  南口,  1204号室,  華の間,  ハチ公口,  南ウィング | Facility_Part
遺跡名(Archaeological_Place) | 遺跡名_その他 | トゥルカナ遺跡,  犬伏瓦経塚,  貔子窩,  高根木戸遺跡群,  ニップール | Archaeological_Place_Other
古墳名 | 那須八幡塚古墳,  岩戸山古墳,  新山古墳,  チブサン古墳,  昭陵 | Tumulus
GOE(GOE) | GOE_その他 | ホワイトハウス,  帝国ホテル,  葵文庫,  赤坂離宮,  横田基地 | GOE_Other
公共機関名 | 黒中央郵便局,  東京家庭裁判所,  新宿駅西口交番,  高槻市役所 | Public_Institution
学校名 | プリンストン大学,  ローマ大学,  香川医科大学,  青山学院大学,  明治大学 | School
研究機関名 | ストックホルム国際平和研究所,  グリニッジ天文台,  種子島宇宙センター | Research_Institute
取引所名 | 東京証券取引所,  関西商品取引所,  神戸生糸取引所 | Market
公園名 | 上信越高原国立公園,  ザイオン国立公園,  旧円覚寺庭園,  小石川後楽園 | Park
競技施設名 | 東京ドーム,  花園ラグビー場,  石打丸山スキー場,  鳥羽CC | Sports_Facility
美術博物館名 | ルーブル美術館,  ボストン美術館,  東京国立博物館,  日本民俗資料館 | Museum
動植物園名 | 上野動物園,  ヒールズビル野生動物公園,  ニューヨーク動物公園 | Zoo
遊園施設名 | 東京ディズニーランド,  こどもの国,  チボリ公園,  ユネスコ村 | Amusement_Park
劇場名 | 明治座,  ボリショイ劇場,  パリ・オペラ座,  メトロポリタン歌劇場 | Theater
神社寺名 | 寿福寺,  サン・ドニ修道院,  円教寺,  多度神社,  スルタン・ハッサン・モスク | Worship_Place
停車場名 | 秋保神社前,  京都駅パーキングエリア,  海老名サービスエリア | Car_Stop
電車駅名 | 東京駅,  大阪駅 | Station
空港名 | 東京国際空港,  ジョン・エフ・ケネディ国際空港,  オヘア国際空港 | Airport
港名 | 神戸港,  安濃津,  十三湊,  韓泊,  横瀬浦 | Port
路線名(Line) | 路線名_その他 | 駒ケ岳ロープウェイ,  シルク・ロード | Line_Other
電車路線名 | 関西本線,  山口線,  東海道本線,  釧網本線,  宝成線 | Railroad
道路名 | 中国横断自動車道,  シルク・ロード,  ブロードウェー,  オペラ座通り,  山辺の道 | Road
運河名 | スエズ運河,  アムステルダム運河,  見沼通船堀,  セント・ローレンス水路 | Canal
航路名 | 西廻海運,  エンパイア・ルート,  青函航路,  宇高航路,  海の道 | Water_Route
トンネル名 | アペニン・トンネル,  清水トンネル,  丹那トンネル,  モファット・トンネル | Tunnel
橋名 | 瀬戸大橋,  ロンドン・ブリッジ,  万世橋,  天草五橋,  クイーンズボロ橋 | Bridge
製品名(Product) | 製品名_その他 | サランラップ,  博多人形,  縄文土器,  警察権,  金メダル,  GDP,  米国債 | Product_Other
材料名 | ポリビニルピロリドン,  ジェット燃料,  クロムグリーン,  ナフトール染料,  オクトーゲン | Material
衣類名 | 菅笠,  木沓,  沖着物,  甲掛,  晴れ着 | Clothing
貨幣名 | ソリドゥス金貨,  デナリウス貨,  王莽銭,  アッシニャ | Money_Form
医薬品名 | 経口血糖降下薬,  アセタゾラミド,  男性ホルモン剤,  サルファ剤,  プロベネシド | Drug
武器名 | 軌道爆弾,  スプリングフィールド銃,  自走砲,  巡航ミサイル,  火炎びん | Weapon
株名 | NTT株,  ナビスコ株,  タテホ株,  リクルートコスモス株 | Stock
賞名 | ノーベル賞,  アカデミー賞,  国民栄誉賞,  ピュリッツァー賞,  フィールズ賞 | Award
勲章名 | 文化勲章,  ガーター勲章,  レーニン勲章,  賜杯,  ブルーリボン | Decoration
罪名 | 住居侵入罪,  収賄罪,  殺人罪,  不敬罪,  マネー・ロンダリング | Offence
便名 | ノースウエスト69便,  ひかり40号,  インドネシア航空872便 | Service
等級名 | 4級,  八段,  トリプルA,  黒帯,  女子48キロ級,  一軍 | Class
キャラクター名 | ミッキー・マウス,  ポパイ,  シンデレラ,  黄金バット | Character
識別番号 | IE1234-5678,  クモハ123-4567 | ID_Number
乗り物名(Vehicle) | 乗り物名_その他 | ラクーン,  ハーレーダビッドソン,  ウイングカスタム,  Wave125i | Vehicle_Other
車名 | カローラ,  プリマス・フューリI,  そよかぜ号 | Car
列車名 | ロコモーション号,  弁慶号,  一号機関車,  ペンドリーノ,  SE車,   零戦 | Train
飛行機名 | フライヤー号,  紫電改,  スピリット・オブ・セントルイス号,  FSX | Aircraft
宇宙船名 | スペースシャトル,  ウォストーク,  サリュート,  スプートニク,  ミール | Spaceship
船名 | クイーン・エリザベス号,  日本丸,  ノルマンディー号,  武蔵,  高瀬舟 | Ship
食べ物名(Food) | 食べ物名_その他 | 米,  リンゴ,  水 | Food_Other
料理名 | 赤飯,  弁当,  流動食,  粥,  桶茶 | Dish
芸術作品名(Art) | 芸術作品名_その他 | ミロのヴィーナス,  聖徳太子絵伝,  聖観音菩薩像 | Art_Other
絵画名 | ゲルニカ,  モナ・リザ,  冨嶽三十六景,  イーゼンハイム祭壇画,  彦根屏風 | Picture
番組名 | 紅白歌合戦,  街頭録音 | Broadcast_Program
映画名 | 七人の侍,  モダン・タイムス,  ゴジラ男はつらいよ,  第三の男 | Movie
公演名 | おふくろ,  隅田川続俤,  通小町,  明日の幸福,  鰍沢 | Show
音楽名 | 動物の謝肉祭,  おけさ節,  魔弾の射手,  ルスランとリュドミラ,  木更津甚句 | Music
文学名 | アンタル物語,  蔭凉軒日録,  食道楽,  長ぐつ下のピッピ,  立花大全 | Book
出版物名(Printing) | 出版物名_その他 | 京都大学入学案内書,  ポケモンカレンダー,  アマルナ文書 | Printing_Other
新聞名 | 信濃毎日新聞,  ジャパンタイムズ,  官板バタヒヤ新聞,  東亜日報,  デーリー・ミラー | Newspaper
雑誌名 | 主婦の友,  四季,  ナショナル・ジオグラフィック,  馬酔木,  フォーリン・アフェアーズ | Magazine
主義方式名(Doctrine_Method) | 主義方式名_その他 | 民主主義,  護送船団方式,  育児休暇制,  アラビア文字,  ユダヤ暦,  足入れ婚 | Doctrine_Method_Other
文化名 | アシュール文化,  アンデス文明,  アメリカ美術 | Culture
宗教名 | イスラム教,  吉田神道,  天照皇大神宮教,  モルモン教,  シーア派 | Religion
学問名 | 温泉化学,  言語美学,  材料力学,  農芸化学,  量子エレクトロニクス | Academic
競技名 | 軟式テニス,  ドッジボール,  クロスカントリー・レース,  キックボクシング, かるた会 | Sport
流派名 | 一羽流,  美濃派,  文法学派,  甲源一刀流,  小原流 | Style
運動名 | ベトナム反戦運動,  沖縄復帰運動,  光州学生運動 | Movement
理論名 | 相対性理論,  進化論,  プレートテクトニクス理論 | Theory
政策計画名 | アポロ計画,  情報スーパーハイウェー構想,  ニューディール政策 | Plan
規則名(Rule) | 規則名_その他 | 公示の原則,  戦後五十年国会決議,  民法改正要綱試案 | Rule_Other
条約名 | 国際人権規約,  薩土盟約,  モスクワ協定,  パヒキナサーリ条約,  ビョルケ密約 | Treaty
法令名 | 家電リサイクル法,  御成敗式目,  労働基準法,  イスラエル破壊条項,  2%条項 | Law
称号名(Titile) | 称号名_その他 | さん,  様,  氏,  ちゃん,  君,  殿,  夫人 | Title_Other
地位職業名 | 内閣総理大臣,  奈良奉行,  大関,  栄養士,  商人 | Position_Vocation
言語名(Language) | 言語名_その他 | 印欧語族,  ウラル・アルタイ語族,  大阪弁 | Language_Other
国語名 | 英語,  満州語,  ハンガリー語,  スウェーデン語,  チャム語 | National_Language
単位名(Unit) | 単位名_その他 | アンペア,  ニュートン,  ビット,  ロックウェル硬さ,  連 | Unit_Other
通貨単位名 | 円,  ドル,  ウォン,  フラン,  ユーロ | Currency
イベント名(Event) | イベント名_その他 | 第一次ベビーブーム,  アジア通貨危機,  北方領土問題 | Event_Other
催し物名(Occasion) | 催し物名_その他 | 筑波科学万博,  春のブライダルフェア‘95,  ノーベル賞授賞式,  江戸の浮世絵展 | Occasion_Other
例祭名 | 端午の節供,  灯籠流し,  海神祭,  曲水宴,  チャンココ | Religious_Festival
競技会名 | 東京オリンピック,  ウィンブルドンテニス大会,  ワールドカップ,  国民体育大会 | Game
会議名 | ヨーロッパ安保協力会議,  日米構造協議,  アルカディア会談,  世界女性会議, G7 | Conference
事故事件名(Incident) | 事故事件名_その他 | 蘆溝橋事件,  ウォーターゲート事件,  生麦事件,  チャタレイ事件,  東海村臨界事故 | Incident_Other
戦争名 | 関ヶ原の戦い,  プロイセン・オーストリア戦争,  中国征伐,  宗教戦争 | War
自然現象名(Natural_Phenomenon) | 自然現象名_その他 | シベリア高気圧,  偏西風,  千島海流,  エルニーニョ | Natural_Phenomenon_Other
自然災害名 | 伊勢湾台風,  諫早豪雨,  雲仙普賢岳噴火災害,  寛永の飢饉 | Natural_Disaster
地震名 | アラスカ地震,  チリ地震,  長野県西部地震,  三河地震,  ルーマニア地震 | Earthquake
自然物名(Natural_Object) | 自然物名_その他 |   | Natural_Object_Other
元素名 | 酸素,   水素,   ヘリウム,  ルビジウム | Element
化合物名 | 塩酸,  フッ酸,  臭化アセチル,  多価アルコール,  メタロセン | Compound
鉱物名 | 苦土橄欖石,  硬マンガン鉱,  フェルグソン石,  自然銅,  芋子石 | Mineral
生物名(Living_Thing) | 生物名_その他 | インフルエンザ菌,  アンモニア化成菌,  発酵菌,  コクサッキーウイルス,  硝化細菌 | Living_Thing_Other
真菌類名 | ドクベニタケ,  ワタカビ,  バンダイキノリ,  キヌガサタケ,  ケカビ | Fungus
軟体動物_節足動物名 | コブシガニ,  サザエ,  ヤナギダコ,  アカヒトデ,  トゲサンゴ | Mollusc_Arthropod
昆虫類名 | ウラミスジシジミ,  シンクイガ,  トコジラミ,  マイマイカブリ,  ヤノネカイガラムシ | Insect
魚類名 | ニゴイ,  オヒョウ,  ホシザメ,  ヒメマス,  カワビシャ | Fish
両生類名 | サンショウウオ,  ツノガエル,  イボイモリ,  トウキョウダルマガエル,  アンヒューマ | Amphibia
爬虫類名 | ワニガメ,  アホロテトカゲ,  ヨロイハブ,  エリマキトカゲ,  クロコダイル | Reptile
鳥類名 | クジャク,  ナベヅル,  クロコシジロウミツバメ,  カンムリツクシガモ,  ウミアイサ | Bird
哺乳類名 | アメリカバイソン,  モウコウマ,  ハタリス,  オオマメジカ,  紀州犬 | Mammal
植物名 | バラ,  松,  チューリップ,  クローバー | Flora
生物部位名(Living_Thing_Part) | 生物部位名_その他 | 細胞,   染色体,   伝令RNA,   DNA | Living_Thing_Part
動物部位名 | ロレンチーニ器官,  視神経,  胎盤,  腎管,  つむじ | Animal_Part
植物部位名 | 花茎,  雌しべ,  前出葉,  機械組織,  道管 | Flora_Part
病気名(Disease) | 病気名_その他 | 黒星病,  むれ苗,  樹病 | Disease_Other
動物病気名 | WPW症候群,  結節性多発動脈炎,  歯肉炎,  乳癌,  膀胱結核 | Animal_Disease
色名(Color) | 色名_その他 | 江戸紫,  べに色,  韓紅花,  猩々緋,  黄丹 | Color_Other
自然色名 | 赤,  青,  白,  黒,  黄 | Nature_Color
時間表現_その他 |   | Time_Top_Other
時間(Timex) | 時間_その他 | 一学期, 後期, 3時間目 | Timex_Other
時刻表現 | 3時10分50秒, 18:40, 午後 18時, 午後6時, 丑三つ時 | Time
日付表現 | 2001年12月14日, 5/31, 平成14年, 96年春, こどもの日 | Date
曜日表現 | 月曜, 火曜日, 水, 週末 | Day_Of_Week
時代表現 | 明治, 昭和, 江戸時代, 原始時代, ソ連時代, 若貴時代, 戦後 | Era
期間(Periodx) | 期間_その他 | 3期 | Periodx_Other
時刻期間 | 3秒間, 10分間, 50時間, 一昼夜 | Period_Time
日数期間 | 10日間, 30日間, 半日間, 二晩 | Period_Day
週数期間 | 一週間, 50週間, 週 | Period_Week
月数期間 | 一ヶ月間, 4ヶ月間, 1箇月間,  ひと月 | Period_Month
年数期間 | 一年間, 10年間, 5ヵ年 | Period_Year
数値表現_その他 | 8階建て, 2LDK, 二重, Version6.0.5 | Numex_Other
金額表現 | 10円, 一万円, 参千円, 50ドル | Money
株指標 | 26 5/8 | Stock_Index
ポイント | 10点, 22ポイント, 12得点 | Point
割合表現 | 100パーセント, 半分, 三分の二, 3割5分 | Percent
倍数表現 | 2倍, 1.5倍, 百倍 | Multiplication
頻度表現 | 3回 , 8度 | Frequency
年齢 | 3ヶ月, 5歳, 18才, 還暦, 20代後半 | Age
学齢 | 1年生, 中学2年, 高三, 幼稚園児 | School_Age
序数 | 第1一次, 第1回, 17代, 第3ラウンド | Ordinal_Number
順位表現 | 一位, 優勝, ブービー, ベスト5, 8強 | Rank
緯度経度 | 北緯30度, 西経135度20分 | Latitude_Longtitude
寸法表現(Measurement) | 寸法表現_その他 | 20ワット, 50フォン, 10デシベル, 小さじ2, A4 | Measurement_Other
長さ | 3ミリ, 8mm, 9メートル, 5里, 8ヤード, 5尺6寸 | Physical_Extent
面積 | 2ヘクタール, 30坪, 7平方メートル | Space
体積 | 350ml, 100立方メートル, 一升 | Volume
重量 | 3オンス, 5マイクロ, 3パウンド, 十貫, 5トン | Weight
速度 | 時速100キロ, 50km/h, 89ヘルツ | Speed
密度 | 5キログラム毎立方メートル, 30kg/立方メートル | Intensity
温度 | 15度, 氷点下3℃, 摂氏6度, -2℃ | Temperature
カロリー | 2000カロリー, 120kcal | Calorie
震度 | 震度4, 震度五 | Seismic_Intensity
マグニチュード | マグニチュード7.2 | Seismic_Magnitude
個数(Countx) | 個数_その他 | 2膳, 3杯, 3言語, 100万画素, 100アクセス, 10ビット | Contx_Other
人数 | 3人, 千人, 7選手, 3名人, 6閣僚 | N_Person
組織数 | 10産業グループ, 10企業, 6団体, 4組, 8家族 | N_Organization
場所数(N_Location) | 場所数_その他 | 10地域, 5領域, 二十三都道府県, 10惑星, 7ヶ所 | N_Location_Other
国数 | 2国, 四ヶ国, 3か国 | N_Country
施設数 | 10校, 10空港, 8棟, 二万戸 | N_Facility
製品数 | 10システム, 20枚, 五万台, 三十曲, 7冊 | N_Product
イベント数 | 5つ, 4件, 3大会, 70公演, 3勝, 4場所 | N_Event
自然物数(N_Natural_Object) | 自然物数_その他 | 10個, 10原子 | N_Natural_Object_Other
動物数 | 10匹, 10羽, 10頭 | N_Animal
植物数 | 10輪, 10本, 10株 | N_Flora
"""
en2ja_ene = dict([(l.split(' | ')[-1], l.split(' | ')[-3]) for l in s.split('\n') if ' | ' in l and len(l.split(' | '))>2][2:])
en2ja_ene```

```python
{'Name_Other': '名前_その他',
 'Person': '人名',
 'God': '神名',
 'Organization_Other': '組織名_その他',
 'International_Organization': '国際組織名',
 'Show_Organization': '公演組織名',
 'Family': '家系名',
 'Ethnic_Group_Other': '民族名_その他',
 'Nationality': '国籍名',
 'Sports_Organization_Other': '競技組織名_その他',
 'Pro_Sports_Organization': 'プロ競技組織名',
 'Sports_League': '競技リーグ名',
 'Corporation_Other': '法人名_その他',
 'Company': '企業名',
 'Company_Group': '企業グループ名',
 'Political_Organization_Other': '政治的組織名_その他',
 'Government': '政府組織名',
 'Political_Party': '政党名',
 'Cabinet': '内閣名',
 'Military': '軍隊名',
 'Location_Other': '地名_その他',
 'Spa': '温泉名',
 'GPE_Other': 'GPE_その他',
 'City': '市区町村名',
 'County': '郡名',
 'Province': '都道府県州名',
 'Country': '国名',
 'Region_Other': '地域名_その他',
 'Continental_Region': '大陸地域名',
 'Domestic_Region': '国内地域名',
 'Geological_Region_Other': '地形名_その他',
 'Mountain': '山地名',
 'Island': '島名',
 'River': '河川名',
 'Lake': '湖沼名',
 'Sea': '海洋名',
 'Bay': '湾名',
 'Astral_Body_Other': '天体名_その他',
 'Star': '恒星名',
 'Planet': '惑星名',
 'Constellation': '星座名',
 'Address_Other': 'アドレス_その他',
 'Postal_Address': '郵便住所',
 'Phone_Number': '電話番号',
 'Email': '電子メイル',
 'URL': 'URL',
 'Facility_Other': '施設名_その他',
 'Facility_Part': '施設部分名',
 'Archaeological_Place_Other': '遺跡名_その他',
 'Tumulus': '古墳名',
 'GOE_Other': 'GOE_その他',
 'Public_Institution': '公共機関名',
 'School': '学校名',
 'Research_Institute': '研究機関名',
 'Market': '取引所名',
 'Park': '公園名',
 'Sports_Facility': '競技施設名',
 'Museum': '美術博物館名',
 'Zoo': '動植物園名',
 'Amusement_Park': '遊園施設名',
 'Theater': '劇場名',
 'Worship_Place': '神社寺名',
 'Car_Stop': '停車場名',
 'Station': '電車駅名',
 'Airport': '空港名',
 'Port': '港名',
 'Line_Other': '路線名_その他',
 'Railroad': '電車路線名',
 'Road': '道路名',
 'Canal': '運河名',
 'Water_Route': '航路名',
 'Tunnel': 'トンネル名',
 'Bridge': '橋名',
 'Product_Other': '製品名_その他',
 'Material': '材料名',
 'Clothing': '衣類名',
 'Money_Form': '貨幣名',
 'Drug': '医薬品名',
 'Weapon': '武器名',
 'Stock': '株名',
 'Award': '賞名',
 'Decoration': '勲章名',
 'Offence': '罪名',
 'Service': '便名',
 'Class': '等級名',
 'Character': 'キャラクター名',
 'ID_Number': '識別番号',
 'Vehicle_Other': '乗り物名_その他',
 'Car': '車名',
 'Train': '列車名',
 'Aircraft': '飛行機名',
 'Spaceship': '宇宙船名',
 'Ship': '船名',
 'Food_Other': '食べ物名_その他',
 'Dish': '料理名',
 'Art_Other': '芸術作品名_その他',
 'Picture': '絵画名',
 'Broadcast_Program': '番組名',
 'Movie': '映画名',
 'Show': '公演名',
 'Music': '音楽名',
 'Book': '文学名',
 'Printing_Other': '出版物名_その他',
 'Newspaper': '新聞名',
 'Magazine': '雑誌名',
 'Doctrine_Method_Other': '主義方式名_その他',
 'Culture': '文化名',
 'Religion': '宗教名',
 'Academic': '学問名',
 'Sport': '競技名',
 'Style': '流派名',
 'Movement': '運動名',
 'Theory': '理論名',
 'Plan': '政策計画名',
 'Rule_Other': '規則名_その他',
 'Treaty': '条約名',
 'Law': '法令名',
 'Title_Other': '称号名_その他',
 'Position_Vocation': '地位職業名',
 'Language_Other': '言語名_その他',
 'National_Language': '国語名',
 'Unit_Other': '単位名_その他',
 'Currency': '通貨単位名',
 'Event_Other': 'イベント名_その他',
 'Occasion_Other': '催し物名_その他',
 'Religious_Festival': '例祭名',
 'Game': '競技会名',
 'Conference': '会議名',
 'Incident_Other': '事故事件名_その他',
 'War': '戦争名',
 'Natural_Phenomenon_Other': '自然現象名_その他',
 'Natural_Disaster': '自然災害名',
 'Earthquake': '地震名',
 'Natural_Object_Other': '自然物名_その他',
 'Element': '元素名',
 'Compound': '化合物名',
 'Mineral': '鉱物名',
 'Living_Thing_Other': '生物名_その他',
 'Fungus': '真菌類名',
 'Mollusc_Arthropod': '軟体動物_節足動物名',
 'Insect': '昆虫類名',
 'Fish': '魚類名',
 'Amphibia': '両生類名',
 'Reptile': '爬虫類名',
 'Bird': '鳥類名',
 'Mammal': '哺乳類名',
 'Flora': '植物名',
 'Living_Thing_Part': '生物部位名_その他',
 'Animal_Part': '動物部位名',
 'Flora_Part': '植物部位名',
 'Disease_Other': '病気名_その他',
 'Animal_Disease': '動物病気名',
 'Color_Other': '色名_その他',
 'Nature_Color': '自然色名',
 'Time_Top_Other': '時間表現_その他',
 'Timex_Other': '時間_その他',
 'Time': '時刻表現',
 'Date': '日付表現',
 'Day_Of_Week': '曜日表現',
 'Era': '時代表現',
 'Periodx_Other': '期間_その他',
 'Period_Time': '時刻期間',
 'Period_Day': '日数期間',
 'Period_Week': '週数期間',
 'Period_Month': '月数期間',
 'Period_Year': '年数期間',
 'Numex_Other': '数値表現_その他',
 'Money': '金額表現',
 'Stock_Index': '株指標',
 'Point': 'ポイント',
 'Percent': '割合表現',
 'Multiplication': '倍数表現',
 'Frequency': '頻度表現',
 'Age': '年齢',
 'School_Age': '学齢',
 'Ordinal_Number': '序数',
 'Rank': '順位表現',
 'Latitude_Longtitude': '緯度経度',
 'Measurement_Other': '寸法表現_その他',
 'Physical_Extent': '長さ',
 'Space': '面積',
 'Volume': '体積',
 'Weight': '重量',
 'Speed': '速度',
 'Intensity': '密度',
 'Temperature': '温度',
 'Calorie': 'カロリー',
 'Seismic_Intensity': '震度',
 'Seismic_Magnitude': 'マグニチュード',
 'Contx_Other': '個数_その他',
 'N_Person': '人数',
 'N_Organization': '組織数',
 'N_Location_Other': '場所数_その他',
 'N_Country': '国数',
 'N_Facility': '施設数',
 'N_Product': '製品数',
 'N_Event': 'イベント数',
 'N_Natural_Object_Other': '自然物数_その他',
 'N_Animal': '動物数',
 'N_Flora': '植物数'}

@kzinmr
Copy link
Author

kzinmr commented Aug 22, 2019

def walk(d):
    for k, v in d.items():
        if not v:
            yield k
        else:
            for kk in walk(v):
                yield kk
with open('ene_labels_all.txt', 'w') as f:
    for k in list(walk(d)):
        f.write(f'B-{k}\n')
        f.write(f'I-{k}\n')

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment