Created
October 29, 2020 19:57
-
-
Save w9w/1382538a85a5ec956291f915fa78e92a to your computer and use it in GitHub Desktop.
Matching any website's TLD
This file contains bidirectional Unicode text that may be interpreted or compiled differently than what appears below. To review, open the file in an editor that reveals hidden Unicode characters.
Learn more about bidirectional Unicode characters
import re | |
tlds_1st_lvl = [ | |
"aaa", | |
"aarp", | |
"abarth", | |
"abb", | |
"abbott", | |
"abbvie", | |
"abc", | |
"able", | |
"abogado", | |
"abudhabi", | |
"ac", | |
"academy", | |
"accenture", | |
"accountant", | |
"accountants", | |
"aco", | |
"active", | |
"actor", | |
"ad", | |
"adac", | |
"ads", | |
"adult", | |
"ae", | |
"aeg", | |
"aero", | |
"aetna", | |
"af", | |
"afamilycompany", | |
"afl", | |
"africa", | |
"ag", | |
"agakhan", | |
"agency", | |
"ai", | |
"aig", | |
"aigo", | |
"airbus", | |
"airforce", | |
"airtel", | |
"akdn", | |
"al", | |
"alfaromeo", | |
"alibaba", | |
"alipay", | |
"allfinanz", | |
"allstate", | |
"ally", | |
"alsace", | |
"alstom", | |
"am", | |
"americanexpress", | |
"americanfamily", | |
"amex", | |
"amfam", | |
"amica", | |
"amsterdam", | |
"an", | |
"analytics", | |
"android", | |
"anquan", | |
"anz", | |
"ao", | |
"aol", | |
"apartments", | |
"app", | |
"apple", | |
"aq", | |
"aquarelle", | |
"ar", | |
"arab", | |
"aramco", | |
"archi", | |
"army", | |
"arpa", | |
"art", | |
"arte", | |
"as", | |
"asda", | |
"asia", | |
"associates", | |
"at", | |
"athleta", | |
"attorney", | |
"au", | |
"auction", | |
"audi", | |
"audible", | |
"audio", | |
"auspost", | |
"author", | |
"auto", | |
"autos", | |
"avianca", | |
"aw", | |
"aws", | |
"ax", | |
"axa", | |
"az", | |
"azure", | |
"ba", | |
"baby", | |
"baidu", | |
"banamex", | |
"bananarepublic", | |
"band", | |
"bank", | |
"bar", | |
"barcelona", | |
"barclaycard", | |
"barclays", | |
"barefoot", | |
"bargains", | |
"baseball", | |
"basketball", | |
"bauhaus", | |
"bayern", | |
"bb", | |
"bbc", | |
"bbt", | |
"bbva", | |
"bcg", | |
"bcn", | |
"bd", | |
"be", | |
"beats", | |
"beauty", | |
"beer", | |
"bentley", | |
"berlin", | |
"best", | |
"bestbuy", | |
"bet", | |
"bf", | |
"bg", | |
"bh", | |
"bharti", | |
"bi", | |
"bible", | |
"bid", | |
"bike", | |
"bing", | |
"bingo", | |
"bio", | |
"biz", | |
"bj", | |
"bl", | |
"black", | |
"blackfriday", | |
"blanco", | |
"blockbuster", | |
"blog", | |
"bloomberg", | |
"blue", | |
"bm", | |
"bms", | |
"bmw", | |
"bn", | |
"bnl", | |
"bnpparibas", | |
"bo", | |
"boats", | |
"boehringer", | |
"bofa", | |
"bom", | |
"bond", | |
"boo", | |
"book", | |
"booking", | |
"boots", | |
"bosch", | |
"bostik", | |
"boston", | |
"bot", | |
"boutique", | |
"box", | |
"bq", | |
"br", | |
"bradesco", | |
"bridgestone", | |
"broadway", | |
"broker", | |
"brother", | |
"brussels", | |
"bs", | |
"bt", | |
"budapest", | |
"bugatti", | |
"build", | |
"builders", | |
"business", | |
"buy", | |
"buzz", | |
"bv", | |
"bw", | |
"by", | |
"bz", | |
"bzh", | |
"ca", | |
"cab", | |
"cafe", | |
"cal", | |
"call", | |
"calvinklein", | |
"cam", | |
"camera", | |
"camp", | |
"cancerresearch", | |
"canon", | |
"capetown", | |
"capital", | |
"capitalone", | |
"car", | |
"caravan", | |
"cards", | |
"care", | |
"career", | |
"careers", | |
"cars", | |
"cartier", | |
"casa", | |
"case", | |
"caseih", | |
"cash", | |
"casino", | |
"cat", | |
"catering", | |
"catholic", | |
"cba", | |
"cbn", | |
"cbre", | |
"cbs", | |
"cc", | |
"cd", | |
"ceb", | |
"center", | |
"ceo", | |
"cern", | |
"cf", | |
"cfa", | |
"cfd", | |
"cg", | |
"ch", | |
"chanel", | |
"channel", | |
"charity", | |
"chase", | |
"chat", | |
"cheap", | |
"chintai", | |
"chloe", | |
"christmas", | |
"chrome", | |
"chrysler", | |
"church", | |
"ci", | |
"cipriani", | |
"circle", | |
"cisco", | |
"citadel", | |
"citi", | |
"citic", | |
"city", | |
"cityeats", | |
"ck", | |
"cl", | |
"claims", | |
"cleaning", | |
"click", | |
"clinic", | |
"clinique", | |
"clothing", | |
"cloud", | |
"club", | |
"clubmed", | |
"cm", | |
"cn", | |
"co", | |
"coach", | |
"codes", | |
"coffee", | |
"college", | |
"cologne", | |
"com", | |
"comcast", | |
"commbank", | |
"community", | |
"company", | |
"compare", | |
"computer", | |
"comsec", | |
"condos", | |
"construction", | |
"consulting", | |
"contact", | |
"contractors", | |
"cooking", | |
"cookingchannel", | |
"cool", | |
"coop", | |
"corsica", | |
"country", | |
"coupon", | |
"coupons", | |
"courses", | |
"cr", | |
"credit", | |
"creditcard", | |
"creditunion", | |
"cricket", | |
"crown", | |
"crs", | |
"cruise", | |
"cruises", | |
"csc", | |
"cu", | |
"cuisinella", | |
"cv", | |
"cw", | |
"cx", | |
"cy", | |
"cymru", | |
"cyou", | |
"cz", | |
"dabur", | |
"dad", | |
"dance", | |
"data", | |
"date", | |
"dating", | |
"datsun", | |
"day", | |
"dclk", | |
"dds", | |
"de", | |
"deal", | |
"dealer", | |
"deals", | |
"degree", | |
"delivery", | |
"dell", | |
"deloitte", | |
"delta", | |
"democrat", | |
"dental", | |
"dentist", | |
"desi", | |
"design", | |
"dev", | |
"dhl", | |
"diamonds", | |
"diet", | |
"digital", | |
"direct", | |
"directory", | |
"discount", | |
"discover", | |
"dish", | |
"diy", | |
"dj", | |
"dk", | |
"dm", | |
"dnp", | |
"do", | |
"docs", | |
"doctor", | |
"dodge", | |
"dog", | |
"doha", | |
"domains", | |
"doosan", | |
"dot", | |
"download", | |
"drive", | |
"dtv", | |
"dubai", | |
"duck", | |
"dunlop", | |
"duns", | |
"dupont", | |
"durban", | |
"dvag", | |
"dvr", | |
"dz", | |
"earth", | |
"eat", | |
"ec", | |
"eco", | |
"edeka", | |
"edu", | |
"education", | |
"ee", | |
"eg", | |
"eh", | |
"email", | |
"emerck", | |
"energy", | |
"engineer", | |
"engineering", | |
"enterprises", | |
"epost", | |
"epson", | |
"equipment", | |
"er", | |
"ericsson", | |
"erni", | |
"es", | |
"esq", | |
"estate", | |
"esurance", | |
"et", | |
"etisalat", | |
"eu", | |
"eurovision", | |
"eus", | |
"events", | |
"everbank", | |
"exchange", | |
"expert", | |
"exposed", | |
"express", | |
"extraspace", | |
"fage", | |
"fail", | |
"fairwinds", | |
"faith", | |
"family", | |
"fan", | |
"fans", | |
"farm", | |
"farmers", | |
"fashion", | |
"fast", | |
"fedex", | |
"feedback", | |
"ferrari", | |
"ferrero", | |
"fi", | |
"fiat", | |
"fidelity", | |
"fido", | |
"film", | |
"final", | |
"finance", | |
"financial", | |
"fire", | |
"firestone", | |
"firmdale", | |
"fish", | |
"fishing", | |
"fit", | |
"fitness", | |
"fj", | |
"fk", | |
"flickr", | |
"flights", | |
"flir", | |
"florist", | |
"flowers", | |
"flsmidth", | |
"fly", | |
"fm", | |
"fo", | |
"foo", | |
"food", | |
"foodnetwork", | |
"football", | |
"ford", | |
"forex", | |
"forsale", | |
"forum", | |
"foundation", | |
"fox", | |
"fr", | |
"free", | |
"fresenius", | |
"frl", | |
"frogans", | |
"frontdoor", | |
"frontier", | |
"ftr", | |
"fujitsu", | |
"fujixerox", | |
"fun", | |
"fund", | |
"furniture", | |
"futbol", | |
"fyi", | |
"ga", | |
"gal", | |
"gallery", | |
"gallo", | |
"gallup", | |
"game", | |
"games", | |
"gap", | |
"garden", | |
"gb", | |
"gbiz", | |
"gd", | |
"gdn", | |
"ge", | |
"gea", | |
"gent", | |
"genting", | |
"george", | |
"gf", | |
"gg", | |
"ggee", | |
"gh", | |
"gi", | |
"gift", | |
"gifts", | |
"gives", | |
"giving", | |
"gl", | |
"glade", | |
"glass", | |
"gle", | |
"global", | |
"globo", | |
"gm", | |
"gmail", | |
"gmbh", | |
"gmo", | |
"gmx", | |
"gn", | |
"godaddy", | |
"gold", | |
"goldpoint", | |
"golf", | |
"goo", | |
"goodhands", | |
"goodyear", | |
"goog", | |
"google", | |
"gop", | |
"got", | |
"gov", | |
"gp", | |
"gq", | |
"gr", | |
"grainger", | |
"graphics", | |
"gratis", | |
"green", | |
"gripe", | |
"grocery", | |
"group", | |
"gs", | |
"gt", | |
"gu", | |
"guardian", | |
"gucci", | |
"guge", | |
"guide", | |
"guitars", | |
"guru", | |
"gw", | |
"gy", | |
"hair", | |
"hamburg", | |
"hangout", | |
"haus", | |
"hbo", | |
"hdfc", | |
"hdfcbank", | |
"health", | |
"healthcare", | |
"help", | |
"helsinki", | |
"here", | |
"hermes", | |
"hgtv", | |
"hiphop", | |
"hisamitsu", | |
"hitachi", | |
"hiv", | |
"hk", | |
"hkt", | |
"hm", | |
"hn", | |
"hockey", | |
"holdings", | |
"holiday", | |
"homedepot", | |
"homegoods", | |
"homes", | |
"homesense", | |
"honda", | |
"honeywell", | |
"horse", | |
"hospital", | |
"host", | |
"hosting", | |
"hot", | |
"hoteles", | |
"hotels", | |
"hotmail", | |
"house", | |
"how", | |
"hr", | |
"hsbc", | |
"ht", | |
"htc", | |
"hu", | |
"hughes", | |
"hyatt", | |
"hyundai", | |
"ibm", | |
"icbc", | |
"ice", | |
"icu", | |
"id", | |
"ie", | |
"ieee", | |
"ifm", | |
"iinet", | |
"ikano", | |
"il", | |
"im", | |
"imamat", | |
"imdb", | |
"immo", | |
"immobilien", | |
"in", | |
"industries", | |
"infiniti", | |
"info", | |
"ing", | |
"ink", | |
"institute", | |
"insurance", | |
"insure", | |
"int", | |
"intel", | |
"international", | |
"intuit", | |
"investments", | |
"io", | |
"ipiranga", | |
"iq", | |
"ir", | |
"irish", | |
"is", | |
"iselect", | |
"ismaili", | |
"ist", | |
"istanbul", | |
"it", | |
"itau", | |
"itv", | |
"iveco", | |
"iwc", | |
"jaguar", | |
"java", | |
"jcb", | |
"jcp", | |
"je", | |
"jeep", | |
"jetzt", | |
"jewelry", | |
"jio", | |
"jlc", | |
"jll", | |
"jm", | |
"jmp", | |
"jnj", | |
"jo", | |
"jobs", | |
"joburg", | |
"jot", | |
"joy", | |
"jp", | |
"jpmorgan", | |
"jprs", | |
"juegos", | |
"juniper", | |
"kaufen", | |
"kddi", | |
"ke", | |
"kerryhotels", | |
"kerrylogistics", | |
"kerryproperties", | |
"kfh", | |
"kg", | |
"kh", | |
"ki", | |
"kia", | |
"kim", | |
"kinder", | |
"kindle", | |
"kitchen", | |
"kiwi", | |
"km", | |
"kn", | |
"koeln", | |
"komatsu", | |
"kosher", | |
"kp", | |
"kpmg", | |
"kpn", | |
"kr", | |
"krd", | |
"kred", | |
"kuokgroup", | |
"kw", | |
"ky", | |
"kyoto", | |
"kz", | |
"la", | |
"lacaixa", | |
"ladbrokes", | |
"lamborghini", | |
"lamer", | |
"lancaster", | |
"lancia", | |
"lancome", | |
"land", | |
"landrover", | |
"lanxess", | |
"lasalle", | |
"lat", | |
"latino", | |
"latrobe", | |
"law", | |
"lawyer", | |
"lb", | |
"lc", | |
"lds", | |
"lease", | |
"leclerc", | |
"lefrak", | |
"legal", | |
"lego", | |
"lexus", | |
"lgbt", | |
"li", | |
"liaison", | |
"lidl", | |
"life", | |
"lifeinsurance", | |
"lifestyle", | |
"lighting", | |
"like", | |
"lilly", | |
"limited", | |
"limo", | |
"lincoln", | |
"linde", | |
"link", | |
"lipsy", | |
"live", | |
"living", | |
"lixil", | |
"lk", | |
"llc", | |
"loan", | |
"loans", | |
"locker", | |
"locus", | |
"loft", | |
"lol", | |
"london", | |
"lotte", | |
"lotto", | |
"love", | |
"lpl", | |
"lplfinancial", | |
"lr", | |
"ls", | |
"lt", | |
"ltd", | |
"ltda", | |
"lu", | |
"lundbeck", | |
"lupin", | |
"luxe", | |
"luxury", | |
"lv", | |
"ly", | |
"ma", | |
"macys", | |
"madrid", | |
"maif", | |
"maison", | |
"makeup", | |
"man", | |
"management", | |
"mango", | |
"map", | |
"market", | |
"marketing", | |
"markets", | |
"marriott", | |
"marshalls", | |
"maserati", | |
"mattel", | |
"mba", | |
"mc", | |
"mcd", | |
"mcdonalds", | |
"mckinsey", | |
"md", | |
"me", | |
"med", | |
"media", | |
"meet", | |
"melbourne", | |
"meme", | |
"memorial", | |
"men", | |
"menu", | |
"meo", | |
"merckmsd", | |
"metlife", | |
"mf", | |
"mg", | |
"mh", | |
"miami", | |
"microsoft", | |
"mil", | |
"mini", | |
"mint", | |
"mit", | |
"mitsubishi", | |
"mk", | |
"ml", | |
"mlb", | |
"mls", | |
"mm", | |
"mma", | |
"mn", | |
"mo", | |
"mobi", | |
"mobile", | |
"mobily", | |
"moda", | |
"moe", | |
"moi", | |
"mom", | |
"monash", | |
"money", | |
"monster", | |
"montblanc", | |
"mopar", | |
"mormon", | |
"mortgage", | |
"moscow", | |
"moto", | |
"motorcycles", | |
"mov", | |
"movie", | |
"movistar", | |
"mp", | |
"mq", | |
"mr", | |
"ms", | |
"msd", | |
"mt", | |
"mtn", | |
"mtpc", | |
"mtr", | |
"mu", | |
"museum", | |
"mutual", | |
"mutuelle", | |
"mv", | |
"mw", | |
"mx", | |
"my", | |
"mz", | |
"na", | |
"nab", | |
"nadex", | |
"nagoya", | |
"name", | |
"nationwide", | |
"natura", | |
"navy", | |
"nba", | |
"nc", | |
"ne", | |
"nec", | |
"net", | |
"netbank", | |
"netflix", | |
"network", | |
"neustar", | |
"new", | |
"newholland", | |
"news", | |
"next", | |
"nextdirect", | |
"nexus", | |
"nf", | |
"nfl", | |
"ng", | |
"ngo", | |
"nhk", | |
"ni", | |
"nico", | |
"nike", | |
"nikon", | |
"ninja", | |
"nissan", | |
"nissay", | |
"nl", | |
"no", | |
"nokia", | |
"northwesternmutual", | |
"norton", | |
"now", | |
"nowruz", | |
"nowtv", | |
"np", | |
"nr", | |
"nra", | |
"nrw", | |
"ntt", | |
"nu", | |
"nyc", | |
"nz", | |
"obi", | |
"observer", | |
"off", | |
"office", | |
"okinawa", | |
"olayan", | |
"olayangroup", | |
"oldnavy", | |
"ollo", | |
"om", | |
"omega", | |
"one", | |
"ong", | |
"onl", | |
"online", | |
"onyourside", | |
"ooo", | |
"open", | |
"oracle", | |
"orange", | |
"org", | |
"organic", | |
"orientexpress", | |
"origins", | |
"osaka", | |
"otsuka", | |
"ott", | |
"ovh", | |
"pa", | |
"page", | |
"pamperedchef", | |
"panasonic", | |
"panerai", | |
"paris", | |
"pars", | |
"partners", | |
"parts", | |
"party", | |
"passagens", | |
"pay", | |
"pccw", | |
"pe", | |
"pet", | |
"pf", | |
"pfizer", | |
"pg", | |
"ph", | |
"pharmacy", | |
"phd", | |
"philips", | |
"phone", | |
"photo", | |
"photography", | |
"photos", | |
"physio", | |
"piaget", | |
"pics", | |
"pictet", | |
"pictures", | |
"pid", | |
"pin", | |
"ping", | |
"pink", | |
"pioneer", | |
"pizza", | |
"pk", | |
"pl", | |
"place", | |
"play", | |
"playstation", | |
"plumbing", | |
"plus", | |
"pm", | |
"pn", | |
"pnc", | |
"pohl", | |
"poker", | |
"politie", | |
"porn", | |
"post", | |
"pr", | |
"pramerica", | |
"praxi", | |
"press", | |
"prime", | |
"pro", | |
"prod", | |
"productions", | |
"prof", | |
"progressive", | |
"promo", | |
"properties", | |
"property", | |
"protection", | |
"pru", | |
"prudential", | |
"ps", | |
"pt", | |
"pub", | |
"pw", | |
"pwc", | |
"py", | |
"qa", | |
"qpon", | |
"quebec", | |
"quest", | |
"qvc", | |
"racing", | |
"radio", | |
"raid", | |
"re", | |
"read", | |
"realestate", | |
"realtor", | |
"realty", | |
"recipes", | |
"red", | |
"redstone", | |
"redumbrella", | |
"rehab", | |
"reise", | |
"reisen", | |
"reit", | |
"reliance", | |
"ren", | |
"rent", | |
"rentals", | |
"repair", | |
"report", | |
"republican", | |
"rest", | |
"restaurant", | |
"review", | |
"reviews", | |
"rexroth", | |
"rich", | |
"richardli", | |
"ricoh", | |
"rightathome", | |
"ril", | |
"rio", | |
"rip", | |
"rmit", | |
"ro", | |
"rocher", | |
"rocks", | |
"rodeo", | |
"rogers", | |
"room", | |
"rs", | |
"rsvp", | |
"ru", | |
"rugby", | |
"ruhr", | |
"run", | |
"rw", | |
"rwe", | |
"ryukyu", | |
"sa", | |
"saarland", | |
"safe", | |
"safety", | |
"sakura", | |
"sale", | |
"salon", | |
"samsclub", | |
"samsung", | |
"sandvik", | |
"sandvikcoromant", | |
"sanofi", | |
"sap", | |
"sapo", | |
"sarl", | |
"sas", | |
"save", | |
"saxo", | |
"sb", | |
"sbi", | |
"sbs", | |
"sc", | |
"sca", | |
"scb", | |
"schaeffler", | |
"schmidt", | |
"scholarships", | |
"school", | |
"schule", | |
"schwarz", | |
"science", | |
"scjohnson", | |
"scor", | |
"scot", | |
"sd", | |
"se", | |
"search", | |
"seat", | |
"secure", | |
"security", | |
"seek", | |
"select", | |
"sener", | |
"services", | |
"ses", | |
"seven", | |
"sew", | |
"sex", | |
"sexy", | |
"sfr", | |
"sg", | |
"sh", | |
"shangrila", | |
"sharp", | |
"shaw", | |
"shell", | |
"shia", | |
"shiksha", | |
"shoes", | |
"shop", | |
"shopping", | |
"shouji", | |
"show", | |
"showtime", | |
"shriram", | |
"si", | |
"silk", | |
"sina", | |
"singles", | |
"site", | |
"sj", | |
"sk", | |
"ski", | |
"skin", | |
"sky", | |
"skype", | |
"sl", | |
"sling", | |
"sm", | |
"smart", | |
"smile", | |
"sn", | |
"sncf", | |
"so", | |
"soccer", | |
"social", | |
"softbank", | |
"software", | |
"sohu", | |
"solar", | |
"solutions", | |
"song", | |
"sony", | |
"soy", | |
"space", | |
"spiegel", | |
"sport", | |
"spot", | |
"spreadbetting", | |
"sr", | |
"srl", | |
"srt", | |
"ss", | |
"st", | |
"stada", | |
"staples", | |
"star", | |
"starhub", | |
"statebank", | |
"statefarm", | |
"statoil", | |
"stc", | |
"stcgroup", | |
"stockholm", | |
"storage", | |
"store", | |
"stream", | |
"studio", | |
"study", | |
"style", | |
"su", | |
"sucks", | |
"supplies", | |
"supply", | |
"support", | |
"surf", | |
"surgery", | |
"suzuki", | |
"sv", | |
"swatch", | |
"swiftcover", | |
"swiss", | |
"sx", | |
"sy", | |
"sydney", | |
"symantec", | |
"systems", | |
"sz", | |
"tab", | |
"taipei", | |
"talk", | |
"taobao", | |
"target", | |
"tatamotors", | |
"tatar", | |
"tattoo", | |
"tax", | |
"taxi", | |
"tc", | |
"tci", | |
"td", | |
"tdk", | |
"team", | |
"tech", | |
"technology", | |
"tel", | |
"telecity", | |
"telefonica", | |
"temasek", | |
"tennis", | |
"teva", | |
"tf", | |
"tg", | |
"th", | |
"thd", | |
"theater", | |
"theatre", | |
"tiaa", | |
"tickets", | |
"tienda", | |
"tiffany", | |
"tips", | |
"tires", | |
"tirol", | |
"tj", | |
"tjmaxx", | |
"tjx", | |
"tk", | |
"tkmaxx", | |
"tl", | |
"tm", | |
"tmall", | |
"tn", | |
"to", | |
"today", | |
"tokyo", | |
"tools", | |
"top", | |
"toray", | |
"toshiba", | |
"total", | |
"tours", | |
"town", | |
"toyota", | |
"toys", | |
"tp", | |
"tr", | |
"trade", | |
"trading", | |
"training", | |
"travel", | |
"travelchannel", | |
"travelers", | |
"travelersinsurance", | |
"trust", | |
"trv", | |
"tt", | |
"tube", | |
"tui", | |
"tunes", | |
"tushu", | |
"tv", | |
"tvs", | |
"tw", | |
"tz", | |
"ua", | |
"ubank", | |
"ubs", | |
"uconnect", | |
"ug", | |
"uk", | |
"um", | |
"unicom", | |
"university", | |
"uno", | |
"uol", | |
"ups", | |
"us", | |
"uy", | |
"uz", | |
"va", | |
"vacations", | |
"vana", | |
"vanguard", | |
"vc", | |
"ve", | |
"vegas", | |
"ventures", | |
"verisign", | |
"versicherung", | |
"vet", | |
"vg", | |
"vi", | |
"viajes", | |
"video", | |
"vig", | |
"viking", | |
"villas", | |
"vin", | |
"vip", | |
"virgin", | |
"visa", | |
"vision", | |
"vista", | |
"vistaprint", | |
"viva", | |
"vivo", | |
"vlaanderen", | |
"vn", | |
"vodka", | |
"volkswagen", | |
"volvo", | |
"vote", | |
"voting", | |
"voto", | |
"voyage", | |
"vu", | |
"vuelos", | |
"wales", | |
"walmart", | |
"walter", | |
"wang", | |
"wanggou", | |
"warman", | |
"watch", | |
"watches", | |
"weather", | |
"weatherchannel", | |
"webcam", | |
"weber", | |
"website", | |
"wed", | |
"wedding", | |
"weibo", | |
"weir", | |
"wf", | |
"whoswho", | |
"wien", | |
"wiki", | |
"williamhill", | |
"win", | |
"windows", | |
"wine", | |
"winners", | |
"wme", | |
"wolterskluwer", | |
"woodside", | |
"work", | |
"works", | |
"world", | |
"wow", | |
"ws", | |
"wtc", | |
"wtf", | |
"xbox", | |
"xerox", | |
"xfinity", | |
"xihuan", | |
"xin", | |
"测试", | |
"कॉम", | |
"परीक्षा", | |
"セール", | |
"佛山", | |
"ಭಾರತ", | |
"慈善", | |
"集团", | |
"在线", | |
"한국", | |
"ଭାରତ", | |
"大众汽车", | |
"点看", | |
"คอม", | |
"ভাৰত", | |
"ভারত", | |
"八卦", | |
"موقع", | |
"বাংলা", | |
"公益", | |
"公司", | |
"香格里拉", | |
"网站", | |
"移动", | |
"我爱你", | |
"москва", | |
"испытание", | |
"қаз", | |
"католик", | |
"онлайн", | |
"сайт", | |
"联通", | |
"срб", | |
"бг", | |
"бел", | |
"קום", | |
"时尚", | |
"微博", | |
"테스트", | |
"淡马锡", | |
"ファッション", | |
"орг", | |
"नेट", | |
"ストア", | |
"삼성", | |
"சிங்கப்பூர்", | |
"商标", | |
"商店", | |
"商城", | |
"дети", | |
"мкд", | |
"טעסט", | |
"ею", | |
"ポイント", | |
"新闻", | |
"工行", | |
"家電", | |
"كوم", | |
"中文网", | |
"中信", | |
"中国", | |
"中國", | |
"娱乐", | |
"谷歌", | |
"భారత్", | |
"ලංකා", | |
"電訊盈科", | |
"购物", | |
"測試", | |
"クラウド", | |
"ભારત", | |
"通販", | |
"भारतम्", | |
"भारत", | |
"भारोत", | |
"آزمایشی", | |
"பரிட்சை", | |
"网店", | |
"संगठन", | |
"餐厅", | |
"网络", | |
"ком", | |
"укр", | |
"香港", | |
"诺基亚", | |
"食品", | |
"δοκιμή", | |
"飞利浦", | |
"إختبار", | |
"台湾", | |
"台灣", | |
"手表", | |
"手机", | |
"мон", | |
"الجزائر", | |
"عمان", | |
"ارامكو", | |
"ایران", | |
"العليان", | |
"اتصالات", | |
"امارات", | |
"بازار", | |
"موريتانيا", | |
"پاکستان", | |
"الاردن", | |
"موبايلي", | |
"بارت", | |
"بھارت", | |
"المغرب", | |
"ابوظبي", | |
"السعودية", | |
"ڀارت", | |
"كاثوليك", | |
"سودان", | |
"همراه", | |
"عراق", | |
"مليسيا", | |
"澳門", | |
"닷컴", | |
"政府", | |
"شبكة", | |
"بيتك", | |
"عرب", | |
"გე", | |
"机构", | |
"组织机构", | |
"健康", | |
"ไทย", | |
"سورية", | |
"招聘", | |
"рус", | |
"рф", | |
"珠宝", | |
"تونس", | |
"大拿", | |
"みんな", | |
"グーグル", | |
"ελ", | |
"世界", | |
"書籍", | |
"ഭാരതം", | |
"ਭਾਰਤ", | |
"网址", | |
"닷넷", | |
"コム", | |
"天主教", | |
"游戏", | |
"vermögensberater", | |
"vermögensberatung", | |
"企业", | |
"信息", | |
"嘉里大酒店", | |
"嘉里", | |
"مصر", | |
"قطر", | |
"广东", | |
"இலங்கை", | |
"இந்தியா", | |
"հայ", | |
"新加坡", | |
"فلسطين", | |
"テスト", | |
"政务", | |
"xperia", | |
"xxx", | |
"xyz", | |
"yachts", | |
"yahoo", | |
"yamaxun", | |
"yandex", | |
"ye", | |
"yodobashi", | |
"yoga", | |
"yokohama", | |
"you", | |
"youtube", | |
"yt", | |
"yun", | |
"za", | |
"zappos", | |
"zara", | |
"zero", | |
"zip", | |
"zippo", | |
"zm", | |
"zone", | |
"zuerich", | |
"zw",] | |
tlds_2nd_lvl = ["ab.ca","ac.ac","ac.ae","ac.at","ac.be","ac.cn","ac.il","ac.in","ac.jp","ac.kr","ac.th","ac.uk","ac.sg","ad.jp","adm.br","adv.br","ah.cn","am.br","arq.br","art.br","arts.ro","asn.au","asso.fr","asso.mc","bc.ca","bio.br","biz.pl","biz.tr","bj.cn","bel.tr","br.com","cn.com","cng.br","cnt.br","co.ac","co.at","co.de","co.gl","co.hk","co.id","co.il","co.in","co.jp","co.kr","co.mg","co.ms","co.nz","co.th","cp.tz","co.uk","co.ve","co.vi","co.za","com.ag","com.ai","com.ar","com.au","com.br","com.co","com.cn","com.cy","com.de","com.do","com.ec","com.es","com.fj","com.fr","com.gl","com.gt","com.hk","com.hr","com.hu","com.kg","com.ki","com.lc","com.mg","com.mm","com.ms","com.mt","com.mu","com.mx","com.my","com.na","com.nf","com.ng","com.ni","com.pa","com.ph","com.pl","com.pt","com.qa","com.ro","com.ru","com.sb","com.sc","com.sg","com.sv","com.tr","com.tw","com.ua","com.uy","com.ve","com.vn","cq.cn","de.com","de.org","ecn.br","ed.jp","edu.au","edu.cn","edu.hk","edu.mm","edu.my","edu.pl","edu.pt","edu.qa","edu.sg","edu.tr","edu.tw","eng.br","ernet.in","esp.br","etc.br","eti.br","eu.com","eu.int","eu.lv","firm.in","firm.ro","fm.br","fot.br","fst.br","g12.br","gb.com","gb.net","gd.cn","gen.in","go.jp","go.kr","go.th","gov.au","gov.az","gov.br","gov.cn","gov.il","gov.in","gov.mm","gov.my","gov.qa","gov.sg","gov.tr","gov.tw","gov.uk","govt.nz","gr.jp","gs.cn","gv.ac","gv.at","gx.cn","gz.cn","he.cn","hi.cn","hk.cn","hl.cn","hu.com","id.au","idv.tw","in.ua","in.th","ind.br","ind.in","inf.br","info.pl","info.ro","info.tr","info.ve","iwi.nz","jl.cn","jor.br","js.cn","jus.br","k12.il","k12.tr","kr.com","lel.br","lg.jp","ln.cn","ltd.uk","maori.nz","mb.ca","me.uk","med.br","mi.th","mil.br","mil.uk","mo.cn","mod.uk","muni.il","nb.ca","ne.jp","ne.kr","net.ag","net.ai","net.au","net.br","net.cn","net.do","net.gl","net.hk","net.il","net.in","net.kg","net.ki","net.lc","net.mg","net.mm","net.mu","net.ni","net.nz","net.pl","net.ru","net.sb","net.sc","net.sg","net.th","net.tr","net.tw","net.uk","net.ve","nf.ca","nhs.uk","nm.cn","nm.kr","no.com","nom.br","nom.ni","nom.ro","ns.ca","nt.ca","nt.ro","ntr.br","nx.cn","odo.br","off.ai","on.ca","or.ac","or.at","or.jp","or.kr","or.th","org.ag","org.ai","org.au","org.br","org.cn","org.do","org.es","org.gl","org.hk","org.in","org.kg","org.ki","org.lc","org.mg","org.mm","org.ms","org.nf","org.ng","org.ni","org.nz","org.pl","org.ro","org.ru","org.sb","org.sc","org.sg","org.tr","org.tw","org.uk","org.ve","pe.ca","plc.uk","police.uk","ppg.br","presse.fr","pro.br","psc.br","psi.br","qc.ca","qc.com","qh.cn","rec.br","rec.ro","res.in","sa.com","sc.cn","sch.uk","se.com","se.net","sh.cn","sk.ca","slg.br","sn.cn","store.ro","tj.cn","tm.fr","tm.mc","tm.ro","tmp.br","tur.br","tv.br","tv.tr","tw.cn","uk.com","uk.net","us.com","uy.com","vet.br","waw.pl","web.ve","www.ro","xj.cn","xz.cn","yk.ca","yn.cn","zj.cn","zlg.br"] | |
lines_list = ["https://website.com","https://subdomain.subdomain.website.com","https://subdomain.website.com.au"] | |
def tld_detection(line): | |
probe_global = [] | |
for tld in tlds_2nd_lvl: | |
probe = re.findall("\.%s$" %tld, line) | |
if str(probe) != "[]": | |
print(tld) | |
probe_global.append(tld) | |
if str(probe_global) == "[]": | |
for tld in tlds_1st_lvl: | |
probe = re.findall("\.%s$" % tld, line) | |
if str(probe) != "[]": | |
print(tld) | |
for line in lines_list: | |
tld_detection(line) |
Sign up for free
to join this conversation on GitHub.
Already have an account?
Sign in to comment