phineas-pta · April 19, 2025 09:21 · vndee · Apr 13, 2024 · atom-tr · May 6, 2024
diff --git a/xoa_dau.md b/xoa_dau.md
diff --git a/xoa_dau_benchmark.ipynb b/xoa_dau_benchmark.ipynb
diff --git a/xoa_dau_sang_vni_telex.py b/xoa_dau_sang_vni_telex.py
 BANG_DANH_DAU = {
    "vni": {
                   "Á": "A1" , "À": "A2" , "Ả": "A3" , "Ã": "A4" , "Ạ": "A5" ,
        "Ă": "A8", "Ắ": "A81", "Ằ": "A82", "Ẳ": "A83", "Ẵ": "A84", "Ặ": "A85",
        "Â": "A6", "Ấ": "A61", "Ầ": "A62", "Ẩ": "A63", "Ẫ": "A64", "Ậ": "A65",
        "Đ": "D9",
                   "É": "E1" , "È": "E2" , "Ẻ": "E3" , "Ẽ": "E4" , "Ẹ": "E5" ,
        "Ê": "E6", "Ế": "E61", "Ề": "E62", "Ể": "E63", "Ễ": "E64", "Ệ": "E65",
                   "Í": "I1" , "Ì": "I2" , "Ỉ": "I3" , "Ĩ": "I4" , "Ị": "I5" ,
                   "Ó": "O1" , "Ò": "O2" , "Ỏ": "O3" , "Õ": "O4" , "Ọ": "O5" ,
        "Ô": "O6", "Ố": "O61", "Ồ": "O62", "Ổ": "O63", "Ỗ": "O64", "Ộ": "O65",
        "Ơ": "O7", "Ớ": "O71", "Ờ": "O72", "Ở": "O73", "Ỡ": "O74", "Ợ": "O75",
                   "Ú": "U1" , "Ù": "U2" , "Ủ": "U3" , "Ũ": "U4" , "Ụ": "U5" ,
        "Ư": "U7", "Ứ": "U71", "Ừ": "U72", "Ử": "U73", "Ữ": "U74", "Ự": "U75",
                   "Ý": "Y1" , "Ỳ": "Y2" , "Ỷ": "Y3" , "Ỹ": "Y4" , "Ỵ": "Y5" ,
                   "á": "a1" , "à": "a2" , "ả": "a3" , "ã": "a4" , "ạ": "a5" ,
        "ă": "a8", "ắ": "a81", "ằ": "a82", "ẳ": "a83", "ẵ": "a84", "ặ": "a85",
        "â": "a6", "ấ": "a61", "ầ": "a62", "ẩ": "a63", "ẫ": "a64", "ậ": "a65",
        "đ": "d9",
                   "é": "e1" , "è": "e2" , "ẻ": "e3" , "ẽ": "e4" , "ẹ": "e5" ,
        "ê": "e6", "ế": "e61", "ề": "e62", "ể": "e63", "ễ": "e64", "ệ": "e65",
                   "í": "i1" , "ì": "i2" , "ỉ": "i3" , "ĩ": "i4" , "ị": "i5" ,
                   "ó": "o1" , "ò": "o2" , "ỏ": "o3" , "õ": "o4" , "ọ": "o5" ,
        "ô": "o6", "ố": "o61", "ồ": "o62", "ổ": "o63", "ỗ": "o64", "ộ": "o65",
        "ơ": "o7", "ớ": "o71", "ờ": "o72", "ở": "o73", "ỡ": "o74", "ợ": "o75",
                   "ú": "u1" , "ù": "u2" , "ủ": "u3" , "ũ": "u4" , "ụ": "u5" ,
        "ư": "u7", "ứ": "u71", "ừ": "u72", "ử": "u73", "ữ": "u74", "ự": "u75",
                   "ý": "y1" , "ỳ": "y2" , "ỷ": "y3" , "ỹ": "y4" , "ỵ": "y5" ,
    },
    "telex": {
                   "Á": "AS" , "À": "AF" , "Ả": "AR" , "Ã": "AX" , "Ạ": "AJ" ,
        "Ă": "AW", "Ắ": "AWS", "Ằ": "AWF", "Ẳ": "AWR", "Ẵ": "AWX", "Ặ": "AWJ",
        "Â": "AA", "Ấ": "AAS", "Ầ": "AAF", "Ẩ": "AAR", "Ẫ": "AAX", "Ậ": "AAJ",
        "Đ": "DD",
                   "É": "ES" , "È": "EF" , "Ẻ": "ER" , "Ẽ": "EX" , "Ẹ": "EJ" ,
        "Ê": "EE", "Ế": "EES", "Ề": "EEF", "Ể": "EER", "Ễ": "EEX", "Ệ": "EEJ",
                   "Í": "IS" , "Ì": "IF" , "Ỉ": "IR" , "Ĩ": "IX" , "Ị": "IJ" ,
                   "Ó": "OS" , "Ò": "OF" , "Ỏ": "OR" , "Õ": "OX" , "Ọ": "OJ" ,
        "Ô": "OO", "Ố": "OOS", "Ồ": "OOF", "Ổ": "OOR", "Ỗ": "OOX", "Ộ": "OOJ",
        "Ơ": "OW", "Ớ": "OWS", "Ờ": "OWF", "Ở": "OWR", "Ỡ": "OWX", "Ợ": "OWJ",
                   "Ú": "US" , "Ù": "UF" , "Ủ": "UR" , "Ũ": "UX" , "Ụ": "UJ" ,
        "Ư": "UW", "Ứ": "UWS", "Ừ": "UWF", "Ử": "UWR", "Ữ": "UWX", "Ự": "UWJ",
                   "Ý": "YS" , "Ỳ": "YF" , "Ỷ": "YR" , "Ỹ": "YX" , "Ỵ": "YJ" ,
                   "á": "as" , "à": "af" , "ả": "ar" , "ã": "ax" , "ạ": "aj" ,
        "ă": "aw", "ắ": "aws", "ằ": "awf", "ẳ": "awr", "ẵ": "awx", "ặ": "awj",
        "â": "aa", "ấ": "aas", "ầ": "aaf", "ẩ": "aar", "ẫ": "aax", "ậ": "aaj",
        "đ": "dd",
                   "é": "es" , "è": "ef" , "ẻ": "er" , "ẽ": "ex" , "ẹ": "ej" ,
        "ê": "ee", "ế": "ees", "ề": "eef", "ể": "eer", "ễ": "eex", "ệ": "eej",
                   "í": "is" , "ì": "if" , "ỉ": "ir" , "ĩ": "ix" , "ị": "ij" ,
                   "ó": "os" , "ò": "of" , "ỏ": "or" , "õ": "ox" , "ọ": "oj" ,
        "ô": "oo", "ố": "oos", "ồ": "oof", "ổ": "oor", "ỗ": "oox", "ộ": "ooj",
        "ơ": "ow", "ớ": "ows", "ờ": "owf", "ở": "owr", "ỡ": "owx", "ợ": "owj",
                   "ú": "us" , "ù": "uf" , "ủ": "ur" , "ũ": "ux" , "ụ": "uj" ,
        "ư": "uw", "ứ": "uws", "ừ": "uwf", "ử": "uwr", "ữ": "uwx", "ự": "uwj",
                   "ý": "ys" , "ỳ": "yf" , "ỷ": "yr" , "ỹ": "yx" , "ỵ": "yj" ,
    }
 }

 def xoa_dau_sang_vni_telex(txt: str, kieu_go: str) -> str:
    kieu_go = kieu_go.lower()
    if kieu_go not in BANG_DANH_DAU:
        raise Exception("kiểu gõ ko hợp lệ")
    for k, v in BANG_DANH_DAU[kieu_go].items():
        txt = txt.replace(k, v)
    return txt

 xoa_dau_sang_vni_telex(txt, "vni")   # "“D9a5o d9u71c kinh”"
 xoa_dau_sang_vni_telex(txt, "telex") # "“DDajo dduwsc kinh”"
	Á `U+00C1`	À `U+00C0`	Ả `U+1EA2`	Ã `U+00C3`	Ạ `U+1EA0`
Ă `U+0102`	Ắ `U+1EAE`	Ằ `U+1EB0`	Ẳ `U+1EB2`	Ẵ `U+1EB4`	Ặ `U+1EB6`
Â `U+00C2`	Ấ `U+1EA4`	Ầ `U+1EA6`	Ẩ `U+1EA8`	Ẫ `U+1EAA`	Ậ `U+1EAC`
Đ `U+0110`
	È `U+00C8`	É `U+00C9`	Ẻ `U+1EBA`	Ẽ `U+1EBC`	Ẹ `U+1EB8`
Ê `U+00CA`	Ế `U+1EBE`	Ề `U+1EC0`	Ể `U+1EC2`	Ễ `U+1EC4`	Ệ `U+1EC6`
	Í `U+00CD`	Ì `U+00CC`	Ỉ `U+1EC8`	Ĩ `U+0128`	Ị `U+1ECA`
	Ó `U+00D3`	Ò `U+00D2`	Ỏ `U+1ECE`	Õ `U+00D5`	Ọ `U+1ECC`
Ô `U+00D4`	Ố `U+1ED0`	Ồ `U+1ED2`	Ổ `U+1ED4`	Ỗ `U+1ED6`	Ộ `U+1ED8`
Ơ `U+01A0`	Ớ `U+1EDA`	Ờ `U+1EDC`	Ở `U+1EDE`	Ỡ `U+1EE0`	Ợ `U+1EE2`
	Ú `U+00DA`	Ù `U+00D9`	Ủ `U+1EE6`	Ũ `U+0168`	Ụ `U+1EE4`
Ư `U+01AF`	Ứ `U+1EE8`	Ừ `U+1EEA`	Ử `U+1EEC`	Ữ `U+1EEE`	Ự `U+1EF0`
	Ý `U+00DD`	Ỳ `U+1EF2`	Ỷ `U+1EF6`	Ỹ `U+1EF8`	Ỵ `U+1EF4`
	á `U+00E1`	à `U+00E0`	ả `U+1EA3`	ã `U+00E3`	ạ `U+1EA1`
ă `U+0103`	ắ `U+1EAF`	ằ `U+1EB1`	ẳ `U+1EB3`	ẵ `U+1EB5`	ặ `U+1EB7`
â `U+00E2`	ấ `U+1EA5`	ầ `U+1EA7`	ẩ `U+1EA9`	ẫ `U+1EAB`	ậ `U+1EAD`
đ `U+0111`
	è `U+00E8`	é `U+00E9`	ẻ `U+1EBB`	ẽ `U+1EBD`	ẹ `U+1EB9`
ê `U+00EA`	ế `U+1EBF`	ề `U+1EC1`	ể `U+1EC3`	ễ `U+1EC5`	ệ `U+1EC7`
	í `U+00ED`	ì `U+00EC`	ỉ `U+1EC9`	ĩ `U+0129`	ị `U+1ECB`
	ó `U+00F3`	ò `U+00F2`	ỏ `U+1ECF`	õ `U+00F5`	ọ `U+1ECD`
ô `U+00F4`	ố `U+1ED1`	ồ `U+1ED3`	ổ `U+1ED5`	ỗ `U+1ED7`	ộ `U+1ED9`
ơ `U+01A1`	ớ `U+1EDB`	ờ `U+1EDD`	ở `U+1EDF`	ỡ `U+1EE1`	ợ `U+1EE3`
	ú `U+00FA`	ù `U+00F9`	ủ `U+1EE7`	ũ `U+0169`	ụ `U+1EE5`
ư `U+01B0`	ứ `U+1EE9`	ừ `U+1EEB`	ử `U+1EED`	ữ `U+1EEF`	ự `U+1EF1`
	ý `U+00FD`	ỳ `U+1EF3`	ỷ `U+1EF7`	ỹ `U+1EF9`	ỵ `U+1EF5`
	BANG_DANH_DAU = {
	"vni": {
	"Á": "A1" , "À": "A2" , "Ả": "A3" , "Ã": "A4" , "Ạ": "A5" ,
	"Ă": "A8", "Ắ": "A81", "Ằ": "A82", "Ẳ": "A83", "Ẵ": "A84", "Ặ": "A85",
	"Â": "A6", "Ấ": "A61", "Ầ": "A62", "Ẩ": "A63", "Ẫ": "A64", "Ậ": "A65",
	"Đ": "D9",
	"É": "E1" , "È": "E2" , "Ẻ": "E3" , "Ẽ": "E4" , "Ẹ": "E5" ,
	"Ê": "E6", "Ế": "E61", "Ề": "E62", "Ể": "E63", "Ễ": "E64", "Ệ": "E65",
	"Í": "I1" , "Ì": "I2" , "Ỉ": "I3" , "Ĩ": "I4" , "Ị": "I5" ,
	"Ó": "O1" , "Ò": "O2" , "Ỏ": "O3" , "Õ": "O4" , "Ọ": "O5" ,
	"Ô": "O6", "Ố": "O61", "Ồ": "O62", "Ổ": "O63", "Ỗ": "O64", "Ộ": "O65",
	"Ơ": "O7", "Ớ": "O71", "Ờ": "O72", "Ở": "O73", "Ỡ": "O74", "Ợ": "O75",
	"Ú": "U1" , "Ù": "U2" , "Ủ": "U3" , "Ũ": "U4" , "Ụ": "U5" ,
	"Ư": "U7", "Ứ": "U71", "Ừ": "U72", "Ử": "U73", "Ữ": "U74", "Ự": "U75",
	"Ý": "Y1" , "Ỳ": "Y2" , "Ỷ": "Y3" , "Ỹ": "Y4" , "Ỵ": "Y5" ,
	"á": "a1" , "à": "a2" , "ả": "a3" , "ã": "a4" , "ạ": "a5" ,
	"ă": "a8", "ắ": "a81", "ằ": "a82", "ẳ": "a83", "ẵ": "a84", "ặ": "a85",
	"â": "a6", "ấ": "a61", "ầ": "a62", "ẩ": "a63", "ẫ": "a64", "ậ": "a65",
	"đ": "d9",
	"é": "e1" , "è": "e2" , "ẻ": "e3" , "ẽ": "e4" , "ẹ": "e5" ,
	"ê": "e6", "ế": "e61", "ề": "e62", "ể": "e63", "ễ": "e64", "ệ": "e65",
	"í": "i1" , "ì": "i2" , "ỉ": "i3" , "ĩ": "i4" , "ị": "i5" ,
	"ó": "o1" , "ò": "o2" , "ỏ": "o3" , "õ": "o4" , "ọ": "o5" ,
	"ô": "o6", "ố": "o61", "ồ": "o62", "ổ": "o63", "ỗ": "o64", "ộ": "o65",
	"ơ": "o7", "ớ": "o71", "ờ": "o72", "ở": "o73", "ỡ": "o74", "ợ": "o75",
	"ú": "u1" , "ù": "u2" , "ủ": "u3" , "ũ": "u4" , "ụ": "u5" ,
	"ư": "u7", "ứ": "u71", "ừ": "u72", "ử": "u73", "ữ": "u74", "ự": "u75",
	"ý": "y1" , "ỳ": "y2" , "ỷ": "y3" , "ỹ": "y4" , "ỵ": "y5" ,
	},
	"telex": {
	"Á": "AS" , "À": "AF" , "Ả": "AR" , "Ã": "AX" , "Ạ": "AJ" ,
	"Ă": "AW", "Ắ": "AWS", "Ằ": "AWF", "Ẳ": "AWR", "Ẵ": "AWX", "Ặ": "AWJ",
	"Â": "AA", "Ấ": "AAS", "Ầ": "AAF", "Ẩ": "AAR", "Ẫ": "AAX", "Ậ": "AAJ",
	"Đ": "DD",
	"É": "ES" , "È": "EF" , "Ẻ": "ER" , "Ẽ": "EX" , "Ẹ": "EJ" ,
	"Ê": "EE", "Ế": "EES", "Ề": "EEF", "Ể": "EER", "Ễ": "EEX", "Ệ": "EEJ",
	"Í": "IS" , "Ì": "IF" , "Ỉ": "IR" , "Ĩ": "IX" , "Ị": "IJ" ,
	"Ó": "OS" , "Ò": "OF" , "Ỏ": "OR" , "Õ": "OX" , "Ọ": "OJ" ,
	"Ô": "OO", "Ố": "OOS", "Ồ": "OOF", "Ổ": "OOR", "Ỗ": "OOX", "Ộ": "OOJ",
	"Ơ": "OW", "Ớ": "OWS", "Ờ": "OWF", "Ở": "OWR", "Ỡ": "OWX", "Ợ": "OWJ",
	"Ú": "US" , "Ù": "UF" , "Ủ": "UR" , "Ũ": "UX" , "Ụ": "UJ" ,
	"Ư": "UW", "Ứ": "UWS", "Ừ": "UWF", "Ử": "UWR", "Ữ": "UWX", "Ự": "UWJ",
	"Ý": "YS" , "Ỳ": "YF" , "Ỷ": "YR" , "Ỹ": "YX" , "Ỵ": "YJ" ,
	"á": "as" , "à": "af" , "ả": "ar" , "ã": "ax" , "ạ": "aj" ,
	"ă": "aw", "ắ": "aws", "ằ": "awf", "ẳ": "awr", "ẵ": "awx", "ặ": "awj",
	"â": "aa", "ấ": "aas", "ầ": "aaf", "ẩ": "aar", "ẫ": "aax", "ậ": "aaj",
	"đ": "dd",
	"é": "es" , "è": "ef" , "ẻ": "er" , "ẽ": "ex" , "ẹ": "ej" ,
	"ê": "ee", "ế": "ees", "ề": "eef", "ể": "eer", "ễ": "eex", "ệ": "eej",
	"í": "is" , "ì": "if" , "ỉ": "ir" , "ĩ": "ix" , "ị": "ij" ,
	"ó": "os" , "ò": "of" , "ỏ": "or" , "õ": "ox" , "ọ": "oj" ,
	"ô": "oo", "ố": "oos", "ồ": "oof", "ổ": "oor", "ỗ": "oox", "ộ": "ooj",
	"ơ": "ow", "ớ": "ows", "ờ": "owf", "ở": "owr", "ỡ": "owx", "ợ": "owj",
	"ú": "us" , "ù": "uf" , "ủ": "ur" , "ũ": "ux" , "ụ": "uj" ,
	"ư": "uw", "ứ": "uws", "ừ": "uwf", "ử": "uwr", "ữ": "uwx", "ự": "uwj",
	"ý": "ys" , "ỳ": "yf" , "ỷ": "yr" , "ỹ": "yx" , "ỵ": "yj" ,
	}
	}

	def xoa_dau_sang_vni_telex(txt: str, kieu_go: str) -> str:
	kieu_go = kieu_go.lower()
	if kieu_go not in BANG_DANH_DAU:
	raise Exception("kiểu gõ ko hợp lệ")
	for k, v in BANG_DANH_DAU[kieu_go].items():
	txt = txt.replace(k, v)
	return txt

	xoa_dau_sang_vni_telex(txt, "vni") # "“D9a5o d9u71c kinh”"
	xoa_dau_sang_vni_telex(txt, "telex") # "“DDajo dduwsc kinh”"