Skip to content

Instantly share code, notes, and snippets.

@lqtrung-95
lqtrung-95 / Classify_bills.py
Created May 4, 2019 11:15
Rule-based method for classifying bills.
def detect_label_ocr(input_str):
keywords = [
["Tong Tien", "Total", "Tổng Tiền", "tổng tiền", "TỔNG TIỀN", "TONG TIEN", "Tổng số tiền thanh toán", "Số tiền", "số tiền", "So Tien", " SO TIEN", "so tien", "TỔNG TIỀN THANH TOÁN", "THANH TOÁN", "Thanh Toán", "thanh toan", "thanh toán", "THANH TOAN", "Tiền mặt", "Tien mat", "T.Cộng", "T.Cong", "t.cong","Tổng cộng", "TỔNG CỘNG", "tổng cộng", "Tong cong", "TONG CONG", "tong cong"],
["Dia chi", "địa chỉ", "ĐỊA CHỈ", "Địa chỉ", "DIA CHI", "Address", "ADDRESS", "huyện", "thanh pho", "xã", "HUYEN", "THANH PHO", "TINH" "tinh", "XA"],
["MaKH", "Mã khách hàng", "Mã KH", "Mã kh", "mã kh", "mã khách hàng", "MKH", "mkh", "Ma KH", "MA KH", "Ma khach hang", "Customer Number", "Customer No", "CUSTOMER NO", "customer no", "customer number"],
# ["Mã NV", "Ma NV", "mã nhân viên", "MÃ NV", "Mã nhân viên", "cashier number", "CASHIER NUMBER", "Cashier numer" ,"Cashier No", "cashier no", "Cashier no", "Cashier NO"],
["VAT", "MST", "MÃ SỐ TH