Skip to content

Instantly share code, notes, and snippets.

@migcosta
Last active January 25, 2022 16:05
Show Gist options
  • Save migcosta/45d2664d398e212c39ad773c24c575e2 to your computer and use it in GitHub Desktop.
Save migcosta/45d2664d398e212c39ad773c24c575e2 to your computer and use it in GitHub Desktop.
list of multiple glyphs that can be misinterpreted by spacy
[
"؋",
"฿",
"₵",
"₡",
"¢",
"$",
"₫",
"֏",
"€",
"ƒ",
"₣",
"₲",
"₴",
"₾",
"₭",
"₺",
"₼",
"₦",
"₱",
"£",
"元",
"圆",
"圓",
"﷼",
"៛",
"₽",
"₹",
"Rp",
"රු",
"૱",
"௹",
"꠸",
"₨",
"₪",
"⃀",
"৳",
"₸",
"₮",
"₩",
"¥",
"円",
"+",
"–",
"×",
"·",
"±",
"∓",
"÷",
":",
"/",
"√",
"√",
"^",
"=",
"≠",
"≈",
"~",
"≡",
"<",
">",
"≤",
"≥",
"≪",
"≫",
"≦",
"≺",
"≻",
"∅",
"#",
"∈",
"∉",
"⊂",
"⊆",
"⊊",
"⊃",
"⊇",
"⊋",
"∪",
"∩",
"\\",
"⊖",
"∁",
"×",
"⊔",
"∂",
"𝛿",
"→",
"↦",
"○",
"∫",
"∮",
"∬",
"∯",
"Δ",
"∇²",
"∑",
"∏",
"⊕",
"⊗",
"⊤",
"⊥",
"⋉",
"⋊",
"≀",
"∞",
"𝔠",
"ℵ",
"ℶ",
"ω",
"(",
")",
"[",
"]",
"{",
"}",
"|",
"||",
"⌊",
"⌋",
"⌈",
"⌉",
"⌊",
"⌉",
"(",
")",
"⟨",
"⟩",
"■",
",",
"□",
"☡",
"∴",
"∵",
"∋",
"∝",
"!",
"*",
"|",
"∤",
"∥",
"∦",
"⊙",
"%","&","@",
"¡",
"¢",
"£",
"¤",
"¥",
"¦",
"§",
"¨",
"©",
"ª",
"«",
"¬",
"®",
"¯",
"°",
"±",
"²",
"³",
"´",
"µ",
"¶",
"·",
"¸",
"¹",
"º",
"»",
"¼",
"½",
"¾",
"¿",
"Þ",
"ß"
]
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment