Skip to content

Instantly share code, notes, and snippets.

@aliakbars
Created May 16, 2018 02:40
Show Gist options
  • Save aliakbars/001b5c7e0d073aab90c8c64599bd7796 to your computer and use it in GitHub Desktop.
Save aliakbars/001b5c7e0d073aab90c8c64599bd7796 to your computer and use it in GitHub Desktop.
from spacy.lang.id import Indonesian
nlp = Indonesian()
# additional "stop words"
# bisa diganti dengan yang lain
nlp.Defaults.stop_words.update(['nya', 'yg', 'aja', 'deh', 'ny', 'dr', 'sy', 'ya','klo','sdh',
'udah','sampe','dah','tp','ga','gk','sih','gak','tdk','e','dgn','sm'])
def tokenizer(text):
# hanya mengambil lemma saja, bisa diganti yang lain jika dibutuhkan
return [token.lemma_.lower() for token in nlp(text) if not token.is_stop and not token.is_punct]
docs = [
'Saya pikir ayah saya terlihat seperti Matt Damon.',
'Tapi apakah rezim mempelajari sesuatu?',
'Lalu dia mulai berjualan mariyuana.',
'Apakah Anda ingin menjadi penerbit, seseorang yang memberi lisensi teknologi?',
'Seharusnya ini lebih seperti akuntansi pribadi.',
'Agni adalah salah satu dari lima rudal yang dikembangkan oleh DRDO.',
'Anda dapat menerapkan perspektif dinamis yang sama pada India.',
'PDIP resmi mencalonkan Gubernur DKI Jakarta, Jokowi sebagai calon presiden untuk bersaing dalam pemilihan presiden pada 9 Juli 2014.',
'Peserta yang hadir sebanyak 114 peserta dari target undangan sebanyak 125 peserta.'
]
for text in docs:
print(tokenizer(text))
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment