Created
May 16, 2018 02:40
-
-
Save aliakbars/001b5c7e0d073aab90c8c64599bd7796 to your computer and use it in GitHub Desktop.
This file contains bidirectional Unicode text that may be interpreted or compiled differently than what appears below. To review, open the file in an editor that reveals hidden Unicode characters.
Learn more about bidirectional Unicode characters
from spacy.lang.id import Indonesian | |
nlp = Indonesian() | |
# additional "stop words" | |
# bisa diganti dengan yang lain | |
nlp.Defaults.stop_words.update(['nya', 'yg', 'aja', 'deh', 'ny', 'dr', 'sy', 'ya','klo','sdh', | |
'udah','sampe','dah','tp','ga','gk','sih','gak','tdk','e','dgn','sm']) | |
def tokenizer(text): | |
# hanya mengambil lemma saja, bisa diganti yang lain jika dibutuhkan | |
return [token.lemma_.lower() for token in nlp(text) if not token.is_stop and not token.is_punct] | |
docs = [ | |
'Saya pikir ayah saya terlihat seperti Matt Damon.', | |
'Tapi apakah rezim mempelajari sesuatu?', | |
'Lalu dia mulai berjualan mariyuana.', | |
'Apakah Anda ingin menjadi penerbit, seseorang yang memberi lisensi teknologi?', | |
'Seharusnya ini lebih seperti akuntansi pribadi.', | |
'Agni adalah salah satu dari lima rudal yang dikembangkan oleh DRDO.', | |
'Anda dapat menerapkan perspektif dinamis yang sama pada India.', | |
'PDIP resmi mencalonkan Gubernur DKI Jakarta, Jokowi sebagai calon presiden untuk bersaing dalam pemilihan presiden pada 9 Juli 2014.', | |
'Peserta yang hadir sebanyak 114 peserta dari target undangan sebanyak 125 peserta.' | |
] | |
for text in docs: | |
print(tokenizer(text)) |
Sign up for free
to join this conversation on GitHub.
Already have an account?
Sign in to comment