Last active
February 9, 2024 21:33
-
-
Save cr0wg4n/148fde4e3d00a71435e9c72d88b8cf65 to your computer and use it in GitHub Desktop.
Clearing stop words
This file contains bidirectional Unicode text that may be interpreted or compiled differently than what appears below. To review, open the file in an editor that reveals hidden Unicode characters.
Learn more about bidirectional Unicode characters
stop_words = [ | |
# stop words list | |
] | |
symbols = [ | |
'¿','?','~','`','!','¡','@','#','$','%','^', | |
'*','(',')','_','-','+','=','{','}','[', | |
']','\\',':',';','<','>','/', '.', ',','&','\n' | |
,'\r','\t', '|', '“', '"', '–', '”', '©', '-', '—', | |
'…', ';', '‘','’' | |
] | |
def split_text(text) -> list: | |
return re.findall(r'\S+', text) | |
def remove_stop_words_from_text(text) -> list: | |
res = [] | |
subwords = split_text(text) | |
for item in subwords: | |
if not item in stop_words: | |
res.append(item) | |
return res | |
def remove_symbols (text) -> str: | |
res = text | |
for char in symbols: | |
res = res.replace(char, '') | |
return res | |
def clean_text (text) -> list: | |
res = text.lower() | |
res = remove_symbols(res) | |
res = remove_stop_words_from_text(res) | |
return res | |
text = """Es relativamente fácil ponerse de acuerdo en que solo Homo sapiens puede hablar sobre cosas que no existen realmente, y creerse seis cosas imposibles antes del desayuno. En cambio, nunca convenceremos a un mono para que nos dé un plátano con la promesa de que después de morir tendrá un número ilimitado de bananas a su disposición en el cielo de los monos""" | |
text = clean_text(text) | |
print(text) | |
['relativamente', 'fácil', 'ponerse', 'acuerdo', 'homo', 'sapiens', 'hablar', 'realmente', 'creerse', 'imposibles', 'desayuno', 'cambio', 'convenceremos', 'mono', 'plátano', 'promesa', 'morir', 'número', 'ilimitado', | |
'bananas', 'disposición', 'cielo', 'monos'] |
Sign up for free
to join this conversation on GitHub.
Already have an account?
Sign in to comment
Muchas gracias. Para quien esta aprendiendo, conocer el código de desarrolladores mas experimentados es muy educativo.