Principais atividades executadas
- Voxx OSD contract interpretation; use the module opensearch.
- Get used with the VoxxREST service.
- Top N words from Paulo Portas's quotes.
- use of
CountVectorizer
andTfidfVectorizer
. - variations with uni-grams, bi-grams and a tokenizer with stemming.
- use of
Dificuldades
- Adapting to python flexibility.
- Too many modules mixed!
- stemming this way, does not use stop_words.
Oportunidades
CountVectorizer
,TfidfVectorizer
.- Stemming with
nltk.stem.rslp
andnltk.stem.snowball.PortugueseStemmer
. stop_words
fromnltk.corpus.stopwords.words('portuguese')
Prioridades para o período seguinte
- Improve stemming: remove stop_words before stemming.
- Where do this words come from? Show the quotes where this words come from.
- A timeline with the top words (linked to their quotes)? How to relate to the quote date?
Principais atividades executadas
- Implementação de bibliotecas para acesso ao SAPO Services.
- extensão da classe python sugerida no próprio site para outros serviços
sapoServices
- extensão da classe python sugerida no próprio site para outros serviços
- Testes com os feeds do Voxx
Dificuldades
Oportunidades
- Módulos em Python
Prioridades para o período seguinte
Principais atividades executadas
scikit-learn
tutorial part 1: "Learning and predicting".scikit-learn
tutorial part 4: "Feature Extraction".
Dificuldades
Oportunidades
Prioridades para o período seguinte
Principais atividades executadas
- Algumas leituras do livro "Python for Data Analysis".
- Introdução a:
- pandas: provides data structures
- scikit-learn: machine learning (classif, regress, clust, ...)
- numpy: scientific computing
- scipy: scientific computing
Dificuldades
Oportunidades
Prioridades para o período seguinte
Principais atividades executadas
Dificuldades
Oportunidades
Prioridades para o período seguinte