Boa tarde a todos, muito obrigado pela disponibilidade e pela presença, eu vou apresentar o meu relatório de estágio cujo o nome é Uma abordagem de classificação inical para Dengue e Chikungunya.
Os participantes desse projeto: Sou eu, a professora damires como minha orientadora e o professor alex como meu co-orientador.
Antes de apresentar os detalhes técnicos do trabalho eu gostaria de passar por esses três tópicos introdutórios.
O meu relatório de estágio é resultado de um projeto de pesquisa desenvolvido aqui no campus joão pessoa de nome: Mineração de dados no combate as arboviroses. Este projeto teve o intuíto de criar ferramentas que pudessem ajudar aos gestores, médicos ou pessoas interessadas a extrair conhecimento de fontes de dados relacionadas as arboviroses. As arboviroses são vírus transmitidas por meio de artropodes, no nosso cenário o mosquito da Dengue ou aedes aegipit é o mosquito responsável pela transmissão de pelo menos quatro doenças diferentes: A febre amarela, o zika virus, a dengue e a Chikungunya. O projeto permeia as áres de mineração de dados, aprendizagem de máquina, análise de dados para realizar as atividades propostas.
Já o trabalho utiliza-se da mineração de dados para classificar a dengue e a Chikungunya por meio dos sintomas apresentados pelos pacientes.
Para que isso fosse possível, as principais atividades desenvolvidas foram:
- O levantamento do estado da arte
- O estudo sobre as arboviroses
- O estudo sobre a mineração de dados
- A criação do classificador
- A análise dos resultados
Os conceitos e ferramentas importantes para o entendimento deste trabalho são: a análise de dados, a mineração de dados, as técnicas de classificação e as ferramentas utilizadas.
A análise de dados pode ser definida como a utilização de técnicas em um contexto e conjunto de dados para a extração de conhecimento importante. Um exemplo simples da análise de dados pode ser visto no contexto de uma planilha excel com os dados de vendas de produtos onde você ordena a coluna de preços e obtem os prudutos mais caros ou mais baratos vendidos. A análise de dados pode ser vista em contextos mais complexos como as ferramentas de business inteligence onde um conjunto de dados muito maior é utilizado e a pessoa que pilota a ferramenta é capaz de obter informações relevantes por meio do cruzamento dos dados. Este é um exemplo mais complexo da análise de dados mas os dois pontos possuem um fator primordial que é a interação humana no processo.
A mineração de dados visa atacar a fronte não explorada pela análise de dados. A mineração de dados é um processo que pode ocorrer de forma semi automática ou totalmente automática que é capaz de explorar uma quantidade de dados relativamente grande (no olhar de um ser humano) de forma eficaz afim de revelar informações que não eram facilmente coorelacionadas ou detectadas a olho nu.
A mineração de dados utiliza o aprendizado de máquina para realizar tal feito, sendo que o A.M possui quatro tipos de tarefas, são elas: A classificação, o agrupamento, a deteção de outliers e as regras de associação.
As técnicas de classificação podem ser entendidas como maneiras de atribuir rótulos a um conjunto de dados mediante a uma análise prévia dados semelhantes e suas caracteristicas. Eu vou dar um exemplo muito caricato de uma classificação:
Quando você aprensenta uma maçã para uma criança pequena possívelmente ela não sabe o que é aquilo mas ai você ensina que é de comer, que o nome é maçã, que é redonda e tem a cor avermelhada. Na segunda vez que a criança vê a maçã ela entende que aquilo é uma maçã mesmo que a cor esteja um pouco diferente, ela é capaz de analisar as outras caracteristicas e rotular aquele objeto como maçã. Quando você aprensentar uma pêra pra ela, ela vai ficar em dúvida se aquilo é tb uma maçã já que as caracteristicas também são semelhantes mas ai você pode dizer que aquilo é uma pêra e ela provavelmente vai entender o que difere as duas.
Sendo assim uma criança é um pequeno classificador ambulante em forma de treinamento.
As ferramentas utilizadas foram Python, R e Weka.
É aqui onde se concentram as atividades práticas do trabalho.
Nós vamos começar pela análise e estudo do contexto das doenças. Foi necessário conhecer pelo menos o mínimo sobre essas doenças já que nós iramos trabalhar com os dados. Esses dados foram obtidos juntos a SES-PB, tivemos acesso dados de doenças como dengue, zika e Chikungunya. Os dados vieram em arquivos CSV e continham informações em formas de atributos, com uma média de 157. Nós não escolhemos a dengue e a Chikungunya atoa, a distinção entre elas é muito dificil de ser realizada até mesmo por uma pessoa especializada, um estudo realizado no rio de janeiro revelou que os exames ofertados pelo SUS possuem uma taxa de precisão para o diagnóstico entre 55% a 83%, existem exames mais complexos e precisos com taxas de 95 a 99% mas são mais caros e não são ofertados. Os valores dos exames podem variar de 18 reais a 2 mil.
Vocês podem ver um fragmento do conjunto de dados nesta imagem.
- Classificação
- Algoritmos utilizados
- Performance
- Desenvolvimento da abstração