Victor Emanuel Perticarrari Osório
Antes de assistir essa palestra o meu conhecimento de bioinformática era um pouco superficial. Eu acreditava que o trabalho se resumia a algoritmos de buscas em sequências genéticas. Mas fui surpreendido com a aplicação de Modelos Probabilísticos para associação entre regiões do DNA ou RNA com funções metabólicas ou codificação de proteínas.
Uma das perguntas de pesquisa é se uma sequencia de RNA codifica proteína ou não.
Uma sequencia identificada pode ser inserida em um banco de dados e depois pode ser feita uma busca por regiões similares.
Os algoritmos usados para reconhecer genes que codificam proteínas são baseado em HMM (Hidden Markov Model) e suas derivações. O HMM também é usado para reconhecimento de fala, pois o problema é similar, ao invés de termos uma sequencia de DNA, temos uma sequência de fonemas. Também é feita a predição de genes, para tentar se identificar as regiões que codifica proteína.
Dado um modelo probabilístico é possível identificar se uma sequencia de RNA pertence ou não ao modelo. O modelo é gerado a partir de uma gramática, já que uma sequência de DNA/RNA é composto por bases.
Com a cadeia de Markov é possível se calcular a probabilidade de uma sequência baseada em um modelo. Com um modelo é possível se extrair uma Matriz que é as probabilidades da cadeia de Markov. É possível se construir esse modelo para regiões que codificam proteínas e se identificar outras regiões. Usando as Cadeias Ocultas de Markov (HMM) é possível se encontrar regiões encontrando o modelo com maior probabilidade. O algoritmo gera uma árvore de probabilidades e deve se percorrer essa árvore em busca da maior probabilidade, os algoritmos para se percorrer a árvore são Viterbi e Posterior Decoding.
Usando Cadeias de Markov são mais eficiente que Redes Neurais porque não precisa de uma grande base treinada.
Existe também o algoritmo Profile-HMM usado para se encontrar regiões para o qual existem bases de dados públicas de modelos. Os modelos de Covarância são usados para encontrar limites de regiões.