Skip to content

Instantly share code, notes, and snippets.

@vepo
Created March 23, 2023 19:57
Show Gist options
  • Save vepo/97ce593b4b0670f562b4f77134c094ae to your computer and use it in GitHub Desktop.
Save vepo/97ce593b4b0670f562b4f77134c094ae to your computer and use it in GitHub Desktop.

Análise de sequências biológicas utilizando modelos probabilísticos

Victor Emanuel Perticarrari Osório

Antes de assistir essa palestra o meu conhecimento de bioinformática era um pouco superficial. Eu acreditava que o trabalho se resumia a algoritmos de buscas em sequências genéticas. Mas fui surpreendido com a aplicação de Modelos Probabilísticos para associação entre regiões do DNA ou RNA com funções metabólicas ou codificação de proteínas.

Uma das perguntas de pesquisa é se uma sequencia de RNA codifica proteína ou não.

Uma sequencia identificada pode ser inserida em um banco de dados e depois pode ser feita uma busca por regiões similares.

Os algoritmos usados para reconhecer genes que codificam proteínas são baseado em HMM (Hidden Markov Model) e suas derivações. O HMM também é usado para reconhecimento de fala, pois o problema é similar, ao invés de termos uma sequencia de DNA, temos uma sequência de fonemas. Também é feita a predição de genes, para tentar se identificar as regiões que codifica proteína.

Dado um modelo probabilístico é possível identificar se uma sequencia de RNA pertence ou não ao modelo. O modelo é gerado a partir de uma gramática, já que uma sequência de DNA/RNA é composto por bases.

Com a cadeia de Markov é possível se calcular a probabilidade de uma sequência baseada em um modelo. Com um modelo é possível se extrair uma Matriz que é as probabilidades da cadeia de Markov. É possível se construir esse modelo para regiões que codificam proteínas e se identificar outras regiões. Usando as Cadeias Ocultas de Markov (HMM) é possível se encontrar regiões encontrando o modelo com maior probabilidade. O algoritmo gera uma árvore de probabilidades e deve se percorrer essa árvore em busca da maior probabilidade, os algoritmos para se percorrer a árvore são Viterbi e Posterior Decoding.

Usando Cadeias de Markov são mais eficiente que Redes Neurais porque não precisa de uma grande base treinada.

Existe também o algoritmo Profile-HMM usado para se encontrar regiões para o qual existem bases de dados públicas de modelos. Os modelos de Covarância são usados para encontrar limites de regiões.

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment