Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Predição em Biologia Molecular

Predição em Biologia Molecular

Aprendizado de Máquina - 2014

Renato Molina Toth

April 09, 2014
Tweet

More Decks by Renato Molina Toth

Other Decks in Education

Transcript

  1. Introdução • Análise de sequências de DNA para detecção de

    delimitadores de código genético. Delimitadores separam genes a serem processados na síntese protéica dos que não serão processados. • 3 classes: ◦ Intron - Exon - IE ◦ Exon - Intron - EI ◦ Nenhum - N
  2. Base • 3190 amostras • 3 atributos nominais ◦ Classe:

    onde ocorre a classificação ◦ Nome: sequência de alfanum e hífens -> descartado ◦ Sequência de núcleotideos: entrada • exemplo: EI, ATRINS-DONOR-521, CAGCTGCATCACAGGAGGCCA GCGAGCAGGTCTGTTCCAAGGGCCTTCGAGCCAGTCTG
  3. Preparação dos Dados • Atributo nome removido • Remoção de

    uma amostra com 41 núcleotideos N: outlier EI, CACACAGGGCACCCCCTCANNNNNNNNNNN NNNNNNNNNNNNNNNNNNNNNNNNNNNNNN
  4. Preparação dos Dados • Expansão das amostras com ambiguidades, substituindo

    por todas as combinações possíveis (e.g. uma amostra com um caractere ’D’ passa a ser três amostras, uma com ’T’, ’A’, ’G’);
  5. Preparação dos Dados • Expansão das amostras com ambiguidades, substituindo

    por todas as combinações possíveis (e.g. uma amostra com um caractere ’D’ passa a ser três amostras, uma com ’T’, ’A’, ’G’); IE, DGACGGGGCTGACCGCGGGGGCGGGTCC AGGGTCTCACACCCTCCAGAATATGTATGGCT
  6. Preparação dos Dados • Expansão das amostras com ambiguidades, substituindo

    por todas as combinações possíveis (e.g. uma amostra com um caractere ’D’ passa a ser três amostras, uma com ’T’, ’A’, ’G’); IE, DGACGGGGCTGACCGCGGGGGCGGGTCC AGGGTCTCACACCCTCCAGAATATGTATGGCT IE, TGACGGGGCTGACCGCGGGGGCGGGTCC AGGGTCTCACACCCTCCAGAATATGTATGGCT IE, AGACGGGGCTGACCGCGGGGGCGGGTCC AGGGTCTCACACCCTCCAGAATATGTATGGCT IE, GGACGGGGCTGACCGCGGGGGCGGGTCC AGGGTCTCACACCCTCCAGAATATGTATGGCT
  7. Preparação dos Dados • Consideramos a sequência de 60 caracteres

    como 60 atributos individuais de uma amostra; TGACGGGGCTGACCGCGGGGGCGGGTCCA GGGTCTCACACCCTCCAGAATATGTATGGCT • Após o pré-processamento, a base de dados passou a ter 3321 amostras, com 60 atributos cada.
  8. Metodologia • Permutação aleatório da base • Divisão da base

    em 80% para treinamento e 20% para teste • Utilização da técnica de cross-validation ◦ 10 partições com 265 amostras
  9. KNN

  10. KNN

  11. Rede Neural Artificial - 60 neurônios de entrada, 60 de

    camada intermediária e 3 de saída. - Precisão média: 90% - Taxa de erro calculada ao fim de cada Época (ciclo de testes). - Erro = - A cada Epoch, é possível perceber a taxa de erro diminuindo, isto é, a rede chega cada vez mais perto das respostas ideais
  12. SVM • Testes realizados com diferentes kernels. • Precisão entre

    92% e 93% para kernel linear, polinomial e RBF. Precisão de 53% para kernel sigmoidal.
  13. Desempenho dos métodos Método Tempo (em relação a NB) Acurácia

    (%) NB 1.00 94.19 KNN (k = 3) 16.79 91.21 LR 115.92 92.05 LRR (λ = 0.3) 526.87 91.55 ANN 778.86 90.00 SVM 5.20 93.55
  14. Bonus: Interpretação por Códons • Biólogos trabalham com códons ◦

    grupos de 3 nucleotídeos • Experimentamos trabalhar com códons ◦ cada amostra com 60/3 = 20 atributos Códon Número ... Códon Número TTT 1 ... TGT 13 TTC 2 ... TGC 14 ... ... ... ... ... GTA 51 ... GGA 63 GTG 52 ... GGG 64
  15. Bonus: Interpretação por Códons • Resultado: pior ◦ Diminuimos ainda

    mais a quantidade de atributos ◦ O cálculo da distância entre as amostras ficou menos significativo ◦ em média -20% nas acurácias
  16. Referências 1) Bache, K. & Lichman, M. (2013).Molecular Biology (Splice-junction

    Gene Sequences) Data Set.} UCI Machine Learning Repository http://archive.ics.uci.edu/ml Irvine, CA: University of California, School of Information and Computer Science. 2) Tarca AL, Carey VJ, Chen X-w, Romero R, Drăghici S (2007) Machine Learning and Its Applications to Biology. PLoS Comput Biol 3(6): e116. doi:10.1371/journal.pcbi.0030116 3) Chih-Chung Chang and Chih-Jen Lin, LIBSVM : a library for support vector machines. ACM Transactions on Intelligent Systems and Technology, 2:27:1--27:27, 2011. Software available at http://www.csie.ntu.edu.tw/~cjlin/libsvm 4) Mitchell, Tom M. Machine learning. McGraw-Hill, Maidenhead, U.K. 1997. 5) Leverington, D (2009). A Basic Introduction to Feedforward Backpropagation Neural Networks. http://www.webpages.ttu.edu/dleverin/neural_network/neural_networks.html 6) Conserved codon composition of ribosomal protein coding genes in Escherichia coli, Mycobacterium tuberculosis and Saccharomyces cerevisiae: lessons from supervised machine learning in functional genomics Kui Lin, Yuyu Kuang, Jeremiah S. Joseph, Prasanna R. Kolatkar Nucleic Acids Res. 2002 June 1; 30(11): 2599–2607. 7) MathWorks. MATLAB. http://www.mathworks.com/products/matlab/