Wykrywanie genów za pomocą HMM

Informacje ogólne

Celem projektu jest wykorzystanie ukrytych modeli Markowa do wyszukania genów w nowosekwencjonowanym genomie. Poprzez porównywanie genomu z sekwencjami genów wzorcowych, czyli wykrytych w lepiej poznanych genomach możliwe jest wyszukanie podobieństw świadczących o występowaniu framgentu kodującego.

Spotkania odbywają się wieczorem w każdy czwartek.

Koordynator: Rafał Klimek

Język: Python

 

Dokładny opis

Wejście programu:

  • Fragment DNA do analizy. Sekwencja może posiadać przerwy oraz znaki mówiące tylko o rodzaju nukleotydu
  • Indentyfikatory lub wprowadzone sekwencje genów które mają zostać znalezione.

W pierwszej kolejności sekwencja przechodzi przez program SEG (publicznie dostępny) filtrujący wczytaną sekwencję i czyszczącą ją z tzw. Low-Complexity Regions. Regiony te nie będą brały udziału w analizie.

Tworzymy wzorzec PSSM z wprowadzonych sekwencji poszukiwanego genu lub pobieramy go z bazy danych. Tworzymy dopasowanie wzorca z badaną sekwencją. W tym celu stworzymy consensus pomiędzy wynikami z algorytmów Smith-Waterman oraz Needleman–Wunsch. Na podstawie dopasowania wyznaczoane są fragmenty genów, które zostaną zanalizowane przez HMM.

Za pomocą algorytmu Bauma-Welscha tworzymy profil HMM dla szukanego genu. Profil HMM od zwykłego HMMu różni się inną strukturą stanów. Przejście do następnego stanu nie odbywa się na stricte podstawie prawdopodbieństw, lecz na podstawie modułów uwzględniających występowanie delecji bądź insercji. Jeśli analizowany nukleotyd nie zgadza się ze wzorcem, sprawdzane są możliwości czy nie mamy do czynienia z insercją czyli występowanie fragmentu później, bądź delecji, tzn. brakiem występowania fragmentu w analizowanych danych.

Przeprowadzamy analizę wyznaczonych rejonów na HMMie i zwracamy tabelę wraz z wykres z określonym „score" dla poszczególnych regionów.

Przy projekcie stworzona zostanie baza danych w technologii MongoDB. Liczba widoków do zaimplementowania:

  • Katalog gatunków z przypisaną klasyfikacją biologiczną
  • Katalog genów z przypisaniem do poszczególnych gatunków
  • Lista genów z homologią

 

Zobacz również

Zachęcamy do zapoznania się z aktualnym składem zarządu oraz z naszym statutem