Biotechnologia.pl
łączymy wszystkie strony biobiznesu
Bioinformatyka i immunoinformatyka- narzędzia i zastosowania
07.12.2007



Podsumowanie

Celem niniejszego opracowania jest przybliżenie zasady działania programów bioinformatycznych dostępnych w internecie. Bioinformatyka umożliwia kompleksową analizę białek oraz DNA. Po określeniu sekwencji aminokwasowej można in silico przeprowadzić kompleksową analizę białka dotyczącą homologii do innych białek, jego struktury przestrzennej, funkcji, a także zastosowania jako antygenów szczepionkowych. Należy pamiętać jednak, że wszystkie te analizy długo jeszcze (prawdopodobnie nigdy) nie zastąpią w pełni procedur eksperymentalnych. Zastosowanie modeli komputerowych znaczenie większa prawdopodobieństwo powodzenia doświadczeń. Biologia jest jednak nauką nieprzewidywalną i rządzi się swoimi prawami, nie do końca poznanymi i ufanie tylko analizom komputerowym byłoby błędem. Wynik eksperymentu naukowego ma oczywiście nieporównywalnie wyższą wartość niż wynik analiz informatycznych. Techniki bioinformatyczne są to jednak bardzo pomocne przy projektowaniu doświadczeń. Po za tym w czasach, kiedy codziennie pojawia się mnóstwo publikacji i w bazach danych deponowane są ciągle nowopoznane geny pomoc komputera jest niezbędna. Ludzki mózg nie jest w stanie ogarnąć tak wielkiej ilości informacji i prowadzić skomplikowanych obliczeń. Codziennie sztab ludzi pracuje nad udoskonalaniem istniejących algorytmów i wprowadzaniem nowych Dlatego, bioinformatyka stała się już koniecznością i bardzo dobrze uzupełnia się z procedurami eksperymentalnymi.

Wstęp

Każdy organizm żyje, metabolizuje i pełni swoje funkcje biologiczne dzięki zakodowanej w DNA informacji genom. Gen jest pojęciem samym w sobie trudnym do zdefiniowania. Kiedyś uważano, że gen= 1 białko, jednak w miarę postępu nauki stwierdzono, że bezpieczniej przyjąć definicję gen= 1 łańcuch polipeptydowy, gdyż część białek składa się z kilku takich łańcuchów. Nauka jednak rozwijała się dalej, co sprawiło, że i ta definicja stała się niewystarczająca. DNA koduje nie tylko sekwencję aminokwasową białka. Pomiędzy egzonami znajdują się introny, które nie zawierają informacji na temat sekwencji aminokwasowej. Z fragmentem kodującym białko sąsiadują sekwencje wpływające na jego ekspresję. Indukują bądź hamują transkrypcję. Rejony wzmacniające i wyciszające transkrypcję mogą być oddalone milionny par zasad od sekwencji kodującej białko. Czy można zaliczyć je do genu? Organizmy eukariotyczne mają ok. kilkanaście- kilkadziesiąt tysięcy genów (jakkolwiekby ich nie zdefiniować). Dużym sukcesem jest określenie sekwencji cDNA kodującego białko i sekwencji aminokwasowej samego białka. Wtedy właśnie pojawia się więcej pytań niż odpowiedzi. Jaka jest funkcja badanego białka? Czy ulega ono ekspresji we wszystkich komórkach organizmu? Czy zostaje w komórce, czy jest eksportowane na zewnątrz? Czy można to białko wykorzystać jako lek bądź szczepionkę? Czy jako antygen szczepionkowy będzie wzbudzało odpowiedź immunologiczną? Oczywiście na te wszystkie pytania można odpowiedzieć stosując określone procedury eksperymentalne. Czasem wymaga to ogromnego nakładu czasu i kosztów. Stosując analizy in silico możemy w kilka dni z dużą dozą prawdopodobieństwa odpowiedzieć na te pytania.

Wyszukiwanie białek podobnych do nowopoznanego

Po zdefiniowaniu sekwencji aminokwasowej danego produktu białkowego pojawia się pytanie czy wcześniej inny naukowiec wyodrębnił białko o podobnej sekwencji. W internecie jest wiele programów do wyszukiwania podobieństwa między sekwencjami białkowymi. Najpopularniejszy wydaje się być BLAST dostępny na serwerze NCBI (http://www.ncbi.nlm.nih.gov/blast/Blast.cgi). Program ten stosuje algorytm heurystyczny (przybliżony). Aby dobrze zrozumieć działanie programu BLAST należy wcześniej zapoznać się z pojęciem „matryca”. Standardowo używana jest matryca BLOSUM 62. W dużym skrócie można przyjąć, że jest to tablica punktacji zamiany określonego aminokwasu na jakikolwiek inny. Poniżej przedstawiono matrycę BLOSUM 62.

Matryca BLOSUM 62


Matryca BLOSUM 62. Przedstawione są punktacje wymiany określonego aminokwasu na każdy inny. Dokładny opis w tekście.


 Jeżeli w badanym białku w określonym miejscu znajduje się alanina (A), a w sekwencji aktualnie porównywanej jest również alanina (A) program przyporządkuje temu zestawieniu, zgodnie z tabelą, 4 punkty, jeżeli byłaby tam histydyna (H) wówczas zestawieniu takiemu przypisane zostaną -2 punkty. Wartości zamiany aminokwasów zamieszczone w tabeli obliczone są na podstawie matematycznych prawdopodobieństw mutacji jednego aminokwasu na inny. Z tego wynika, że zamiana alaniny (A) na glicynę jest bardziej prawdopodobna niż na tryptofan (W), ponieważ tej pierwszej przypisuje się 0 punktów, a drugiej -3 punkty.
Program BLAST na bazie matrycy (tutaj BLOSUM 62) przeszukuje bazę danych GenBank. Wybierane są po kolei 2 lub 3 aminokwasy N końca białka (parametr Word size zdefiniowany przez użytkownika). Jeżeli program w sekwencji przeszukiwanej trafi na 2 lub 3 aminokwasy, które są podobne do aminokwasów w badanym białku wtedy zatrzymuje się i rozszerza poszukiwania na aminokwasy z lewej i prawej strony aktualnie wyodrębnionej sekwencji „Word”. W ten sposób z bazy danych wyodrębniane są sekwencje białkowe podobne do badanego białka



Zasada działania programu BLAST cz. 1



Rys.1. Zasada działania programu BLAST cz. 1. Opis w tekście i na rysunku [1].



Zasada działania programu BLAST cz. 2


Rys. 2. Zasada działania programu BLAST cz. 2 [2]. Przedstawione zostało użycie sekwencji PQG jako „Word”. Program BLAST w tym przypadku ignoruje wszystkie zestawienia poniżej 13 punktów. W przeszukiwanej sekwencji natrafił na sekwencje PMG, której wartość punktowa według matrycy BLOSUM 62 wynosi 13 (mutacja P -> P daje 7pkt, Q ->M daje 0 pkt, G-> G daje 6 pkt). Program zaczyna szersze zestawienie na lewo i prawo od sekwencji PQG. Jeśli jest ono wysoko punktowane wtedy sekwencja zostaje uznana za podobną


PSI BLAST

Kolejnym narzędziem do przeszukiwania bazy danych GenBank, które może wyszukiwać podobieństwa do badanego białka jest program PSI BLAST (http://www.ncbi.nlm.nih.gov/blast/Blast.cgi). Działa bardzo podobnie do programu BLAST. Z tą różnicą, że po zakończeniu przeszukiwania bazy danych tworzy na podstawie znalezionych białek profil, którego używa do przeszukiwania bazy danych. Krok ten można powtarzać. W ten sposób możliwe jest wyodrębnienie sekwencji o bardzo niskim stopniu podobieństwa.





Rys. 3. Schemat działania programu PSI BLAST. [3 zmodyfikowane]


Postaci zapisu podobnych do siebie sekwencji aminokwasowych


Rys. 4. Postaci zapisu podobnych do siebie sekwencji aminokwasowych [4]

Konsensus- zapis sekwencji aminokwasów występujących w danym miejscu z największym prawdopodobieństwem w oparciu o porównanie wielu sekwencji. Profil- tablica prawdopodobieństw wyrażona w punktach występowania określonego aminokwasu w danym miejscu.

Po wyszukaniu podobnych białek w bazie danych bardzo często wyodrębniana jest sekwencja o najwyższym stopniu homologii i można dokładnie porównać te 2 sekwencje aminokwasowe. Do konstrukcji zestawienia 2 sekwencji nie jest wykorzystywany algorytm przybliżony, porównanie przeprowadzane jest znacznie dokładniejszymi metodami Służy do tego program EMBOSS Pairwise Alignment Algorithms (http://www.ebi.ac.uk/emboss/align/). Oczywiście najlepszym rozwiązaniem byłoby, bazę danych przeszukiwać tym algorytmem. Jest to jednak niemożliwe ze względu na czas jaki potrzebuje komputer do obliczeń. Zestawienie 2 sekwencji trwa ok. 1 sek., zestawienie 4 ok. 3 godzin, a zestawieni 5 sekwencji ok. 11 dni. Ze względów oczywistych przeszukanie bazy danych o tysiącach rekordów jest niewykonalne.
Motywy białkowe
Oprócz wyszukania w bazie danych białek homologicznych i podobnych do badanego białka warto jest wyszukać motywy w nim występujące. Motyw białkowy to sekwencja o określonej lub domniemanej funkcji będąca z reguły komponentem trójwymiarowej domeny. Na stronach instytutów bioinformatycznych dostępne są zdeponowane w bazach danych motywy białkowe o eksperymentalnie lub bioinformatycznie zdefiniowanej funkcji i pochodzeniu. Najprostszym sposobem wyodrębnienia w badanym białku jakichkolwiek motywów białkowych jest użycie programu Inter Pro Scan (http://www.ebi.ac.uk/InterProScan/). Inter Pro Scan ma dostęp do kilku baz danych i używając określonych metod jest w stanie bardzo szybko znaleźć motywy i całe domeny białkowe. Bardzo często uzyskane wyniki wskazują na funkcję białka, a przynajmniej jego przynależność do określonej grupy np. proteaz, ligaz, lipaz, czy innej grupy białek.
Czytelnik pragnący dokładniej zapoznać się z bazami danych motywów białkowych odsyłany jest do bardzo dobrego i konkretnego opisu dotyczącego programu Inter Pro Scan (ftp://ftp.ebi.ac.uk/pub/ software/unix/iprscan/README.html).


Struktura przestrzenna nowopoznanego białka

O funkcji białka i dokładnym mechanizmie jego biochemicznego działania najlepsze informacje można czerpać z jego struktury przestrzennej. Eksperymentalne określenie struktury 3D przeprowadzane jest za pomocą np. krystalografii rentgenowskiej. Problemem jest uzyskanie odpowiedniej ilości czystego białka oraz uzyskanie wysokiej jakości kryształów. Warunki krystalizacji muszą być dobrane do każdego białka eksperymentalnie. Bywa, iż praca ta jest długotrwała i mozolna, a uzyskane kryształy nie zapewniają odpowiedniej rozdzielczości i eksperymentalnie określona struktura nie spełnia wymagań jakości przez co  niemożliwe jest na jej podstawie wyciągniecie odpowiednich wniosków. Z pomocą przychodzą narzędzia bioinformatyczne, które pozwalają określić potencjalną strukturę przestrzenną białka. Najczęściej stosowaną metoda i najbardziej popularną jest tzw. modelowanie homologiczne (comparative protein modelling). W internecie jest wiele programów umożliwiających modelowanie homologiczne. Wszystkie działają w sposób bardzo podobny. Pierwszym etapem modelowania homologicznego jest wyodrębnienie matryc. Używany jest program BLAST lub FastA do wyszukania sekwencji aminokwasowych podobnych do badanego białka. Sekwencja najbardziej podobna według programu BLAST zostaje uznana jako sekwencja referencyjna (reference), która jest matrycą do konstrukcji potencjalnej struktury przestrzennej badanego białka. Uważa się, że, aby uzyskać odpowiedniej jakości potencjalną strukturę przestrzenną, struktura referencyjna powinna zawierać co najmniej 50% aminokwasów identycznych z sekwencją badanego białka [5].W pierwszym etapie sekwencja badanego białka przyjmuje identyczną strukturę 3D jak sekwencja matrycy. Następnie bardziej wyrafinowane metody są używane w celu optymalizacji uzyskanej sekwencji, ustalania orientacji łańcuchów bocznych aminokwasów oraz przewidywania położenia atomów Cα, dla których brak homologii w sekwencji referencyjnej. W tabeli zostały umieszczone nazwy serwerów i adresy URL kilku programów umożliwiających modelowanie homologiczne. Niestety, opis działania każdego z nich, możliwości jego zastosowań i dokładnego algorytmu znacznie przekracza rozmiary niniejszego artykuły. Zainteresowany czytelnik powinien zapoznać się z opisami dotyczącymi tych programów zamieszczonymi na stronach internetowych każdego z nich. Poniżej przedstawiono widok strony internetowej programu 3D Jury. Zasada działania jest prosta. Wystarczy wpisać nazwę badanego białka, podać e- mail, oraz sekwencję aminokwasową białka w formacie FASTA. Po kilu godzinach użytkownik otrzymuje e- mail z potencjalną strukturą białka w formacie *.pdb.





Programy dostępne darmowo do modelowania homologicznego i ich adresy internetowe


Program URL
3Djigsaw http://www.bmm.icnet.uk/servers/3djigsaw/
CPH Models http://www.cbs.dtu.dk/services/CPHmodels/
ESyPred3D http://www.fundp.ac.be/sciences/biologie/urbm/bioinfo/esypred/
Geno3d http://geno3d-pbil.ibcp.fr/cgi-bin/geno3d_automat.pl?page=/GENO3D/geno3d_home.html

Tabela. 1 Programy dostępne darmowo do modelowania homologicznego i ich adresy internetowe

Inną metodą uzyskiwania potencjalnej struktury przestrzennej są metaserwery. Są to serwery, które po wprowadzeniu on- line sekwencji badanego białka używają szeregu dostępnych w internecie programów do uzyskania struktury 3D. Zbierają wyniki i używając własnego algorytmu wybierają najbardziej prawdopodobną strukturę. Jednym z takich serwerów jest 3D Jury [6], którego używanie jest darmowe.
Niezależnie od sposobu określenia struktury 3D użytkownik w większości przypadków otrzymuje wynik mailem w formacie *.pdb. Plik ten zawiera informacje na temat współrzędnych w przestrzeni każdego z atomów w białku. Aby uzyskać obraz struktury 3D należy użyć programu do wizualizacji struktury przestrzennej. Najbardziej popularne są PyMol (http://pymol.sourceforge.net/) i Swiss-PdbViewer  (http://www.expasy.ch/spdbv/text/ download.htm). Programy te pozwalają nie tylko oglądać przestrzenną strukturę badanego białka, ale również dokonywać różnych manipulacji na tej strukturze. Możliwe jest wprowadzanie mutacji, a także, przy odpowiedniej wiedzy i doświadczeniu, optymalizacja uzyskanej struktury przestrzennej.

Immunoinformatyka

Immunoinformatyka to stosunkowo nowa dziedzina bioinformatyki, która jednak już na dobre znalazła swoje miejsce w biotechnologii i jest nieocenioną pomocą w badaniach nad szczepionkami, alergią, chorobami zakaźnymi i nowotworami.
Od kiedy Edward Jenner zauważył, że kobiety mające kontakt z wirusem krowianki nie chorują na ospę prawdziwą rozpoczęła się nowa era dla ludzkości w zapobieganiu chorobom zakaźnym- szczepienia profilaktyczne. Zasada działania szczepionek jest prosta. Organizm poddawany zostaje działaniu patogenu osłabionego lub zabitego. Układ immunologiczny po kontakcie z unieczynnionym patogenem „uczy się” go rozpoznawać, co czyni go przygotowanym na kontakt z chorobotwórczą formą patogenu, gdyż w tym momencie dysponuje już orężem, jakim są pamięć immunologiczna i przeciwciała. Szczepionka z osłabionego lub martwego patogenu zawiera kilka tysięcy różnych białek, ale często tylko kilka działa protekcyjnie i jest niezbędnych do prawidłowego działania szczepionki. Kolejnym problemem jest brak możliwości przewidzenia wszystkich skutków wprowadzania do organizmu tak wielkiej ilości obcych antygenów. Wiąże się to z ryzykiem wystąpienia alergii, bądź nietolerancją osobniczą. Innym problemem, szczególnie w przypadku chorób pasożytniczych, jest niemożność otrzymania odpowiedniej ilości materiału biologicznego do konstrukcji szczepionki na skalę przeysłową. Wobec takiego stanu rzeczy rozsądne wydaje się skupienie wysiłków naukowców na szczepionkach jednostkowych. Składają się one tylko z białek dających odporność. Antygeny immunogenne to nie tylko białka, ale omówienie innych biomolekuł np. cukrowów znacznie przekracza rozmiary tego opracowania, dlatego cała uwaga zostanie skupiona na białkowych antygenach szczepionkowych. Piętą Achillesową konstrukcji takiego preparatu jest wyodrębnienie białek kluczowych dla prawidłowego działania szczepionki. W Latach 70-tych Miller udowodnił, że homogenat z inaktywowanych promieniami X larw tęgoryjców daje odporność przeciwko tęgoryjczycy, jednak do tej pory nie udało się wyodrębnić antygenów protekcyjnych mimo ogromnych nakładów [7]. Fundacja Melindy i Billa Gates przeznaczyła na te badania kilkadziesiąt milionów dolarów.
Przy użyciu nowatorskich metod biologii molekularnej, immunologii i inżynierii genetycznej wyodrębniane są białka, z którymi wiązana jest nadzieja na konstrukcję szczepionki opartej o rekombinowane białka. Konstruowane są transgeniczne organizmy (bakterie lub drożdże) zawierające gen białka potencjalnie protekcyjnego. Po przekroczeniu odpowiedniej biomasy z bakterii izolowane jest rekombinowane białko, które ma szanse być wykorzystane jako szczepionka.

Układ immunologiczny

    Organizm dysponuje dwiema drogami obrony przed patogenami: odpowiedź nieswoista i swoista. Odpowiedź nieswoista jest pierwszą linią obrony. W jej skład wchodzą komórki żerne (makrofagi i granulocyty), dopełniacz, defenzyny, laktoferrytyna. Granica pomiędzy odpornością swoistą i nieswoistą jest umowna, gdyż obie te komponenty ściśle ze sobą współpracują. Istotną rolę w indukcji odpowiedzi swoistej mają komórki prezentujące antygeny (APC ang. Antigen Presenting Cells), do których należą komórki dendrytyczne, makrofagi i limfocyty B. Komórki dendrytyczne (DC, ang. Dendritic Cells) wędrują po organizmie fagocytując wszystkie antygeny, które napotkają na swojej drodze. Po procesie fagocytozy antygen ulega endocytolizie. Peptydy powstałe po degradacji białka łączą się z kompleksem MHC II i eksportowane są na powierzchnię komórki DC ( prezentacja antygenów w kontekście MHC II). Taki kompleks jest rozpoznawany przez limfocyt Th, który jeśli na swojej powierzchni posiadają TCR (T Cell Receptor), rozpoznający prezentowany akurat epitop, w zależności od innych czynników, indukuje odpowiedź immunologiczną.
Przedstawiona powyżej droga wzbudzania odpowiedzi immunologicznej ma miejsce w przypadku komórek APC, gdyż tylko one zdolne są prezentować antygeny w kontekście MHC II. Każda natomiast jądrzasta komórka ludzka jest w stanie prezentować antygeny w kontekście MHC I. Jeżeli komórka zostanie zaatakowana przez wirus, jego białka, podobnie jak białka komórki, degradowane są w proteasomie. Powstałe peptydy łączą się z TAP(Transporter associated with Antigen Processing) i transportowane są do retikulum endoplazmatycznego, gdzie łączone są z kompleksem MHC I, i eksportowane do zewnętrznej części błony komórkowej.

Interakcje MHC I ze związanym epitopem


Rys. 6. Interakcje MHC I ze związanym epitopem [8].


Efektywna szczepionka jednostkowa ma na celu powtórzenie przedstawionych wyżej mechanizmów. W zależności od samego antygenu, drogi podania, a także od zastosowanego adiuwantu wzbudzona zostaje odpowiedź Th1 lub Th2. Kolejnym problemem napotykanym przez naukowców jest ogromne zróżnicowanie alleli MHC. Zróżnicowane to powoduje, iż u różnych osobników szczepionka może działać z różną efektywnością.

Szczepionki

Kluczowym i pierwszym etapem konstrukcji szczepionki jednostkowej jest dobór odpowiedniego antygenu. Procedury eksperymentalne dostarczają czasem wielu potencjalnych antygenów szczepionkowych. Metodami bioinformatycznymi można z dużą dozą prawdopodobieństwa przewidzieć, czy konkretny antygen będzie wzbudzał odpowiedni typ odpowiedzi immunologicznej, lub czy w ogóle będzie wzbudzał jakąkolwiek odpowiedź immunologiczną.
    Badania wskazują, że tylko 1/2000 losowych peptydów może być efektywnie zaprezentowanych w kontekście MHC I i indukować odpowiedź immunologiczną. Najbardziej selektywnym etapem jest samo wiązanie zdegradowanych w immunoproteasomie peptydów przez kompleksy MHC I (1/200 peptydów statystycznie jest wiązanych) [9], mniej selektywnym etapem jest wiązanie przez TAP, bo już 1/7 peptydów może być związana przez ten kompleks [10]. Peptydem o preferowanej długości prezentowanym przez MHC I są 9 mery [11][12]. W internecie dostępnych jest szereg programów wyszukujących epitopy w białkach mogące być prezentowane przez konkretny allel MHC. Działają na zasadzie wyszukiwania motywów wiążących, odpowiednich matryc punktujących, HMM ( hidden Markov models), sztucznych sieci neuronalnych.
    Bardzo popularna jest metoda wyszukiwania motywów białkowych wiążących się do określonego MHC. Pierwszym krokiem do poznania takiego motywu jest eksperymentalne wyodrębnienie konkretnych epitopów wiążących się z określonym allelem MHC. Odbywa się  to przy użyciu bibliotek epitopów wiążących się z MHC lub przez określenie sekwencji peptydów związanych z MHC. Po uzyskaniu odpowiedniej sekwencji epitopów tworzona jest tabela  punktacji dla określonych aminokwasów. Poniżej przedstawiono przykładową  tabelę punktacji dla HLA-B*1510.



Aminokwas 1 2 3 4 5 6 7 8 9
A 0 0 1 0 0 0 0 1 0
C 0 0 0 0 0 0 0 0 0
D 0 0 0 1 0 0 0 0 0
E 1 0 1 1 0 0 0 1 0
F 0 0 0 0 0 0 0 0 6
G 0 0 0 1 1 0 0 0 0
H 0 10 0 0 0 0 0 0 0
I 0 0 0 0 0 1 0 0 0
K 0 0 0 0 0 1 0 0 0
L 0 0 0 0 0 0 0 0 10
M 0 0 0 0 0 1 0 0 6
N 0 0 0 0 1 0 0 0 0
P 0 0 0 2 1 0 1 0 0
Q 0 0 0 1 0 0 0 0 0
R 0 0 0 0 0 1 2 2 0
S 0 0 1 0 0 0