Biotechnologiczne bujanie w obłokach…

Osiągnięcia współczesnej nauki zapierają dech w piersiach. Nikt nie ma jednak wątpliwości, że większość z nich nie byłaby możliwa bez wykorzystania najnowocześniejszych technologii informatycznych. To, co łączy niemal wszystkie współczesne dziedziny badawcze – to olbrzymia ilość generowanych danych. Problem zaczyna pojawiać się wtedy, kiedy trzeba je przetworzyć.

Projekt everyheartbeat.org, o którym niedawno pisaliśmy, opiera się przede wszystkim na analizie zarejestrowanych informacji dotyczących pracy ludzkiego serca. A konkretnie – kilku miliardów serc. Jego pomysłodawcy chcą bowiem stworzyć największą publicznie dostępną bazę danych medycznych na świecie. I choć człowiek jest ponoć najdoskonalszym tworem natury, to jednak nawet olbrzymi zespół analityków nie poradzi sobie z szybkim i bezbłędnym opracowaniem wszystkich tych danych.

William Henry Gates III, czyli… Bill Gates – twórca informatycznego giganta, firmy Microsoft – miał ponoć powiedzieć w 1981 roku, że „640 kilobajtów pamięci powinno każdemu wystarczyć”. Słowa te odnosiły się do ilości danych, jakie komputer osobisty może pomieścić w danej chwili w tak zwanej pamięci operacyjnej. 640 kilobajtów, to 640 tysięcy pojedynczych bajtów. Mówiąc obrazowo – odpowiada to zwykłemu tekstowy o objętości 640 tysięcy znaków, czyli niespełna 366 stronom standardowego maszynopisu. To bardzo niewiele. I chociaż Gates wielokrotnie zaprzeczał, jakoby to on właśnie był autorem przytoczonych słów – czas pokazał, jak bardzo były błędne.

Biotechnologia – a w szczególności badania genetyczne – rozwijają się w olbrzymim tempie. Ilość generowanych informacji jest wprost niewyobrażalna. Przechowywanie tych danych na elektronicznych nośnikach to tylko jedna strona medalu. Druga natomiast – to ich analiza i przetworzenie. Wykorzystywane w wielu badaniach metody statystyczne, czy matematyczne obliczenia, są wyjątkowo skomplikowane. Wraz z ilością danych i poziomem zaawansowania eksperymentów, rośnie apetyt na moc obliczeniową.

„Moc obliczeniowa, do której mają dostęp polscy naukowcy, pozwala nam realizować prestiżowe projekty badawcze na równi z innymi krajami Europy. Z tak wyposażonymi ośrodkami doskonale wpisujemy się w rynek światowy, systematycznie wzmacniając naszą pozycję” - mówiła pod koniec 2010 roku podczas konferencji zorganizowanej przez firmę Hewlett-Packard Polska prof. dr hab. Maria E. Orłowska, ówczesna Sekretarz Stanu w Ministerstwie Nauki i Szkolnictwa Wyższego. (za Computerworld.pl – przyp.red.)

Faktycznie – nasze uczelnie mają dostęp do nowoczesnej wysokoprzepustowej sieci internetowej, a także wielu rozwiązań plasujących je w ścisłym światowym TOP500 pod względem dostępnej mocy obliczeniowej. Wszystko to zawdzięczamy między innymi wielu dotacjom z programów unijnych, ale także ciężkiej pracy i poświęceniu naukowców.

Rzecz w tym, że mowa tu o polskiej nauce jako o całości. Poszczególne uczelnie, a raczej pojedyncze laboratoria badawcze – często pozbawione są takich możliwości. Normą na krajowych uniwersytetach i akademiach są niewielkie, kilkuosobowe zespoły, które musza pracować – dosłownie! – w piwnicy i po godzinach. Po to, aby posiadać do wyłącznej dyspozycji nowoczesne zaplecze komputerowe, badacze muszą niejednokrotnie sami (prywatnie) występować o rozmaite granty, ponieważ ich macierzyste uczelnie najczęściej nie dysponują wystarczającymi funduszami własnymi. Pojawia się zatem pytanie: w jaki sposób można rozwiązać ten problem?

Czas na odlot

Odlot oczywiście w sensie informatycznym. Jedną ze święcących gigantyczne triumfy technologii jest tak zwany cloud computing¸ swojsko zwany po prostu „chmurą”. Pomimo romantycznej nazwy, rozwiązanie jest jak najbardziej realne i wyjątkowo praktyczne.

Model „chmury” polega na – mówiąc najprościej – dzierżawie nie tyle nawet sprzętu, co jego możliwości. Zamiast kupować drogie urządzenia, budować skomplikowaną infrastrukturę i zatrudniać dodatkowy personel do jej nadzorowania, po prostu wynajmujemy niezbędną moc obliczeniową. Zmiana ilości dostępnej pamięci operacyjnej, mocy procesora, czy pojemności dysku na którym przechowywać będziemy nasze dane, odbywa się na bieżąco, w miarę potrzeb i polega zwykle na kilku kliknięciach na specjalnej stronie internetowej.

Ale to nie wszystko. Korzystając z „chmury” nie musimy martwić się ani o bezawaryjność pracy, ani o to, czy nasze serwery są wystarczająco nowoczesne i wydajne. To wszystko odbywa się poza naszymi plecami.

Dla niewielkiego – a często także niezbyt hojnie finansowanego laboratorium – to rozwiązanie niemal idealne. Szczególnie kusząca wydaje się możliwość dowolnej zmiany parametrów „chmury” i o wiele niższe koszty w porównaniu do typowej infrastruktury informatycznej. Do przeprowadzenia na przykład skomplikowanych analiz genetycznych wystarczy jedynie stosowne oprogramowanie zainstalowane właśnie „w chmurze”. Wyniki sprawdzić można na „pierwszym lepszym” komputerze osobistym, podobnie również można kontrolować pracę programu.

„Chmury obliczeniowe pozwalają dostosować moc obliczeniową do aktualnych, często chwilowych potrzeb – na przykład na czas przetwarzania priorytetowych danych lub w czasie peaków (nagłych i krótkotrwałych wzrostów – przyp.red.) ruchu w Internecie. Zrealizowanie tych potrzeb w tradycyjnym środowisku wymagałby zakupu serwerów o maksymalnej mocy obliczeniowej zdolnej do obsłużenia wcześniej wymienionych potrzeb, w chmurze dostępne zasoby zmienia się dynamicznie i płaci się tylko w momencie ich wykorzystywania - co daje wymierne efekty w postaci oszczędności ponoszonych kosztów w porównaniu do tradycyjnego środowiska.” – tłumaczy Fabian Rolof, Senior Cloud Architect z firmy e24cloud.com.

Chmury, geny i nauka

Chociaż technologia chmur obliczeniowych przebojem zdobywa rynek IT, to niewiele słyszy się o zastosowaniu jej w nauce. Jednym z ciekawszych przykładów może być jednak inicjatywa firmy DNAnexus. Chociaż sekwencjonowanie genomu ludzkiego jest dziś w miarę szybkie i stosunkowo tanie, to niestety wciąż problematyczne jest analizowanie wszystkich zgromadzonych danych.

Andreas Sandquist, szef i założyciel firmy, postanowił wykorzystać do tego właśnie „chmurę”. Pomysł skierowany jest przede wszystkim do badaczy akademickich oraz firm farmaceutycznych i biotechnologicznych. „Im więcej danych – taniej i szybciej – produkujemy, tym węższym gardłem staje się zarządzanie nimi” – uważa Sandquist (za Technology Review).

Jak to działa? Laboratorium wgrywa zebrane dane – na przykład wyniki sekwencjonowania DNA – do chmury obliczeniowej DNAnexus poprzez zwykłą przeglądarkę internetową lub też bezpośrednio z podłączonego do Internetu urządzenia sekwencjonującego. Wszystkie analizy i obliczenia odbywają się poza laboratoryjną infrastrukturą komputerową, tym samym jej nie obciążając, a w konsekwencji – znacznie obniżając koszty jej funkcjonowania. W każdej chwili można zalogować się do systemu i sprawdzić aktualny stan procesu analizy.

Co więcej – dzięki takiemu rozwiązaniu możliwe będzie w przyszłości również znacznie łatwiejsze utworzenie dużej, ogólnodostępnej wspólnej bazy wyników analiz, co powinno znacznie ułatwić i przyspieszyć prowadzone badania.

O skali przetwarzanych informacji dobitnie świadczą szacunki DNAnexus. Specjaliści oceniają, że jak dotąd na świecie około 20 000 genomów zostało w pełni zsekwencjonowanych. W ciągu najbliższych kilku lat liczba ta wzrośnie do miliona. To oznacza ponad eksabajt danych. Przywołując znów przykład z początku tekstu – oznacza to sporo ponad 555 555 555 555 książkowych tomów po 1000 stron standardowego maszynopisu każdy. Możliwość przetworzenia takiej ilości informacji w konwencjonalny sposób balansuje na granicy wykonalności, a w każdym razie daleko przekracza finansowe możliwości wielu – nawet największych – laboratoriów na świecie.

„Rozwiązania opierające się na serwerach w chmurze dają przede wszystkim nieograniczoną moc obliczeniową, a co za tym idzie pozwalają na szybsze przetworzenie danych, niż ma to miejsce w przypadku serwera dedykowanego. Kolejną zaletą jest możliwość skalowania zasobów i tym samym elastyczne dopasowywanie ich do swoich aktualnych potrzeb. W praktyce przekłada się to na zwiększanie mocy kiedy tylko to jest potrzebne i zmniejszanie kiedy serwer nie przetwarza danych.” – wyjaśnia Fabian Rolof z e24cloud.com.

Polska w obłokach

Rozwiązania oparte na cloud computing okazują się na tyle elastyczne i opłacalne z ekonomicznego punktu widzenia, że powoli zaczynają je doceniać polskie uczelnie. Technologia dotąd „zarezerwowana” – a raczej zaadoptowana – dla przedsiębiorstw reprezentujących w mniejszym lub większym zakresie branżę informatyczną, znajduje coraz szersze zastosowanie także w innych dziedzinach.

Korzystanie z serwerów w „chmurze” rozważa coraz więcej szkół wyższych oraz instytucji. „Zainteresowanie naszą usługą wyrażał Wydział Biologii Uniwersytetu Warszawskiego, upatrując w chmurze szansę na przetwarzanie danych niezbędnych do prac naukowych” – mówi Rolof.

Biorąc pod uwagę ceny wynajmu chmur obliczeniowych oraz ich możliwości, a przede wszystkim wygodę, skalowalność i wysoką niezawodność działania – warto zwrócić uwagę na to rozwiązanie. Być może sieci uczelniane z dostępem do akademickich superkomputerów (których jest niezbyt wiele, ale jednak są) mogą wydawać się wciąż najbardziej efektywnym sposobem prowadzenia obliczeń. Przykład chociażby firmy DNAnexus pokazuje jednak, że podążanie za współczesnymi modami i nowymi technologiami bywa całkiem opłacalne.

Czyżby zatem przyszła pora, aby i polska biotechnologia wzbiła się w obłoki?

Adam Czajczyk

grafika: Sam Johnson (lic. CC), zdjęcie: Simon Eugster (lic. CC)