Biotechnologia.pl
łączymy wszystkie strony biobiznesu
Przejrzyście i dokładnie, czyli graficzne i liczbowe metody prezentacji danych – powtórka przed sesją
Przejrzyście i dokładnie, czyli graficzne i liczbowe metody prezentacji danych – powtórka p
Masz napisać badawczą pracę inżynierską, magisterską, albo chociażby przygotować prezentację z wynikami przeprowadzonych doświadczeń. Surowe dane analizuje się bardzo ciężko i z reguły nie ma sensu ich przedstawiać. Trzeba je zatem jakoś przekształcić. I tu często pojawia się problem. Siadamy i zaczynamy się głowić jak zilustrować dane tak, aby wyglądały estetycznie i jednoznacznie wskazywały na uzyskany rezultat badań. Nie ma sensu jednak załamywać rąk i stwierdzać: "nie da się" – zawsze się da tylko trzeba wiedzieć jak!

 

METODY GRAFICZNE

Pierwszym etapem przy wyborze sposobu graficznej prezentacji danych jest decyzja jakiego typu dane posiadamy oraz co chcemy przekazać odbiorcy. Rezultaty uzyskiwane z badań biologicznych i chemicznych zasadniczo można podzielić na dwie kategorie:

- jakościowe – stwierdzające czy mamy do czynienia z występowaniem określonej cechy czy też nie – np.  produkcja wybranego białka w komórce,

- ilościowe – w postaci liczb odpowiadających wartościom mierzonej wielkości, np. wydajności reakcji;

Dane jakościowe

Dane jakościowe najłatwiej jest przedstawić w postaci wykresu słupkowego. Na jednej osi (najczęściej poziomej) zaznaczamy klasy obiektów pod względem analizowanej cechy, a na drugiej (pionowej) liczbę obiektów należących do danej klasy. Kolejność klas na wykresie jest dowolna, a jej zmiana w żaden sposób nie wpływa na ilość i jakość prezentowanej informacji. Jednocześnie, jeżeli istnieje jakaś naturalna kolejność klas wynikająca z charakteru zjawiska (np. fazy cyklu życiowego komórek) to kolejność ta powinna zostać zachowana. Na wykresach słupkowych można przedstawić nie tylko dane „surowe” czyli liczebności poszczególnych klas, ale również wyniki przeliczone na frakcje (ułamki) obiektów w poszczególnych klasach. Jednocześnie kształt wykresu nie jest zależny od tego jaką formę danych prezentujemy.

Przy graficznym porównywaniu kilku serii wyników stosować można wykresy dwu- lub trójwymiarowe. Każdy z nich ma swoje wady i zalety. Wykresy dwuwymiarowe są łatwiejsze w wykonaniu, natomiast w trzech wymiarach można zawrzeć więcej cech i przedstawić korelacje między nimi oraz trendy zmian.

Analogicznie do wykresu słupkowego można sporządzić wykres kołowy. W tym wypadku najczęściej udział każdej z klas przedstawia się w formie procentu z całości populacji.

Jak widać poniżej pracy nie jest zbyt wiele, a wyniki wyglądają zdecydowanie lepiej niż zwyczajnie zebrane w tabeli (przykład dla ilości osobników o określonym ubarwieniu w analizowanej populacji ptaków - 5 białych, 7 czarnych, 11 mieszanych)

                           Rys.1. Wykres słupkowy i kołowy – najpopularniejsze metody prezentacji danych jakościowych

 

Dane ilościowe

W przypadku częściej opracowywanych, danych ilościowych sytuacja nieco bardziej się komplikuje...ale i z tym damy sobie radę. Tutaj należy zwrócić uwagę na ilość wyników jakie chcemy przedstawić, a więc statystycznie mówiąc, liczebność serii (dla ułatwienia oznaczana jako n). Celem prezentacji graficznej danych ilościowych jest z reguły określenie charakteru rozkładu wyników oraz identyfikacja punktów odbiegających. Tak więc, jeżeli mamy do czynienia z: 

- małą serią pomiarów (n<20) – przy takiej liczebności prób można jedynie zidentyfikować punkty odbiegające. W tym celu należy wykonać wykres rozproszenia, w którym na osi pionowej nanosimy punkty odpowiadające wynikom pomiarów. Wyniki pochodzące z jednomodalnej i symetrycznej populacji będą się grupować w pobliżu środka, a rozrzut wyników skrajnych będzie w przybliżeniu symetryczny. Wykres rozproszenia pozwala zatem na wysunięcie hipotezy o istnieniu potencjalnych punktów odbiegających, jednak aby ostatecznie potwierdzić to przypuszczenie należy wykonać statystyczną kontrolę danych.

„Ulepszoną” wersję wykresu rozproszenia stanowi wykres przedziałowy, popularnie nazywany wykresem typu „skrzynka z wąsami”. Został on uzupełniony o wyniki podstawowej analizy statystycznej, dzięki czemu zawiera dużo więcej informacji. Poza surowymi danymi nanosi się na niego również  wartości średniej arytmetycznej i odchylenia standardowego oraz przedział ufności pojedynczego pomiaru (1-α, gdzie α jest poziomem istotności, w badaniach biologicznych przyjmowanych często jako 0,05). Skąd zatem nazwa „skrzynka z wąsami”? Oba elementy zaznacza się bowiem na wykresie – granice „skrzynki” stanowią wartości średnia ± odchylenie standardowe, a „wąsy” wyznacza przedział ufności pojedynczego pomiaru. Jeżeli wyniki pochodzą z populacji o rozkładzie normalnym lub zbliżonym do normalnego to 2/3 rezultatów powinno się „mieścić w skrzynce z wąsami”. Punkty zlokalizowane na granicy lub poza zaznaczonym obszarem świadczą zwykle o istnieniu punktów odbiegających.

Rys.2. Przykładowy wykres typu „skrzynia z wąsami” – różowe kwadraty wyznaczają wartości średniej arytmetycznej, odchylenia standardowego oraz przedziały ufności pojedynczego pomiaru. Brak punktów odbiegających, można założyć normalny charakter rozkładu danych.

 

- średnią serią pomiarów (20 < n < 50) – tutaj wykresy rozproszenia i przedziałowe stają się zupełnie nieczytelne. Trzeba zatem znaleźć inny sposób prezentacji wyników. Na ratunek przychodzą histogramy i wykresy kwantylowe.

Histogramy umożliwiają ocenę charakteru rozkładu, a także wykrycie wielomodalności oraz punktów odbiegających. Pierwszym (i w zasadzie najważniejszym) krokiem do wykonania poprawnego histogramu jest dobór ilości jego przedziałów. Przyjęcie zbyt dużej lub zbyt małej ich liczby zwiększa wrażliwość na przypadkowe wartości wyników pomiarów i trudno na ich podstawie wyciągnąć jakiekolwiek wnioski ogólne. Najważniejsze 5 zasad konstrukcji histogramu przedstawia grafika poniżej.

 

Wykres kwantylowy dostarcza jeszcze bardziej szczegółowych informacji, jest jednak nieco trudniejszy w wykonaniu. Jeżeli bowiem rozkład punktów z próby odbiega od rozkładu normalnego to umożliwia on ocenę jakiego rodzaju jest to odstępstwo.

Na pewno pierwszym pytaniem jest – co to w ogóle jest kwantyl? Według definicji kwantylem rzędu i/n, xi/n, (i = 1, 2, ..., n-1, n) jest taka wartość cechy mierzalnej X, że w przedziale (-∞,xi/n] znajduje się 100(i/n)% wyników pomiarów. Mówiąc bardziej przystępnie – kwantylem rzędu 1/n jest najmniejszy wynik, a kwantylem rzędu n/n – wynik największy. Jeżeli za n przyjmiemy liczbę wyników w próbie (a tak się z reguły robi), to kolejne kwantyle odpowiadają kolejnym, uszeregowanym rosnąco wynikom pomiarów. Tak więc należy uporzadkować wyniki rosnąco i przyporządkować im kolejne kwantyle, a następnie nanieść na oś pionową kwantyle, a na oś poziomą wartości zmierzonego parametru.

Rys.3. Przykładowy histogram (u góry) oraz wykres kwantylowy (na dole) dla tego samego zestawu danych. Widoczny rozkład zbliżony do normalnego o lekkiej tendencji do prawoskośności.

 

- dużą serią pomiarów (n > 50) – w przypadku prezentacji graficznej bardzo licznych prób najlepiej sprawdzają się wykresy kwantylowe oraz histogramy.  Można wykorzystać również wykresy typu „skrzynka z wąsami” w różnych wersjach umożliwiających przedstawienie pożądanych aspektów rozkładu analizowanej serii danych. Zmniejszenie ilości umieszczanych na wykresie punktów jest konieczne ze względu na czytelność rysunku. I tak, możemy np. skonstruować wykres typu „skrzynka z wąsami” analogiczny jak dla małej serii pomiarów, przy czym zaznaczamy na nim tylko wyniki znajdujące się poza przedziałem ufności – na tej podstawie wysuwamy hipotezę o istnieniu punktów odbiegających. Inną wersją jest tak zwany typ kwartylowy, wykorzystujący właściwości kwartyli, czyli ćwiartek. Kwartylem rzędu i (i = 0, 1, 2, 3 lub 4), qi, jest liczba spełniająca warunek, że na lewo od niej znajduje się i/4 wyników pomiarów.  Na tego typu wykresach zaznacza się medianę (czyli kwartyl rzędu 2), krańce skrzynki stanowią odpowiednio kwartyle rzędu 1 i 3. Zgodnie z definicją kwartyli w tym zakresie znajduje się połowa ogólnej liczby wyników. „Wąsy” wyznaczają kwartyle rzędu 0 i 4, czyli wyniki najmniejszy i największy.  Analiza wykresu kwartylowego polega na ocenie wzajemnych relacji pomiędzy poszczególnymi kwartylami. W przypadku wyników pochodzących z populacji generalnej o symetrycznym, jednomodalnym rozkładzie mediana powinna się znajdować w połowie „skrzynki”, a oba „wąsy” powinny mieć podobną długość. Odstępstwa od tych zasad mogą być spowodowane asymetrycznością rozkładu (mediana nie znajduje się w połowie skrzynki) lub obecnością punktów odbiegających (wąsy wyraźnie różnej długości). Ze względu na trudność oceny wielomodalności rozkładu na podstawie wykresów kwartylowych, są one stosowane jako uzupełnienie innych metod wizualizacji danych, takich jak histogramy lub wykresy kwantylowe.

 

METODY LICZBOWE

Metody graficzne ułatwiają interpretację danych, jednak z reguły nie są wystarczające. Dopiero ilościowy opis serii wyników umożliwia kompletną analizę i ocenę rezultatów.  Aby odbiorca mógł ocenić jakość i wiarygodność uzyskanych wyników, należy je matematycznie prawidłowo przedstawić na każdym etapie, a więc podczas gromadzenia danych, zbiorczego opisu wyników pomiarów oraz zastosowania testów statystycznych.

 

Dane surowe – kto z nas nie zna problemu pt. „ile miejsc po przecinku ma mieć wynik”? Jestem pewna, że nie raz każdy się nad tym zastanawiał – bo więcej cyfr znaczących to dokładniej, ale mniej to bardziej przejrzyście.  Kompilacja teorii i praktyki wskazuje, że w tym wypadku należy rozróżnić dwie sytuacje:

1) wynik pomiaru jest odczytywany na skali przyrządu – tu decyduje podziałka na jego skali. Jako zasadę przyjmuje się, że odczytu dokonujemy z dokładnością połowy jednostki na skali.

2) wynik ma postać cyfrową, czyli mamy mnóstwo cyfr znaczących wygenerowanych komputerowo – jeżeli pomiar dokonywany jest w czasie rzeczywistym to zwykle jedna lub kilka ostatnich cyfr zmienia się w czasie pomiaru. Wówczas wynik prezentujemy z taką liczbą cyfr znaczących jaka odpowiada ustalonym wskazaniom wyświetlacza.  Jeżeli natomiast, aby uzyskać wynik, wskazanie sprzętu należy poddać dodatkowym przeliczeniom to przyjmujemy, że wynik końcowy ma tyle cyfr znaczących ile ma ich najmniej dokładna wartość liczbowa używana podczas przeliczeń (np. jeżeli y=12,39x+1,794, gdzie x to wskazanie aparatu, a y to rezultat liczbowy to wynik zapisujemy z dwiema cyframi „po przecinku”). Jednocześnie należy pamiętać, że w przypadku większej ilości manipulacji matematycznych zaokrąglamy dopiero wynik końcowy, a obliczenia pośrednie prowadzimy z pełną dokładnością. 

 

Zbiorczy opis wyników – parametrów do opisu zestawu danych statystyka zna mnóstwo. W badaniach biologicznych i biotechnologicznych interesuje nas zwykle jednak jaka jest struktura danych, czyli jaka część badanych obiektów wykazuje daną cechę. W związku z tym interesować nas będą wskaźniki opisujące:

  • położenie wyników pomiarów na osi liczbowej, czyli tak zwane miary tendencji centralnej; 
  • rozrzut pomiarów wokół wartości przeciętnej, czyli miary rozproszenia;
  • asymetrię rozmieszczenia pomiarów wokół wartości przeciętnej; 

Wszystkie najważniejsze parametry należące do wyżej wymienionych grup zebrano w tabeli 1

 

Analiza statystyczna – końcowy etap analizy wyników często stanowi testowanie hipotez statystycznych. Jest to jednak dość obszerny temat i nie jest przedmiotem naszego zainteresowania. Warto jednak zaznaczyć, że przy prezentacji wyników testów statystycznych należy zawsze jednoznacznie zdefiniować:

  • użyty test statystyczny - poprzez podanie jego nazwy, wersji lub opisać model zastosowany do obliczeń
  • hipotezę zerową i alternatywną
  • wartości krytycznej statystyki (obszar krytyczny, ilość stopni swobody)
  • wynik testu

Pamiętajmy zatem, że dobrze zaprezentowane dane to połowa sukcesu i do dzieła!

Źródła

materiały własne

KOMENTARZE
Newsletter