Europejskie zasady certyfikacji kosmetyków naturalnych i organicznych

Abstrakt:

„Zły dobór metod statystycznych może dotyczyć zarówno postępowania analitycznego a priori, jak i a posteriori. Z jednej strony, błędy popełniane na już na wstępnym etapie planowania eksperymentu naukowego (w praktyce jest to najczęściej po prostu nieplanowanie doświadczeń od strony statystycznej) urąga dobrym obyczajom w pracy naukowej oraz prowadzi do trudności lub nawet niemożności poprawnego opracowania wyników badania, a często także do zwielokrotnienia jego kosztów. Z drugiej, gdy zebrane już wyniki analizujemy przy zastosowaniu niewłaściwie dobranych metod statystycznych – wnioski naszych badań mogą być wypaczeniem lub przekłamaniem rzeczywistości (np. stwierdzając zależności nie istniejące w rzeczywistości).”

Algorytm przeprowadzenia eksperymentu naukowego – spojrzenie statystyka
Budowanie i weryfikacja hipotez statystycznych - błędy statystyczne i co z nich wynika?
Jak dobierać istotność testu? Prosta weryfikacja czy eksploracja statystyczna?
Test jednostronny czy obustronny?
Planowanie i schemat doświadczenia – użyteczność kwadratów łacińskich i grecko-łacińskich.
Planowanie i schemat doświadczenia – próbkowanie i szacowanie liczebności próby badanej.
Randomizacja – na czym polega i jakie z niej mamy korzyści?
Transformacje „surowych” danych – po co i jak je przeprowadzamy?
Dane odstające – jak zdecydować co odrzucić a co zostawić?
Najczęściej popełniane błędy w statystycznej analizie danych

Zły dobór metod statystycznych może dotyczyć zarówno postępowania analitycznego a priori, jak i a posteriori. Z jednej strony, błędy popełniane na już na wstępnym etapie planowania eksperymentu naukowego (w praktyce jest to najczęściej po prostu nieplanowanie doświadczeń od strony statystycznej) urąga dobrym obyczajom w pracy naukowej oraz prowadzi do trudności lub nawet niemożności poprawnego opracowania wyników badania, a często także do zwielokrotnienia jego kosztów. Z drugiej, gdy zebrane już wyniki analizujemy przy zastosowaniu niewłaściwie dobranych metod statystycznych – wnioski naszych badań mogą być wypaczeniem lub przekłamaniem rzeczywistości (np. stwierdzając zależności nie istniejące w rzeczywistości).

Algorytm przeprowadzenia eksperymentu naukowego – spojrzenie statystyka

Schemat postępowania w planowaniu doświadczenia nie jest dowolny. Przystępując do wykonania eksperymentu naukowego w myśl sprawdzenia pomysłu, koncepcji czy hipotezy musimy wiedzieć jak brzmi ta hipoteza i czego mamy bronić lub co obalać. Przypadkowe i szeroko zakrojone zbieranie wyników, a następnie porządkowanie ich w różnych konfiguracjach w celu sprawdzenia zależności statystycznych czy różnic między nimi, jest nieporozumieniem i przeczy racjonalnemu podejściu w pracy naukowej. Wyniki doświadczeń naukowych zbieramy zawsze i opracowujemy z myślą o udowodnieniu postawionej wcześniej hipotezy, a nie odwrotnie. Próby „wykrojenia” koncepcji badawczej na podstawie zebranych wcześniej (najczęściej w sposób chaotyczny, gdyż bez wcześniejszego zamysłu celowego działania) danych pomiarowych jest działaniem po omacku i może sprawiać wrażenie manipulacji naukowej. W takim rozumieniu idei pracy naukowej przez doświadczonych badaczy, wdrukowanie sobie nawyku właściwego planowania pracy doświadczalnej jest podstawą uczciwej i wiarygodnej działalności naukowej. Oczywiście konieczność budowania schematu czy planu naukowego nie wyklucza sytuacji, gdy przypadkowo zgromadzimy dane doświadczalne pozwalające na udowodnienie jakiejś koncepcji, z której wcześniej nie zdawaliśmy sobie sprawy. Przykładem takiej sytuacji mogą być doniesienia kazuistyczne, których koncepcje powstają w oparciu o zbierane na gorąco obserwacje. Algorytm właściwego zaplanowania eksperymentu można przedstawić następująco:

Określenie problemu badawczego można sprowadzić do próby odpowiedzi na następujące pytania:
Sprecyzowanie jak brzmi hipoteza badawcza: co chcemy sprawdzić i udowodnić lub na jakie pytanie/a odpowiedzieć?
Wybranie właściwego testu statystycznego
Właściwy wybór/dobór próby badanej

Zastanawiając się nad właściwym doborem grupy badanej warto odpowiedzieć sobie na następujące pytania:
Ile pomiarów musimy wykonać aby udowodnić słuszność hipotezy statystycznej? Czy jeżeli przebadamy dużą (w naszym przekonaniu) liczbę osobników możemy mieć pewność, że wiarygodnie wypowiemy się o braku lub występowaniu różnic istotnych statystycznie? Na czym opieramy swoją ocenę jak duża powinna być grupa? Czy prowadzimy badania dopóty dopóki wystarczy nam środków finansowych czy wykonujemy ściśle określoną liczbę pomiarów? Czy takiej estymacji dokonujemy a priori czy a posteriori ? (zob. Literatura).

Zebranie danych
Jednym z podstawowych warunków poprawnego zebrania danych doświadczalnych sprostanie wymaganiu, aby elementy próby badanej zostały wybrane w sposób losowy. Jak to zrobić ? Służą nam do tego metody randomizacji, zasygnalizowane poniżej, a dokładniej omówione w bardziej szczegółowych opracowaniach analizy statystycznej (zob. Literatura).
Zastosowanie właściwego testu statystycznego oraz zadecydowanie o wyniku doświadczenia.

Budowanie i weryfikacja hipotez statystycznych - błędy statystyczne i co z nich wynika ?

Hipoteza badawcza jest stwierdzeniem precyzującym istnienie jakiejś zależności, różnicy, mechanizmu funkcjonowania, prawdopodobieństwa zachodzenia procesu, itp. Możemy ja uważać za hipotetyczny scenariusz procesu biologicznego, który badamy. Hipoteza statystyczna, dla odmiany, jest zapisem matematycznym. Jest równością/nierównością matematyczną, którą weryfikujemy. Pojedyncza hipoteza statystyczna dotyczy fragmentu hipotezy badawczej, a każdą koncepcję badawczą można sprowadzić do kilku/kilkunastu hipotez statystycznych – każda z nich będzie rewidowała słuszność pojedynczych porównań.
Formuła stawiania hipotez statystycznych jest ustalona – nie ma tutaj dużej dowolności, jakie powinno być brzmienie hipotezy zerowej, a jakie hipotezy alternatywnej. Wynika to z faktu, że możliwe jest jedynie odrzucenie hipotezy zerowej (z określonym prawdopodobieństwem), ale nigdy udowodnienie jej prawdziwości. Przyjęło się, że hipotezy statystyczne zestawia się parami w taki sposób, aby hipoteza podstawowa (tzw. zerowa, zakładająca niewystępowanie różnic, μ1 = μ2) i przeciwstawna do niej hipoteza alternatywna (zakładająca występowanie różnic, μ1 != μ2) wzajemnie się wykluczały.
Zasadą udowadniania prawdziwości nierówności μ1 != μ2 przy użyciu testu statystycznego jest obliczanie tzw. statystyki testu w oparciu o zebrane dane pomiarowe. Jeżeli statystyka porównania dwóch średnich jest równa zeru, to oznacza to, że dwie średnie są identyczne. Czym bardziej wartość testu odbiega od wartości 0 tym większe jest prawdopodobieństwo, że średnie są różnią się istotnie od siebie w sposób nieprzypadkowy. Innymi słowy, im większa jest wartość obliczonej statystyki, tym mniejsze są szanse, że hipoteza zerowa jest prawdziwa, oraz że obliczona różnica jest dziełem przypadku a nie prawidłowością. O prawdziwości czy fałszywości hipotez statystycznych możemy orzekać z określonym prawdopodobieństwem mniej lub bardziej różnym od 1, a nigdy z zupełną pewnością. Jeżeli nie mamy podstaw do zaprzeczenia hipotezy, to nie może być ona odrzucona, ale nie oznacza to że jest prawdziwa. Oznacza to, iż zakładamy możliwość pomyłki: błędnego odrzucenia „prawdziwej” hipotezy zerowej lub błędnego przyjęcia „fałszywej” hipotezy zerowej. Ryzyko takiej pomyłki, zdefiniowane jako prawdopodobieństwo jej popełnienia, określa wartości dwóch błędów statystycznych testowania hipotez. Jeżeli mylnie odrzucamy prawdziwą hipotezę zerową, to popełniamy błąd I rodzaju (błąd α), jeżeli zaś mylnie nie odrzucamy fałszywej hipotezy zerowej, to popełniamy błąd statystyczny II rodzaju (błąd β). Pamiętajmy, że istotność wyniku testu statystycznego to prawdopodobieństwo popełnienia błędu α, zaś prawdopodobieństwo odrzucenia fałszywej hipotezy zerowej to moc testu.

Obrazuje to dlaczego staramy się wybierać zawsze testy o możliwie największej mocy – właśnie po to, aby zminimalizować ryzyko przyjęcia „fałszywej” hipotezy zerowej. Silne testy prowadzą nas pewniej do wiarygodnego odrzucenia nieprawdziwej hipotezy zerowej, o ile testowana różnica naprawdę istnieje. Jak precyzujemy brzmienie hipotezy zerowej ? Najczęściej, hipoteza ta jest zaprzeczeniem tego, o czym mówi nam teoria badacza – nasza teoria, której prawdziwość weryfikujemy doświadczalnie. Jest tak dlatego, że najczęściej zależy nam na wykazaniu istnienia jakichś odmienności, różnic, jakiegoś związku, itp. Zatem to w co wierzymy, to co precyzuje nasza teoria badacza, odpowiada temu, co mówi hipoteza alternatywna, która chcemy zaakceptować. W testowaniu hipotez statystycznych możemy stosować strategię typu reject-support, w której odrzucenie hipotezy zerowej wspiera teorię badacza, lub strategię typu accept-support, w której nieodrzucenie hipotezy zerowej wspiera teorię badacza. W testowaniu typu reject-support dbamy o to, aby wnioskować z jak najniższą istotnością, ale odbiorcom zależy także na tym, aby moc naszego wnioskowania była jak najwyższa. Zasadnie wysoka liczebność próby sprzyja minimalizacji ryzyka popełniania błędu I i II rodzaju. W testowaniu typu accept-support dbamy o to, aby wnioskować z jak największą mocą, po to by minimalizować ryzyko błędnego nieodrzucenia fałszywej hipotezy zerowej. Odbiorcom zależy jednak także na zmniejszaniu ryzyka popełnienia błędu I rodzaju, czyli minimalizowaniu ryzyka mylnego odrzucenia hipotezy zerowej. W tym przypadku nadmiernie wysoka liczebność próby „działa przeciwko” badaczowi, gdyż nawet trywialne, niewielkie różnice mogą prowadzić do pochopnego odrzucenia hipotezy zerowej.

Jak dobierać istotność testu ? Prosta weryfikacja czy eksploracja statystyczna ?

Czym właściwie jest istotność testu statystycznego? Większość nowoczesnych obszernych pakietów statystycznych oferuje nam nie tylko prostą odpowiedź zero-jedynkową TAK/NIE przy weryfikacji prawdziwości hipotezy zerowej, lecz pozwala na dogłębniejszą eksplorację i dokładniejszą ocenę prawdopodobieństwa, z jakim możemy popełnić błąd odrzucając prawdziwą hipotezę zerową. Tradycyjnie zwykło się przyjmować, przynajmniej w naukach przyrodniczych czy biomedycznych, iż p < 0.05 stanowi wystarczające kryterium uprawniające do odrzucenia hipotezy zerowej. Zauważmy jednak, iż przyjmowana wartość p (co ważne i zgodne z regułami „sztuki statystycznej”: przyjmowana w oparciu o nasze założenia wstępne, koniecznie przed weryfikacją statystyczną i wykonaniem obliczeń, nie zaś po wyliczeniu wartości statystyki testu i dopasowaniu tablicowego „p”) ma określony sens statystyczny. Oznacza, że godzimy się z faktem, iż na 100 podejmowanych decyzji odrzucenia „nieprawdziwej” hipotezy zerowej w 5 przypadkach popełnimy błąd statystyczny I rodzaju, czyli odrzucimy hipotezę, która niekoniecznie jest nieprawdziwa. Powinniśmy mieć świadomość, że to co dobre w niektórych rodzajach badań w naukach przyrodniczych, nie jest często do zaakceptowania np. w badaniach medycznych. Bo czyż łatwo pogodzimy się z 5 mylnymi diagnozami na każde 100 podejmowanych decyzji klinicznych ? Na pewno nie. Toteż, zwłaszcza w badaniach medycznych tak duże znaczenie ma podejście eksploracyjne, nie zero-jedynkowe lecz właśnie analogowe, wyznaczające dokładną wartość prawdopodobieństwa niesłusznego odrzucenia prawdziwej hipotezy zerowej, czyli wykrycia różnic (wywołanych np. przez toczący się proces patologiczny), tam gdzie w rzeczywistości one nie występują.

Test jednostronny czy obustronny ?

Nasze pytanie o różnicę między wynikiem a wartością hipotetyczna można postawić w dwojaki sposób. Możemy zapytać, czy istnieje w ogóle jakakolwiek istotna różnica – w górę lub w dół – nieważne czy nasz wynik będzie mniejszy albo większy od teoretycznej przyjętej a priori wartości, ale powinien od niej być różny. W takim przypadku pomijamy znak obliczonej wartości statystyki testu, ponieważ oczekujemy, iż w przypadku istotnej różnicy wynik ten będzie położony albo na lewym (gdy będzie mniejszy od teoretycznej wartości µ=0) albo na prawym (wtedy gdy będzie większy od hipotetycznej wartości µ=0) krańcu rozkładu, w jego najbardziej peryferyjnych regionach nie objętych tym obszarem pola pod krzywą, który odpowiada przyjętemu przez nas prawdopodobieństwu (np. dla wartości prawdopodobieństwa 95% to ‘resztkowe’ pole na peryferiach rozkładu będzie wynosiło 5%, czyli po 2.5% po każdej stronie wartości średniej umieszczonej centralnie). W takim przypadku mamy do czynienia z testem obustronnym – niezależnie, od tego w którym obszarze istotności statystycznej symetrycznego rozkładu – prawym czy lewym – znajdzie się wynik, nazwiemy go wynikiem istotnie statystycznie różnym od wartości hipotetycznej. Test obustronny wybieramy w sytuacjach, gdy nie mamy wystarczającej wiedzy o badanym zjawisku, a w szczególności, gdy nie znamy kierunkowości oczekiwanych zmian. Test weryfikuje, czy jest prawdopodobne występowanie różnic w badanej zbiorowości w odniesieniu do grupy referencyjnej, np. grupy kontrolnej.

Z drugiej stron, nasze pytanie może być bardziej konkretne, kiedy na przykład pragniemy wykazać, że nasz wynik jest istotnie wyższy od przyjętej wartości hipotetycznej. W takiej sytuacji oczekujemy, że nasz istotnie różny wynik znajdzie się konkretnie w prawym obszarze istotności statystycznej. Typ testu, który weryfikuje powyższe złożenie nazywamy testem jednostronnym. Test jednostronny znajduje zastosowanie, gdy nasza znajomość badanego zjawiska/procesu wystarcza do określenia, jakich zmian powinniśmy się spodziewać. W rzeczywistości, z takimi właśnie przypadkami spotykamy się najczęściej. Z reguły dobrze wiemy jakich zmian, zgodnie z racjonalnym postrzeganiem mechanizmu badanego zjawiska, winniśmy oczekiwać. Rejestrowany odmienny kierunek zmian może być dla nas wręcz źródłem zaniepokojenia, a nie zadowolenia, iż jakiekolwiek zmiany są postrzegane. Wbrew temu, co niekiedy zakładają mało doświadczeni badacze, wybierając (świadomie) test jednostronny, nie jest naszym zamierzeniem przyporządkowanie określonym wartościom statystyki testu mniejszych wartości istotności statystycznej, czyli większego prawdopodobieństwa, iż poprawnie odrzuciliśmy nieprawdziwą hipotezę zerową, lecz zbadanie czy rejestrowany trend/kierunek zmian jest zgodny z naszymi oczekiwaniami oraz czy jest statystycznie istotny w stosunku do naszej grupy referencyjnej (np. gdy brak czynnika indukującego zmiany). Przy dobieraniu testu do naszych potrzeb (jednostronny lub obustronny) powinniśmy się zatem kierować naszą aprioryczną wiedzą o badanym zjawisku/procesie, w oparciu o racjonalne przesłanki doświadczenia, nie zaś dokonywać wyboru na podstawie zadowalającej nas wartości poziomu istotności, kierując się perspektywą wykazywania wyższych istotności różnic. Ta ostatnia możliwość jest kusząca, ale należy pamiętać, że wybór taki wiąże się także z większym ryzykiem niesłusznie odrzuconej hipotezy zerowej oraz fałszywego wnioskowania o występowaniu efektu. Na przykład, badając skuteczność leku nasennego na wydłużenie snu, zakładamy a priori, że ochotnicy przyjmujący ten lek będą spali dłużej niż ochotnicy otrzymujący placebo, a nie że osoby w obu grupach będą przesypiały różną ilość czasu. Uwzględnienie w analizie takiego badania także lewostronnego obszaru istotności (tzn. wpływu leku na skrócenie czasu snu) podważa bowiem w ogóle sens interesowania się tym lekiem jako środkiem nasennym. Naszym jedynym racjonalnym wyborem będzie więc tutaj test jednostronny. Tak samo jest zresztą z olbrzymią większością zastosowań testu sparowanego – a priori zakładamy występowanie jakiegoś ukierunkowanego efektu. Inaczej, jeżeli porównujemy określony parametr u pacjentów reprezentujących różne jednostki chorobowe: a priori nie zawsze możemy przewidzieć kierunek różnic.

Planowanie i schemat doświadczenia – użyteczność kwadratów łacińskich i grecko-łacińskich

Podczas stosowania metody analizy wariancji początkującym badaczom może nastręczać trudności właściwe zdefiniowanie czynników. W układzie z jednym czynnikiem (jedną zmienną grupującą) mówimy o ANOVA w klasyfikacji pojedynczej lub jednoczynnikowej, w układzie z dwoma czynnikami – o ANOVA w klasyfikacji podwójnej lub dwuczynnikowej. W praktyce, liczba czynników może niepokojąco rosnąć w przypadkach gdy układ doświadczalny staje się bardziej złożony, zarówno od strony koncepcyjnej jak i technicznej wykonania doświadczenia. Na przykład złożone badanie wpływu kilku substancji czynnych na określony rodzaj komórek jest niekiedy trudno przeprowadzić w oparciu o materiał pochodzący od jednego pacjenta/ochotnika, i nie ma możliwości aby w pożądanych ramach czasowych wykonał to jeden laborant. Złożony układ doświadczalny może rodzić ryzyko niepożądanych interakcji między różnymi realnie występującymi czynnikami o potencjalnym wpływie na wyniki doświadczenia. Szczęśliwie, w sytuacjach takich możemy niekiedy pominąć efekty interakcji. Sytuacja taka występuje dość często w praktyce, wówczas gdy na przykład (1) nie możemy przeprowadzić pełnego układu doświadczalnego z przyczyn ekonomicznych, lub też gdy (2) wiemy, że w danej populacji efekt interakcji jest na tyle nieistotny dla dalszej części naszego wnioskowania, że możemy go pominąć. Na przykład planujemy przeprowadzić badanie, w którym chcemy sprawdzić skuteczność 4 różnych antagonistów receptora dla fibrynogenu w hamowaniu agregacji płytek krwi. Ponieważ od każdego dawcy możemy uzyskać najwyżej 10 ml krwi pełnej, ilość materiału niezbędnego do wykonania pełnego badania wyklucza jego przeprowadzenie w pełnej wersji u każdego z dawców. Do badania wykorzystamy więc krew uzyskaną od 4 niezależnych dawców. Badania należy przeprowadzić jak najszybciej po pobraniu krwi, toteż badania wszystkich agonistów nie jest w stanie przeprowadzić w tym samym czasie jeden laborant. Nasz plan zakłada, że każdy z 4 wyznaczonych techników laboratoryjnych będzie w danym czasie badał wpływ jednego antagonisty, wykorzystując do tego krew pobraną od jednego pacjenta.

Pełne doświadczenie zestawione według takiego hierarchicznego układu z uwzględnieniem wszystkich czynników (rodzaj antagonisty, dawca krwi, laborant), tzn. takie w którym każda kombinacja laboranta, antagonisty oraz dawcy krwi pojawia się przynajmniej jeden raz wymagałaby 4 x 4 x 4 = 64 grup. Jednakże możemy nie mieć środków ani czasu, aby przeprowadzić próby we wszystkich kombinacjach, a ponadto, wydaje się mało prawdopodobne aby np. osoba laboranta występowała w interakcji z dawcą krwi lub rodzajem antagonisty w stopniu, który mógłby mieć jakieś racjonalne praktyczne znaczenie. Biorąc to pod uwagę moglibyśmy w rzeczywistości zrealizować jedynie tzw. układ kwadratu łacińskiego obejmującego 4 rodzaje antagonistów (A, B, C i D) i 16 osobnych grup badanych. Układ ten jest układem hierarchicznym niekompletnym w tym sensie, że nie wszystkie kombinacje grup dla poszczególnych czynników są uwzględnione w modelu. Na przykład, laborant 1 będzie badał płytki krwi od dawcy 1 z dodatkiem antagonisty A, podczas gdy laborant 3 będzie badał krew od tego samego dawcy z dodatkiem antagonisty C. Co więcej, poszczególne grupy czynnika zdefiniowanego jako rodzaj antagonisty (A, B, C i D) są rozmieszczane w przypadkowy w macierzy wyznaczonej przez czynniki dawca krwi i laborant. Podobne rozwiązania są bardzo często stosowane w praktyce planowania.

Bardziej zaawansowaną formą kwadratów łacińskich są tzw. kwadraty grecko-łacińskie, gdzie analizujemy wpływ dwóch istotnych dla nas czynników (zmiennych grupujących) oraz dwóch dodatkowych czynników, których efekty interakcji decydujemy się pominąć. Zamiast analizować 2401 wariantów (cztery czynniki, po 7 wariantów każdy, 74), mamy do analizy jedynie 49 różnych układów.

Planowanie i schemat doświadczenia – próbkowanie i szacowanie liczebności próby badanej

Zasadniczym wymaganiem w planowaniu badań naukowych jest oszacowanie wielkości próby jaką zamierzamy przebadać. Stosujemy je m.in. po to, aby nie zbierać niepotrzebnie dużej liczby danych w sytuacji gdy: (a) dostrzegamy już na ‘pierwszy rzut oka’ że porównywane grupy różnią się między sobą, (b) nie występują rzeczywiste różnice i nie wykażemy ich niezależnie od liczebności próby, zbierając bardzo dużą liczbę powtórzeń mnożymy tylko niepotrzebnie koszty eksperymentu, podczas gdy moglibyśmy wykorzystać te środki na sprawdzenie innej koncepcji badawczej. Stosowanie estymacji właściwej liczebności próby powinno być nawykiem każdego rzetelnego badacza, a niewykorzystywanie tej metody może być uważane za niekompetencję w prowadzeniu badań naukowych. Niestety doświadczenie uczy, że ocena liczebności grupy badanej przed wykonaniem badań jest bardzo rzadko stosowaną praktyką, a liczebność taka oceniana jest na czysto arbitralnych zasadach. Jest to praktyka uważana przez licznych badaczy za nieetyczną. Wykonując niepotrzebnie bardzo dużą liczbę powtórzeń nie tylko mnożymy niepotrzebnie koszty eksperymentu, podczas gdy moglibyśmy wykorzystać te środki na sprawdzenie innej koncepcji badawczej. W badaniach klinicznych wiąże się to nie tylko z podawaniem większej liczbie osób placebo, ale także realne opóźnianie wprowadzania do praktyki klinicznej korzystnej strategii farmakologicznej.
W przypadku testów porównań dla zmiennych ciągłych metody estymacji liczebności próby opierają się na kilku założeniach:
a/ próby posiadają rozkład normalny - gdy liczebność próby bardzo wzrasta, wówczas średnie prób podlegają rozkładowi normalnemu nawet w sytuacji, gdy odpowiednia zmienna w populacji nie posiada rozkładu normalnego lub nie jest wystarczająco dobrze zmierzona,
b/ musimy zdefiniować z jakim prawdopodobieństwem pragniemy orzec o występowaniu lub braku różnic,
c/ estymowana liczebność zależy od mocy stosowanego testu czyli musimy założyć jak duże ryzyko błędu II rodzaju (prawdopodobieństwo nieodrzucenia hipotezy zerowej gdy jest ona fałszywa) dopuszczamy.

W przypadku badań populacyjnych/epidemiologicznych (na liczebnościach grup) wymagane jest z reguły bardzo precyzyjne określenie, jakiego wyniku spodziewamy się po przeprowadzeniu badania. Na przykład w analizie porównania śmiertelności wśród niemowląt karmionych odżywką w stosunku do tych karmionych piersią samo stwierdzenie większego ryzyka nie zadowala nas – pragniemy jeszcze wiedzieć, ile razy ryzyko takie jest większe. Wielkość próby będzie na przykład inna w przypadku 4-krotnego i dwukrotnego ryzyka. Należy także pamiętać, że z uwagi na zmienność wyników(widoczną szczególnie wyraźnie w przypadku małych prób) obserwowany wzrost ryzyka może być za mały, aby wykazać jego istotność. Dlatego powinniśmy a priori określić prawdopodobieństwo, z jakim chcielibyśmy wnioskować o istotności różnic na danym poziomie istotności, czyli powinniśmy ustalić moc wnioskowania. W ten sposób możemy na przykład określić, że badanie dostarcza wartościowych wyników, jeżeli z prawdopodobieństwem 90% możemy stwierdzić, że ryzyko względne śmierci niemowląt karmionych butelką w stosunku do tych karmionych piersią jest na przyjętym poziomie istotności (np. 5%) przynajmniej tak wysokie jak 2.

Randomizacja – na czym polega i jakie z niej mamy korzyści ?

Jednym z podstawowych oczekiwań i naturalnych zachowań badacza jest chęć ekstrapolacji uzyskanych wyników z przebadanej grupy na ogólne wnioski dotyczące większej populacji. Najlepszym rozwiązaniem byłoby przebadanie całej (lub olbrzymiej większości elementów) populacji, ale z wielu względów praktycznych zadanie to jest niemożliwe do przeprowadzenia, a dodatkowe czynniki natury logicznej i rozumowej mogą nas do tego zniechęcić. Wszystkie pozostałe metody są metodami przybliżającymi, zaokrąglającymi, przyjmującymi pewne założenia. Randomizacja pozwala lub ułatwia nam sprostać jednemu z podstawowych założeń naszego badania, jakim jest reprezentatywności próby wybranej do przebadania i analizy. Wnioski wyciągane z badań, w których nie zachowano odpowiedniej randomizacji w doborze elementów tej próby nie mają oczywiście bardziej uniwersalnego znaczenia i powinny być ograniczone wyłącznie do przebadanej grupy, nie można ich uogólniać i ekstrapolować na większe i/lub inne grupy. W przeciwnym razie wyciągane wnioski mogą być błędne. Termin ‘randomizacja’ oznacza przypadkowy, losowy – a więc obiektywny - dobór badanych osób, obiektów, komórek (random - ang. przypadkowy, losowy). Przypadkowość (randomness) zakłada (z definicji) całkowity brak jakiejkolwiek schematyczności oraz możliwości przewidzenia wyniku. Zauważmy, że chociaż przypadkowość „rządzi się” prawami teorii prawdopodobieństwa, w swojej definicji jest całkowitym zaprzeczeniem celów, jakie ta teoria sobie wyznacza. Randomizacja jest przeprowadzana albo w celu wyboru konkretnych osób/obiektów do badaniach, albo w celu przyporządkowania badanych obiektów do odpowiedniej procedury diagnostycznej, doświadczalnej, leczniczej itp. Randomizacja może być przeprowadzona wieloma różnymi metodami, np. przez program komputerowy, na zasadzie wyciągania z worka różnokolorowych kulek, rzutu monetą, przygotowania zaklejonych i nieopisanych kopert z informację o podaniu leku lub placebo, lub na "chybił trafił". W przypadku dużych grup badanych dobór losowy jest zastępowany badaniem kolejnych pacjentów (tzw. consecutive cases analysis). Dobrym praktycznym sprawdzianem tego, czy zebrane dane pochodzą od losowo wybranych elementów próby (pacjentów, ochotników, zwierząt laboratoryjnych, próbek produktu w procesie kontroli jakości, itp.) jest przyjmowanie przez nie rozkładu normalnego.

Randomizacja może być prosta (simple randomization), jeżeli polega na wygenerowaniu ciągu liczb losowych przyporządkowanych w umowny sposób elementom próby badanej, lub ograniczona (restricted randomization), jeżeli zależy nam na osiągnięciu zrównoważenia grup pod względem ich rozmiaru oraz podstawowej charakterystyki wyjściowej. Dwie podstawowe metody służące zrównoważeniu wielkości grup oraz równocenności ich charakterystyki znane są jako blokowanie i stratyfikacja (warstwowanie). Podstawowe korzyści płynące ze stosowania randomizacji to zminimalizowanie dwóch podstawowych zagrożeń wiarygodności badania: (a) obciążenia (bias, rodzaj systematycznego błędu, który prowadzi do przekłamania wyniku testu lub zależności) oraz zmiennych zakłócających (confounders).

Transformacje „surowych” danych – po co i jak je przeprowadzamy?

W praktyce dość często zdarza się, że zebrane przez nas obserwacje nie spełniają wymagań niezbędnych dla zastosowania testów i metod, które są szczególnie użyteczne, dogodne i które lubimy używać. Tak jest na przykład ze stosowaniem testu t Studenta – jest on tak popularny i chętnie wykorzystywany, że najczęściej nie sprawdzamy nawet, czy nie są naruszone warunki usprawiedliwiające jego zastosowanie. Dwa z takich przeciwwskazań, którym przypisuje się największe znaczenie to naruszenie normalności rozkładu oraz niejednorodność wariancji. Test t Studenta jest względnie oporny na naruszenie tych warunków, ale już analiza wariancji nie jest. Gdy mamy do czynienia ze zmiennymi o rozkładach ciągłych, niespełniającymi warunku normalności rozkładu, w przypadkach lewo- lub prawoskośnych rozkładów, nierównych wariancji porównywanych prób czy nieliniowych zależności między zmiennymi, korzystamy często z narzędzia transformacji „surowych” danych. Czy transformując matematycznie uzyskane wyniki nie ingerujemy i nie wypaczamy poszukiwanych różnic, zależności, itp. ? Nie, o ile tej samej procedurze transformacyjnej (temu samemu działaniu matematycznemu) poddajemy obie (wszystkie) porównywane grupy. Zależnie od sytuacji i charakteru danych stosuje się różne przekształcenia matematyczne, i nie ma tutaj zbyt dużej dowolności. Inne transformacje są użyteczne w przypadku rozkładów lewoskośnych, inne dla rozkładów prawoskośnych, inne w przypadku heteroscedastyczności zmiennych, jeszcze inne w różnych wariantach nieliniowych zależności między zmiennymi. Transformacja odwrotnej proporcjonalności jest na przykład silniejsza, zaś pierwiastkowa słabsza niż logarytmiczna, i dlatego dobiera się je w zależności od stopnia skośności rozkładu. W przypadku danych procentowych lub proporcji (których rozkłady są raczej bardziej dwumianowe niż normalne, odstępstwa od normalności są szczególnie rażące dla niskich i wysokich %, tzn. 0-30% i 70-100%) stosuje się często transformacje arcus sinus. Dzięki procedurze transformacji doprowadzamy do zwiększania jednorodności wyników w porównywanych grupach, a skoro maleje zmienność wewnątrzgrupowa (szum) przy niezmienionej wartości sygnału (średnia różnica między grupami, zmienność międzygrupowa), to oczywiście rośnie moc dyskryminatywna testów wykorzystywanych do badania istotności różnic. Ponieważ transformacja pomaga w normalizacji rozkładu, jej działanie można porównać do zabiegu zwiększania liczebności porównywanych grup.

Dane odstające – jak zdecydować co odrzucić a co zostawić ?

Odstającymi nazywamy nietypowe (z definicji), nie pasujące do innych, rzadko występujące obserwacje w próbie. Wierzymy, że odstające obserwacje są manifestacją losowego błędu, który chcielibyśmy kontrolować i eliminować częstość obserwacji odstających i nie pasujących do ogółu. Niestety nie jest znana żadna metoda sprawdzająca się przy automatycznym usuwaniu odstających obserwacji. Dlatego też, jesteśmy zdani na analizę rozkładów pojedynczych zmiennych oraz wykresów rozrzutu dla par lub kilku zmiennych. Usuwanie zmiennych w oparciu o intuicyjne przeświadczenie ich ‘inności” może graniczyć z manipulacją danymi, dlatego staramy się dobrać jak najbardziej obiektywne metody statystyczne, i stosujemy często równolegle kilka technik weryfikacji ich ‘niedopasowania’ do reszty danych. Z samej definicji odstających obserwacji wynika, że są to dane o skrajnych wartościach w monotonicznym szeregu obserwacji, obdarzone na tyle dużym błędem losowym, że nie mieszczą się w zakresie zmienności wyznaczonym przez pozostałe obserwacje próby. Ponieważ wiele czynników może być odpowiedzialnych za generowanie takich nietypowych wyników, bardzo pożądane jest zweryfikowanie przyczyn, które złożyły się na ten błąd. Próba wyeliminowania tego błędu przy powtarzaniu doświadczenia/pomiaru jest dla nas najlepszą weryfikacją występowania przypadkowości lub regularności w odstawaniu niektórych wyników. W tym miejscu warto zastanowić się nad przyczyną występowania takich regularnie odstających obserwacji. Czy przypadki te nie zasługują na naszą szczególną uwagę jako elementy unikalne, być może reprezentujące inną zbiorowość niż ta analizowana przez nas (np. pacjenci z rzadko spotykaną jednostką chorobową, inny gatunek/podgatunek o zachodzącym areale zasięgu ?

Najczęściej popełniane błędy w statystycznej analizie danych

Ocenia się że około 60% wszystkich prac oryginalnych publikowanych w zakresie nauk biomedycznych czy farmakologicznych zawiera błędy opracowania statystycznego danych (De Muth, 1999). Najczęściej spotykane błędy w medycznej literaturze naukowej obejmują:

niewłaściwe planowanie doświadczenia i/lub sformułowanie hipotezy badawczej,
stosowanie błędu standardowego zamiast odchylenia standardowego lub odwrotnie jako miary rozproszenia,
testowania hipotez statystycznych i doboru testów parametrycznych oraz nieparametrycznych,
błędy wynikające z niespełnienia warunków normalności rozkładu i/lub jednorodności wariancji,
niepoprawnego oszacowania lub nieoszacowania właściwej wielkość próby badanej,
niewłaściwego stosowania testów sparowanych i niesparowanych
niestosowania wielokrotnych testów t jako rozwinięcia metod analizy wariancji,
niewłaściwego stosowania testu chi2 i testu dokładnego Fishera
zamienne stosowanie analizy regresji i korelacji w badaniach asocjacji

Literatura

Afifi, A.A. and Clark, V. (1990) Computer-aided multivariate analysis, 2nd Ed., New York-London-Melbourne, Van Nostrand Reinhold, ss. 1-463.

Armitage, P. and Berry, G. (1994) Statistical Methods in Medical Research, 3rd Ed., Blackwell Science, Oxford-London-Ediburgh, ss. 1-630.

De Muth J.E. (1999) Basic Statistics and Pharmaceutical Statistical Applications. Marcel Dekker, Inc., New York-Basel, ss. 596

Hulley, S.B., Cummings, S.R., Browner, W.S., Grady, D., Hearst, N., Newman, T.B. Designing Clinical Research. 2nd ed. Lippincott Williams & Wilkins, Philadelphia, 2001, ss. vii-336

Katz, M.H. Multivariable Analysis. A Practical Guide for Clinicians. Cambridge University Press, Cambridge, 2001, ss. vii-192

Lang, T.A., Secic, M. How to Report Statistics in Medicine. Annotated Guidelines for Authors, Editors, and Reviewers. ACP Series, Philadelphia, 1997, ss. vii-367

Siegel, S. and Castellan, N.J., Jr. (1988) Nonparametric statistics for the behavioral sciences, 2nd Ed., New York, McGraw-Hill Book Company, ss. i-399.

Sokal, R.R. and Rohlf, F.J. (1981) Biometry - The principles and practice of statistics in biological research, 2nd Ed., San Francisco, W.H. Freeman & Co., ss. 1-862.

Stanisz A. Przystępny kurs statystyki, tom 1-3, StatSoft, Kraków, 2006, 2007

Watala C. How to publish (more) effectively? – Invited commentary. Arch Med Sci 2005; 1: 201-204.

Watala C. How to plan an experiment. I. Randomization: current fad or (ever)lasting fashion? Arch Med Sci 2006; 2: 58-65.

Watala C. Sample size and significance – somewhere between statistical power and judgment prostration. Arch Med Sci 2007; 3: 5-13.

Watala C. Biostatystyka - wykorzystanie metod statystycznych w pracy badawczej w naukach biomedycznych. Bielsko-Biała: alfa-Medica Press, 2002.

Zar, J. (1999) Biostatistical analysis, 4th Ed., Prentice-Hall International, Inc. Simon & Schuster/A Viacom Company, Upper Saddle River, N.J., ss. 1-663.

Zieliński, T. (1999) Jak pokochać statystykę czyli STATISTICA do poduszki, StatSoft Polska, Kraków