Po pierwsze, mimo że zrozumienie logiki związanej z wynikami opartymi na AI/ML jest ważne dla budowania zaufania do modelu, biorąc pod uwagę złożoną naturę uczenia maszynowego, nie zawsze jest możliwe ustalenie, w jakim stopniu wyniki są zgodne ze sprawdzoną naukową wiedzą. Ocena znaczenia klinicznego cech wejściowych dla przewidywanych wyników, zgodna z ustalonymi kryteriami diagnostycznymi, została zaproponowana w literaturze w celu wsparcia naukowej ważności urządzeń opartych na AI/ML i dostarczenia ogólnych informacji na temat logiki oprogramowania. W niektórych sytuacjach należy dostarczyć niezbędnych dowodów, np. w celu wyjaśnienia związku między niektórymi cechami obrazowania a kategoryzacją guza. Określenie względnego znaczenia czynników klinicznych lub cech nie jest jednak możliwe w przypadkach rozpoznawania złożonych wzorców lub gdy zawiłe interakcje między cechami wpływają na indywidualną predykcję, jak ma to miejsce w przypadku sztucznych sieci neuronowych. Ostatecznie, w przypadku wielu nowych urządzeń opartych na AI/ML, ważność wiedzy naukowej zdobytej w sposób zrozumiały można wywnioskować jedynie z metryk wydajności algorytmu, z wcześniej niewidocznymi danymi testowymi. Chociaż dowody na ważność naukową lub ważne powiązanie kliniczne nie są obowiązkowe, zgodnie z wytycznymi oceny klinicznej IMDRF, ani nie są wymagane przez FDA, w dokumentach dotyczących ram prawnych MDSW opartej na AI/ML24, ważność naukowa musi zostać należycie wykazana w przypadku MDSW, które kwalifikuje się jako wyrób medyczny do diagnostyki in vitro (IVD) zgodnie z rozporządzeniem UE w sprawie wyrobów medycznych do diagnostyki in vitro (UE IVDR).
Jak każde inne oprogramowanie medyczne, MDSW oparte na AI/ML wymaga wykazania niezawodnego i dokładnego działania w kontekście oceny klinicznej, jednak systemy AI/ML mają cechy, które utrudniają ich testowanie przy użyciu konwencjonalnych metod weryfikacji. Weryfikacja złożonego oprogramowania AI może nieuchronnie ograniczać się do testowania elementów interfejsu między użytkownikiem i modelem. Biorąc pod uwagę szeroki zakres zastosowań AI/ML w opiece zdrowotnej, różnorodność technik oraz zakres danych i zaangażowania ludzi, wymagania dotyczące każdego MDSW opartego na AI/ML zależą w dużej mierze od kontekstu. Tak czy inaczej, producent powinien zdefiniować podejście weryfikacyjne do wykrywania anomalii, eliminowania błędów i budowania zaufania do systemu.
Walidacja, rozumiana jako potwierdzenie poprzez badanie i dostarczenie obiektywnych dowodów, że projektowany system odpowiada potrzebom użytkownika i zamierzonym zastosowaniom, mierzy wydajność systemu AI za pomocą niezależnego standardu referencyjnego. Standard referencyjny może pochodzić z wielu źródeł, w tym z dobrze zdefiniowanych podstawowych wartości, konsensusu ekspertów w tej dziedzinie lub decyzji klinicznej podjętej przez klinicystów. Ponadto walidacja algorytmów AI wymaga od producentów zwrócenia szczególnej uwagi na wiele innych czynników, takich jak walidacja danych uczenia maszynowego lub wdrożenie odpowiednich kontroli nad danymi dotyczącymi szkolenia i testowania, aby uniknąć stronniczości w zbiorach danych. Ocena użyteczności klinicznej lub badania użytkowników mogą być niezbędną częścią walidacji, aby ujawnić, kiedy decyzje sztucznej inteligencji należy wyjaśnić lub uczynić możliwymi do prześledzenia w celu zminimalizowania ryzyka.
Klinicznie istotna wydajność aplikacji opartej na AI/ML oznacza osiągnięcie ludzkich lub nadludzkich możliwości i zmierzonej wydajności zgodnej z celami klinicznymi (odpowiednie wskaźniki prawdziwie dodatnie i fałszywie ujemne). Obserwacyjne badania kohortowe najlepiej nadają się do oceny wstępnej wykonalności algorytmów uczenia maszynowego, biorąc pod uwagę wymóg zarówno opracowania, jak i walidacji ich skuteczności. Niemniej jednak, chociaż badania walidacyjne są rutynowo przeprowadzane w sposób retrospektywny, wydajność algorytmów w warunkach klinicznych może być niższa niż jego skuteczność retrospektywna. Nowe ustawienie, w którym zaimplementowano model, mogą różnić się od ustawień, w którym model został wprowadzony lub zweryfikowany. Lokalne praktyki mogą różnić się zarówno pod względem usług opieki medycznej, jak i populacji pacjentów. Jeśli różnice te są duże, model predykcyjny może dawać niedokładne prognozy ryzyka, prowadzić do niewłaściwych decyzji, a tym samym – zagrażać wynikom leczenia pacjentów w nowym otoczeniu. Często proponuje się wykorzystanie zewnętrznych danych testowych do wykazania, że działanie modelu wystarczająco generalizuje – w zamierzonym zastosowaniu – w celu wsparcia trafności decyzji klinicznej. Jest to jednak możliwe tylko wtedy, gdy dane testowe i wytrenowany model wykorzystują wspólną reprezentację danych. Dużo łatwiej jest to osiągnąć w obrazowaniu medycznym z powszechnie używanym formatem DICOM, jednak wykazanie uogólnienia staje się trudniejsze w innych scenariuszach, np. tam, gdzie wymagana jest również interoperacyjność semantyczna, chociażby w elektronicznej dokumentacji medycznej (EHR) przy użyciu tych samych systemów kodowania. Ponadto wąska koncentracja na uogólnianiu może umniejszać kliniczną użyteczność modelu w określonym kontekście klinicznym, wpływając na istotność i użyteczność interwencji u pacjenta. Optymalizacja wyników klinicznych może wymagać ponownej kalibracji modelu z danymi indywidualnego pacjenta z nowymi ustawieniami przed rutynowym użyciem, zwłaszcza że nie ma jasnych wytycznych dotyczących liczby walidacji zewnętrznych, potrzebnych przed użyciem w codziennej praktyce.
Warto zauważyć, że można testować na retrospektywnych zbiorach danych tylko wykonalność i wydajność modelu ML, a nie jego potencjalne przyszłe implikacje. Metryki dokładności nie odnoszą się do wartości klinicznej modelu, ponieważ modele mogą dokładnie przewidywać podwyższone ryzyko, np. powikłań pooperacyjnych, nie oferując żadnej możliwości zmniejszenia tego ryzyka. Ograniczony pogląd na możliwość zastosowania i użyteczność kliniczną może prowadzić do niedostatecznej lub nadmiernej reprezentacji ryzyka w ocenie projektu wyrobu przed wprowadzeniem na rynek i jego interakcji z użytkownikiem. Obserwacja kliniczna po wprowadzeniu do obrotu jest szczególnie ważnym krokiem w celu zapewnienia odpowiedniej charakterystyki klinicznego zastosowania wyrobu w rzeczywistym świecie. Rejestrując, oceniając i integrując dane z zastosowań klinicznych z algorytmami oprogramowania, dane kliniczne po wprowadzeniu do obrotu – przy użyciu stopniowych etapów zatwierdzania – integruje się z całościowym podejściem do cyklu życia produktu zalecanym przez IMDRF.
Zdolność modelu do ciągłego przekwalifikowania w celu poprawy wydajności stwarza kolejny zestaw problemów dla producentów i organów regulacyjnych. Ten rodzaj dynamicznej zmiany nie wpisuje się dobrze w obecne procesy kontroli zmian dla wyrobów medycznych. Systemy ciągłego uczenia się wymagają ciągłego monitorowania, aby upewnić się, że system działa zgodnie z wcześniej określonymi parametrami operacyjnymi oraz przeprowadzania bieżących przeglądów bezpieczeństwa i stałej analizy korzyści do ryzyka, która porównuje działanie modelu z jego ludzkim odpowiednikiem (jeśli dotyczy), ponieważ oba zmieniają się w czasie.
Autorka: Sylwia Stokowska
KOMENTARZE