Jak działa nowa technologia?
System opiera się na urządzeniach rejestrujących aktywność neuronalną oraz sztucznej inteligencji, która dekoduje sygnały mózgowe i przekształca je w mowę. Przypomina to poniekąd sposób działania asystentów głosowych, takich jak Siri czy Alexa, jednak w tym przypadku algorytmy są dostosowane do przetwarzania danych neuronowych. Dzięki temu pacjent komunikuje się niemal synchronicznie. Nowa technologia wyprzedza wcześniejsze osiągnięcia w zakresie przywracania mowy, ponieważ umożliwia płynną, naturalistyczną syntezę dźwięków. W przeciwieństwie do starszych systemów, które często miały opóźnienia lub generowały sztucznie brzmiącą mowę, ten pozwala na niemal natychmiastową komunikację. Ogromną zaletą nowego rozwiązania jest jego wszechstronność. Może on działać z różnymi rodzajami interfejsów wykrywających aktywność mózgu. Naukowcy wykorzystali elektrody o dużej gęstości umieszczone bezpośrednio na powierzchni mózgu, ale możliwe jest także zastosowanie mikroelektrod penetrujących tkankę mózgową. Badacze pracują nad integracją systemu z nieinwazyjnymi czujnikami elektromiografii powierzchniowej rejestrującymi aktywność mięśni twarzy.
Neuroproteza mózg-głos to rozwiązanie, które umożliwia osobom z paraliżem ponowne porozumiewanie się przy użyciu własnego głosu. Technologia działa poprzez analizę sygnałów z kory ruchowej mózgu – obszaru odpowiedzialnego za kontrolowanie mowy – i przekształcanie ich w dźwięk. Najpierw urządzenie dostosowuje się do sygnałów neuronalnych użytkownika i rejestruje jego aktywność mózgową w momencie, gdy ten próbuje mówić. Następnie sztuczna inteligencja dekoduje te dane i przekształca w mowę. Jak wyjaśnia współautor badań Cheol Jun Cho, system analizuje nie tylko sam moment myślenia o wypowiedzeniu słowa, ale także decyzję o jego wyborze oraz sposób, w jaki pacjent planował poruszyć mięśniami aparatu mowy. AI wytrenowano na danych pochodzących od pacjenta, który w ciszy próbował wypowiadać słowa wyświetlane na ekranie. Pozwoliło to naukowcom stworzyć mapę aktywności neuronalnej i przypisać konkretne sygnały do konkretnych słów.
Jednym z najbardziej przełomowych elementów tej technologii jest możliwość wykorzystania wcześniejszych nagrań głosu pacjenta – sprzed urazu lub choroby – do odtworzenia jego unikatowego brzmienia. Dzięki temu generowany dźwięk nie jest syntetyczny i bezosobowy, ale autentycznie przypomina mowę konkretnego człowieka. Chociaż mowa wytworzona przez neuroprotezę nie jest jeszcze idealnie płynna i naturalna, widać postęp. W najnowszym eksperymencie AI była w stanie wygenerować mowę w mniej niż sekundę od momentu próby wypowiedzenia słowa. To ogromna poprawa w porównaniu z wcześniejszymi badaniami z 2023 r., gdzie proces ten zajmował ok. 8 sekund. Tego typu technologia może diametralnie zmienić życie osób cierpiących na paraliż. Dzięki neuroprotezom pacjenci mogą swobodnie komunikować swoje potrzeby, dzielić się przemyśleniami i utrzymywać kontakt z bliskimi w bardziej naturalny sposób. Badacze planują dalsze usprawnienia systemu skoncentrowane na skróceniu czasu przetwarzania oraz poprawie jakości generowanego głosu, aby brzmiał on jeszcze bardziej naturalnie i wyraźnie.
Jak działa syntezator mowy?
Syntezator mowy to technologia umożliwiająca przekształcenie tekstu pisanego w zrozumiałą mowę. Może przyjmować formę programu komputerowego lub urządzenia sprzętowego. Współczesne syntezatory działają na podstawie TTS (systemu Text to Speech), który analizuje tekst, wykonuje jego transkrypcję fonetyczną, a następnie generuje mowę. Aby tekst zamienić na mowę, syntezator musi wykonać szereg operacji. Pierwszym krokiem jest analiza tekstu. Program rozpoznaje słowa, znaki specjalne, liczby oraz skróty, a następnie dokonuje transkrypcji fonetycznej. Ostatnim etapem jest generowanie dźwięku za pomocą modułu cyfrowego przetwarzania sygnałów. To on odpowiada za nadanie mowie odpowiedniej intonacji, akcentów i płynności.
Syntezatory znajdują zastosowanie w wielu dziedzinach życia. Przede wszystkim pomagają osobom niewidomym w nawigacji po urządzeniach cyfrowych. Przykładem jest funkcja TalkBack w systemie Android umożliwiająca odsłuchiwanie treści z ekranu. Ta technologia była również kluczowa dla naukowca Stephena Hawkinga, który używał systemu ACAT do komunikacji. Ponadto syntezatory są szeroko stosowane w transporcie publicznym, np. na dworcach kolejowych i autobusowych. Obecnie na rynku dostępnych jest wiele syntezatorów mowy. Jednym z najbardziej rozpoznawalnych jest IVONA – system opracowany przez polską firmę Ivo Software. Jego naturalnie brzmiące głosy sprawiły, że został wykorzystany w komunikatach na dworcach PKP i PKS. Sukces technologii doprowadził do przejęcia firmy przez Amazona.
Czym jest afazja?
Mózg odgrywa zasadniczą rolę w funkcjonowaniu organizmu, kontrolując zarówno podstawowe procesy życiowe, jak i skomplikowane czynności, w tym komunikację. Uszkodzenie określonych obszarów mózgu może doprowadzić do poważnych zaburzeń, łącznie z afazją – problemem z rozumieniem i tworzeniem mowy. Ośrodki odpowiedzialne za język znajdują się głównie w lewej półkuli mózgu – w płacie czołowym i skroniowym. Ośrodek Broki odpowiada za generowanie mowy, a ośrodek Wernickiego – za jej rozumienie. Gdy dojdzie do uszkodzenia tych struktur, pojawia się afazja, czyli zaburzenie zdolności językowych obejmujące zarówno mowę, jak i pisanie oraz czytanie. Afazja może pojawić się nagle (np. po udarze) lub rozwijać się stopniowo, jak w przypadku chorób neurodegeneracyjnych. Objawami wskazującymi na afazję są: trudności z formułowaniem zdań, nierozumienie prostych poleceń, problemy w nazywaniu przedmiotów, nieprawidłowe powtarzanie słów lub zdań oraz zaburzenia pisania i czytania.
KOMENTARZE