Śpiew kanarków może pomóc rozszyfrować ludzki język

Nowy model sztucznej inteligencji: TweetyBERT

Naukowcy z Uniwersytetu Oregon opracowali nowy model uczenia maszynowego TweetyBERT, który z ekspercką dokładnością automatycznie segmentuje i klasyfikuje wokalizacje kanarków. To narzędzie tworzy skalowalną platformę dla neurobiologii, pomaga badać neuronalne podstawy uczenia się i produkcji języka w mózgu oraz otwiera drogę do lepszego zrozumienia wokalizacji zwierząt.

Badanie opublikowano w czasopiśmie naukowym Patterns.

Ograniczenia dotychczasowych metod analizy głosu zwierząt

Dotychczasowe metody wykorzystujące sztuczną inteligencję do analizy odgłosów zwierząt wymagają ręcznego, ludzkiego oznaczania danych treningowych. To proces bardzo wolny i pracochłonny.

TweetyBERT został zaprojektowany tak, aby ten etap ominąć. Jak wyjaśnia Tim Gardner, profesor nadzwyczajny bioinżynierii z kampusu Knight Uniwersytetu Oregon, jest to sieć neuronowa ucząca się w trybie samonadzorowanym, która:

szybko przetwarza nieopisane nagrania głosowe ptaków
rozpoznaje jednostki komunikacyjne w śpiewie
automatycznie opisuje sekwencje dźwięków

Dlaczego właśnie kanarki?

Neurobiolodzy od lat wykorzystują kanarki i inne ptaki śpiewające jako model do badań, ponieważ mają one wyjątkową zdolność uczenia się złożonych, długich pieśni przez całe życie. Daje to unikalny wgląd w neuronalne podstawy złożonych, wyuczonych zachowań.

George Vengrovski, doktorant w laboratorium Gardnera, stworzył TweetyBERT jako narzędzie do automatycznego opisywania śpiewu kanarków. Ich pieśni składają się zazwyczaj z 30–40 różnych sylab, łączonych w sekwencje. Vengrovski podkreśla, że to podejście może zmienić rozumienie tego, jak mózg wytwarza mowę.

Sieć neuronowa inspirowana modelami językowymi

TweetyBERT bazuje na architekturze BERT – językowym modelu sztucznej inteligencji, który leży u podstaw wczesnych wersji dużych modeli językowych, takich jak ChatGPT. Został jednak dostosowany do specyficznej, akustycznej struktury ptasiego śpiewu.

Ta transformatorowa sieć neuronowa w trybie samonadzorowanym jest trenowana do przewidywania „zamaskowanych” lub ukrytych fragmentów dźwięku bez konieczności ręcznej kontroli i etykietowania. W ten sposób samodzielnie uczy się jednostek zachowania w śpiewie, takich jak nuty, sylaby i frazy, osiągając skuteczność porównywalną z doświadczonymi ludzkimi anotatorami.

Zdolność szybkiej klasyfikacji i opisywania śpiewu, wykrywania różnic między pojedynczymi osobnikami oraz śledzenia zmian w czasie może pomóc neurobiologom odkrywać, jak mózg uczy się i wytwarza język.

Zastosowania w badaniach populacji ptaków

Znaczenie TweetyBERT wykracza poza samą neurobiologię. Po odpowiednich modyfikacjach narzędzie to może zostać wykorzystane do badania dzikich populacji ptaków. Analiza zmian w wzorcach wokalizacji może ujawniać, jak ptaki reagują na:

rozbudowę infrastruktury przez człowieka
zmiany klimatyczne
presję środowiskową w ich siedliskach
obecność hałasu antropogenicznego

Jak podkreśla Gardner, TweetyBERT opracowano z myślą o kanarkach, ale samo podejście nie jest przypisane do jednego gatunku. Na świecie żyją tysiące gatunków ptaków, których zachowania głosowe są bardzo słabo monitorowane, a po niewielkich zmianach zakres zastosowań TweetyBERT może się znacząco poszerzyć.

Poza ptakami: delfiny, wieloryby i inne gatunki

Podstawowe założenia stojące za TweetyBERT są już wykorzystywane w badaniach nad delfinami i wielorybami. Sugeruje to, że podobne modele mogą zostać zastosowane znacznie szerzej – nie tylko do ptaków, lecz ogólnie do analizy komunikacji zwierząt.

To z kolei może pogłębić zrozumienie, jak różne gatunki przekazują sobie informacje, jak rozwijają się ich „języki” i w jaki sposób mózg przetwarza złożone sygnały dźwiękowe.