Syndrom “zaniku mózgu AI”. Nowe badanie pokazuje, jak śmieciowe dane degradują LLM-y

Zdolność generatywnej AI do popełniania błędów może wynikać wprost z jakości danych użytych do jej szkolenia, co potwierdza nowe badanie naukowców z Teksasu. Wykazali oni, że popularne modele, takie jak Llama 3, karmione sensacyjnymi lub płytkimi treściami, zaczynają generować fałszywe informacje i tracić zdolność logicznego wnioskowania.

2 Min
sztuczna inteligencja, llm
źródło: Freepik

W wyścigu o coraz potężniejsze modele językowe, kluczowe pytanie o jakość danych treningowych powraca z nową siłą. Badanie przeprowadzone na Uniwersytecie Teksańskim w Austin, opublikowane na platformie preprintów arXiv, dostarcza dowodów, że karmienie AI treściami niskiej jakości prowadzi do mierzalnej degradacji ich zdolności. Zasada “garbage in, garbage out” w erze GenAI staje się fundamentalnym wyzwaniem biznesowym.

Zespół pod kierownictwem Yang Wanga celowo wykorzystał dane, które zdefiniowano jako popularne lub prowokacyjne, lecz pozbawione merytorycznej wartości. Chodzi głównie o krótkie posty z mediów społecznościowych i sensacyjne artykuły. Tą problematyczną mieszanką trenowano znane modele, w tym Llama 3 firmy Meta oraz serię Qwen firmy Alibaba.

Rezultaty były jednoznaczne. Modele wykazywały skłonność do pochopnych wniosków, generowania fałszywych informacji i udzielania nieistotnych odpowiedzi. Co istotne, popełniały również więcej błędów w prostych zadaniach wielokrotnego wyboru. Naukowcy określili ten gwałtowny spadek zdolności poznawczych mianem “zaniku mózgu AI”. W skrajnych przypadkach boty przejawiały nawet negatywne tendencje.

Badanie potwierdza, że LLM-y nie “myślą”, lecz jedynie statystycznie naśladują wzorce zawarte w danych wejściowych. Kluczowym wnioskiem jest fakt, że nawet połączenie danych niskiej jakości z wartościowymi zbiorami nie przywróciło modelom pełnej wydajności. Dla branży IT oznacza to, że kuracja i rygorystyczna selekcja danych treningowych nie jest już opcją, ale koniecznością dla utrzymania niezawodności i zaufania do komercyjnych systemów AI.

Dla firm oznacza to, że poleganie na publicznie dostępnych, ale “zaśmieconych” danych do trenowania własnych modeli AI jest strategicznym błędem, prowadzącym do utraty precyzji i generowania kosztownych błędów. Kluczowym czynnikiem konkurencyjnym staje się zatem rygorystyczna kuracja i inwestycja w wysokiej jakości, zweryfikowane zbiory danych, co bezpośrednio przekłada się na niezawodność i wartość wdrażanych systemów.

Udostępnij