Deep learning to jeden z najszybciej rozwijających się obszarów sztucznej inteligencji. Zastosowanie technologii z tego obszaru pozwala udoskonalać autonomiczne pojazdy, ma też ogromne znaczenie, jeżeli chodzi o postęp medycyny. Zdaniem Patryka Binkowskiego, Data Scientist z Altimetrik Poland, tworzenie sieci neuronowych, czyli systemów informatycznych, których funkcjonowanie przypomina pracę ludzkiego mózgu, to jeden z kluczowych kierunków rozwoju AI. Na uwagę zasługują zwłaszcza Transformery.
Deep learning to technika uczenia maszynowego, która uczy komputery robić to, co dla człowieka jest naturalne, np. uczyć się na przykładach, umożliwia też tworzenie sieci neuronowych, które potrafią rozpoznawać głos czy przetwarzać język naturalny. Zastosowanie deep learningu rośnie w ogromnym tempie, co wpłynęło na rozwój takich narzędzi jak Siri, Echo i Google Assistant.
Nowe modele głębokiego uczenia są wprowadzane na coraz szerszą skalę, ale zwłaszcza jeden model sieci neuronowej warto zapamiętać – Transformer.
– Ten model ma przed sobą ogromną przyszłość. Już dziś widzimy jego możliwości przy tłumaczeniu języka naturalnego. To jednak wierzchołek góry lodowej – tłumaczy Patryk Binkowski, Data Scientist z Altimetrik Poland.
Uwaga i siła sekwencji
Transformery jako model głębokiego uczenia wykorzystują mechanizm uwagi. Efekty ich zastosowania możemy zaobserwować m.in. w przetwarzaniu języka naturalnego (NLP) i wizji komputerowej (computer vision). Uwaga (attention) jest tym, czego Transformer potrzebuje, aby móc działać w pełnej skali swoich możliwości. Mechanizmy uwagi polegają na znajdowaniu związków między danymi, co jest kluczem do stworzenia właściwego algorytmu.
Transformer korzysta z danych sekwencyjnych. Jego głównymi elementami są koder i dekoder. Pierwszy koduje tekst wejściowy, tworząc coś w rodzaju reprezentacji. Z kolei dekoder pracuje nad wspomnianą reprezentacją, próbując przełożyć ją na język docelowy. W jaki sposób można to wykorzystać? Po raz pierwszy możliwości Transformerów zostały szczegółowo opisane przez naukowców Google’a. W 2017 roku, w tekście Attention Is All You Need, wykazali, że dzięki Transformerom sieć neuronowa może dokładniej i szybciej tworzyć tłumaczenia z jednego języka na drugi w porównaniu z innymi sieciami.
Tłumaczenia świetnie pokazują potencjał Transformerów. Transformer bada sekwencję słów, a następnie próbuje przewidzieć kolejne, przetłumaczone słowo tak, aby cały tekst był spójny i miał sens.
Przed ich pojawieniem się stosowane były m.in. rekurencyjne sieci neuronowe (RNN), czyli algorytmy modelujące dane sekwencyjne. Te miały jednak trochę wad – przede wszystkim mogą one przetwarzać dane tylko w przód lub w tył. Transformery przetwarzają je jednocześnie w przód i w tył. Mechanizmy RNN okazały się również wadliwe, jeśli chodzi o rezultat, ponieważ niejako „zapominają”, co badały wcześniej. Wynika to z tego, że nowsze dane przykrywają te wcześniejsze. Naukowcy doszli więc do wniosku, że stosowanie RNN w takiej dziedzinie, jak tłumaczenie, jest zwyczajnie nieefektywne.
– Problemy występujące w RNN w Transformerach zostały rozwiązane właśnie dzięki mechanizmom uwagi, które wyłapują kontekst pojedynczej instancji danych, badając w jaki sposób dane słowo wiąże się z innymi słowami. Dzięki mechanizmowi uwagi modele mogą czerpać z danych pojawiających się w dowolnym punkcie sekwencji – wyjaśnia Binkowski.
Transformery a przyszłość AI – nie tylko tłumaczenia
Lista zalet tego modelu jest długa. Transformery umożliwiają tworzenie wielu nowych aplikacji sztucznej inteligencji i zwiększają wydajność programów już istniejących. Mogą pracować z praktycznie każdym rodzajem danych sekwencyjnych – genami, molekułami białkami, listami odtwarzania czy zachowaniami w sieci.
– Transformery mogą nam podpowiedzieć, co nastąpi lub co dzieje się w określonej sekwencji. Ich potencjał można wykorzystać przy pracy z sekwencjami genów, ale też wykorzystywać do wyświetlania reklam na podstawie zachowań w sieci lub do generowania kodu. Mówiąc krótko, Transformery są kolejnym krokiem rozwoju sztucznej inteligencji, która może się uczyć nie tylko na podstawie gotowych danych, ale wykorzystywać kontekst lub tworzyć nowe informacje – podkreśla ekspert Altimetrik Poland.
Choć możliwości związane z Transformerami są obiecujące, ich dalsza adopcja wiąże się z pewnymi wyzwaniami. Jednym z nich jest sama wielkość i wymagania dotyczące przetwarzania danych w celu zbudowania największych modeli. Praca z dużymi modelami Transformerów oznacza bowiem spore koszty zarówno finansowe jak i środowiskowe. Do uruchomienia skryptu trenowania takiego modelu, potrzebna jest obecnie ogromna ilość danych i potężna moc obliczeniowa. Wiąże się to z koniecznością inwestycji w superkomputery, na co obecnie niewiele firm może sobie pozwolić. Z tego powodu wciąż trwają poszukiwania efektywnych metod, które pomogą tworzyć większe, lepsze modele redukując zbędne zasoby i koszty.
– Jedną z takich metod jest µTransfer. Dzięki niemu możliwe jest wytrenowanie jednej sieci, a następnie dostrojenie hiperparametrów kolejnej sieci, która ma inną głębokość lub szerokość. Nie trzeba więc trenować modelu od początku, co do zasady jest bardzo kosztowne – podsumowuje Patryk Binkowski.
Istnieją już także modele, które można nazwać sukcesorami Transformera. Takim przykładem jest Perceiver, który wykorzystuje mechanizm atencji. Polega on na integracji wielu źródeł informacji, m.in. tekstu, obrazu, dźwięku czy filmu. Wszystko wskazuje więc na to, że w tym obszarze dużo się jeszcze wydarzy.