Eksperci coraz częściej decydują się na badanie polskiego internetu. Fake newsy, hejt czy badania emocji w social mediach to tylko niektóre zagadnienia, które cieszą się dużym zainteresowaniem naukowców. Do niedawna napotykali oni jednak na problemy związane z brakiem odpowiednich narzędzi, które zostały wytrenowane na tekstach w języku polskim. Istniały przede wszystkim anglojęzyczne modele, które nie sprawdzają się w badaniach polskiego internetu. Na szczęście krajowi eksperci zintensyfikowali prace nad polskimi neuronowymi modelami języka.
Obecnie najpopularniejsze są modele typu transformer. Sieci tego rodzaju nie opierają się na sekwencyjnym przetwarzaniu danych, zamiast tego przetwarzają je w sposób jednoczesny. Architektura ta jest stosunkowo nowa – stosowana jest od 2017 roku. Dzięki użyciu wielkich zbiorów danych, modele takie pozwalają na precyzyjne odwzorowanie składni i semantyki polszczyzny. Takie właśnie modele umożliwiają budowę zaawansowanych narzędzi przetwarzania języka polskiego, które służą m.in. do klasyfikacji tekstów.
Model Google’a rozwinięty przez Facebooka i Uniwersytet Waszyngtoński
Punktem zwrotnym w rozwoju modeli typu transformer było zaprezentowanie w 2018 roku przez firmę Google modelu BERT (Bidirectional Encoder Representations from Transformers). Został on następnie rozwinięty przez ekspertów z wielu czołowych instytucji zajmujących się sztuczną inteligencją, między innymi z Facebooka czy Uniwersytetu Waszyngtońskiego. Zaproponowane przez Google rozwiązanie polega na uczeniu sieci neuronowej opartej na architekturze transformer wiedzy syntaktycznej i semantycznej, która jest zawarta w języku naturalnym. Choć model ten został upubliczniony i można na jego podstawie tworzyć inne modele, nie jest to jednak takie proste. Opracowanie nowych algorytmów tego typu wymaga dużych mocy obliczeniowych i specjalistycznej infrastruktury. Niemożliwe jest ich wytrenowanie przez pojedyncze osoby lub małe organizacje. Dodatkowo, niezbędne są duże ilości danych. Pozyskanie odpowiednich, wiarygodnych zbiorów danych stanowi często duży problem. Bez nich jednak otrzymany model będzie złej jakości – będzie popełniał dużo błędów.
“Opracowanie nowych algorytmów typu transformer wymaga dużych mocy obliczeniowych i specjalistycznej infrastruktury. Niemożliwe jest ich wytrenowanie przez pojedyncze osoby lub małe organizacje.”
Polska RoBERTa od OPI PIB
Naukowcy z Ośrodka Przetwarzania Informacji – Państwowego Instytutu Badawczego (OPI PIB) już dawno dostrzegli potencjał, jaki posiadają neuronowe modele języka. W instytucie powstało nawet Laboratorium Inżynierii Lingwistycznej (LIL), w którym eksperci budują inteligentne narzędzia do odkrywania wiedzy z dużych korpusów danych tekstowych i internetowych. To właśnie oni opracowali i wdrożyli Jednolity System Antyplagiatowy (JSA), z którego korzystają wszyscy promotorzy prac dyplomowych w Polsce. Temat neuronowych modeli języka jest jednak tak innowacyjny i obszerny, że również w innych jednostkach OPI PIB eksperci pracują nad tym zagadnieniem. W tym miejscu warto skupić się na pracach Laboratorium Inteligentnych Systemów Informatycznych (LISI). Właśnie eksperci z tego laboratorium opracowali model Polish RoBERTa large, który wytrenowano na największym w Polsce korpusie tekstów. W 2021 roku kontynuowali oni prace i udostępnili uaktualnione wersje modeli Polish RoBERTa oraz przeznaczony do zadań związanych z generowaniem tekstu model GPT-2.
Prace nad Polish RoBERTa large odbywały się w dwóch etapach. Pierwszy polegał na rozszerzeniu korpusu tekstów. Eksperci z LISI dysponowali już bowiem zbiorem około 15 GB danych tekstowych, które zebrano wcześniej przy okazji trenowania modelu ELMo dla języka polskiego. Jednak modele typu BERT mają znacznie większą pojemność i niezbędne jest posiadanie o wiele większego zbioru danych, by w pełni wykorzystać ich potencjał. W grudniu 2019 roku eksperci OPI PIB zaczęli pobierać dane z Common Crawl, publicznego archiwum zawierającego petabajty kopii stron internetowych. Do zbudowania pełnego korpusu pobrano dane Common Crawl z listopada i grudnia 2019 oraz ze stycznia 2020, co pozwoliło – po ich odfiltrowaniu i wyczyszczeniu – zgromadzić odpowiednio duży zbiór. Drugim etapem prac nad polską RoBERTą było jej trenowanie, które trwało od lutego do maja 2020 roku. Z korpusem obejmującym 130 GB danych, co odpowiada ponad 400 tysiącom książek, Polish RoBERTa large została największym modelem wytrenowanym w Polsce. Model także przetestowano z wykorzystaniem Kompleksowej Listy Ewaluacji Językowych (KLEJ benchmark) opracowanej przez Allegro. Umożliwiło to ocenę działania modelu na podstawie dziewięciu zadań, jak np. analiza sentymentu lub badanie semantycznego podobieństwa tekstów. Po analizie KLEJ model OPI PIB zajął pierwsze miejsce w tym zestawieniu.
Jak już wspomniałem, eksperci OPI PIB nie skończyli prac nad rozwojem neuronowych modeli języka. W ubiegłym roku oddali do użytku uaktualnione wersje modeli Polish RoBERTa oraz przeznaczony do zadań związanych z generowaniem tekstu model GPT-2. Część bazową ich korpusu danych stanowią wysokiej jakości teksty (Wikipedia, dokumenty polskiego parlamentu, wypowiedzi z mediów społecznościowych, książki, artykuły, dłuższe formy pisane). Z kolei część internetowa korpusu to ekstrakty ze stron internetowych (projekt CommonCrawl), które wcześniej zostały odfiltrowane i odpowiednio wyczyszczone.
Podsumowując, trenowanie jednego neuronowego modelu języka zajmuje ekspertom ok. 3-4 miesiące. Prace są długotrwałe, ale ich efekty bardzo obiecujące. Wszystkie opracowane w OPI PIB neuronowe modele dotyczą tekstów w języku polskim. Jest to szczególnie cenne, gdyż większość istniejących na świecie tego typu rozwiań opracowanych jest dla języka angielskiego. Dodatkowo, instytut udostępnia je publicznie, dzięki czemu każdy może z nich bezpłatnie skorzystać.
Modele dostępne są na stronie: https://opi.org.pl/modele-uczenia-maszynowego-udostepnione-przez-opi-pib/