Instella 3B – AMD pokazuje, że AI to nie tylko domena Nvidii

AMD wkracza na rynek dużych modeli językowych z nową serią Instella, która obejmuje w pełni otwarte modele AI o 3 miliardach parametrów. Dzięki wykorzystaniu procesorów graficznych Instinct MI300X firma nie tylko demonstruje skalowalność swojego sprzętu, ale także rzuca wyzwanie konkurencyjnym rozwiązaniom w obszarze sztucznej inteligencji.

Klaudia Ciesielska
źródło: Unplash/Rubaitul Azad

AMD wprowadziło na rynek nową rodzinę dużych modeli językowych o nazwie Instella, składającą się z modeli o 3 miliardach parametrów. Modele te zostały przeszkolone na procesorach graficznych AMD Instinct MI300X, co pozwoliło na osiągnięcie lepszej wydajności w porównaniu z istniejącymi otwartymi modelami o podobnej wielkości. ​purepc.pl

Instella obejmuje różne wersje: podstawowy model przedszkoleniowy, wersję udoskonaloną oraz modele z nadzorem i strojeniem instrukcji. Modele te obsługują długość sekwencji do 4096 tokenów i są zoptymalizowane pod kątem wydajności dzięki technikom takim jak FlashAttention-2 i Fully Sharded Data Parallelism. W testach porównawczych, Instella-3B przewyższa inne w pełni otwarte modele i zbliża się wydajnością do zamkniętych rozwiązań. Szczególnie dobrze radzi sobie w zadaniach takich jak MMLU i GSM8K.​

Firma planuje dalsze ulepszenia, w tym wydłużenie długości kontekstu i dodanie funkcji multimodalnych. Dzięki temu AMD umacnia swoją pozycję jako konkurencyjny dostawca sprzętu i oprogramowania dla zaawansowanych zastosowań AI.​

Udostępnij