AMD wprowadziło na rynek nową rodzinę dużych modeli językowych o nazwie Instella, składającą się z modeli o 3 miliardach parametrów. Modele te zostały przeszkolone na procesorach graficznych AMD Instinct MI300X, co pozwoliło na osiągnięcie lepszej wydajności w porównaniu z istniejącymi otwartymi modelami o podobnej wielkości. purepc.pl
Instella obejmuje różne wersje: podstawowy model przedszkoleniowy, wersję udoskonaloną oraz modele z nadzorem i strojeniem instrukcji. Modele te obsługują długość sekwencji do 4096 tokenów i są zoptymalizowane pod kątem wydajności dzięki technikom takim jak FlashAttention-2 i Fully Sharded Data Parallelism. W testach porównawczych, Instella-3B przewyższa inne w pełni otwarte modele i zbliża się wydajnością do zamkniętych rozwiązań. Szczególnie dobrze radzi sobie w zadaniach takich jak MMLU i GSM8K.
Firma planuje dalsze ulepszenia, w tym wydłużenie długości kontekstu i dodanie funkcji multimodalnych. Dzięki temu AMD umacnia swoją pozycję jako konkurencyjny dostawca sprzętu i oprogramowania dla zaawansowanych zastosowań AI.