Scale AI, chiński startup zajmujący się sztuczną inteligencją, zaskoczył branżę modelem DeepSeek R1 AI. Nowa technologia osiąga wydajność porównywalną z modelami OpenAI, przy jednoczesnym ograniczeniu kosztów rozwoju do zaledwie 5,6 mln dolarów. W porównaniu do miliardowych inwestycji amerykańskich gigantów technologicznych, jest to wynik przełomowy.
O sukcesie R1 AI zadecydowały innowacyjne optymalizacje, w tym wykorzystanie algorytmu Mixture-of-Experts (MoE) oraz niestandardowe podejście do programowania. Model został wytrenowany na 2048 procesorach Nvidia H800, ale kluczowe było pominięcie technologii CUDA na rzecz autorskiego języka DeepSeek PTX. Dzięki temu system działa efektywnie i optymalnie wykorzystuje sprzęt.
Czy Nvidia traci monopol na AI?
DeepSeek R1 AI udowadnia, że CUDA nie jest już niezbędnym standardem w ekosystemie sztucznej inteligencji. Do tej pory Nvidia miała niemal monopol na oprogramowanie dedykowane akceleratorom GPU, jednak rozwój DeepSeek PTX pokazuje, że konkurencyjne rozwiązania również mogą działać skutecznie. To może zwiastować stopniowe osłabienie dominacji Nvidii w tym segmencie.
Otwarty model czy zamknięta technologia?
Mimo obiecujących wyników, wokół DeepSeek R1 AI narastają kontrowersje. Krytycy podkreślają, że model nie jest w pełni open-source, mimo że część jego kodu jest dostępna publicznie. Platforma HuggingFace już zapowiedziała, że zamierza stworzyć otwartą wersję tego systemu, by umożliwić społeczności AI pełniejszy dostęp do tej technologii.
Oskarżenia o destylację i plagiat
Poważniejsze zarzuty pochodzą ze strony OpenAI, które podejrzewa, że DeepSeek R1 AI mógł być trenowany na wynikach generowanych przez GPT-4. Wykorzystanie tzw. destylacji wiedzy, czyli nauki mniejszego modelu na podstawie danych wyjściowych większego modelu, budzi pytania o oryginalność rozwiązania. Jeśli te podejrzenia się potwierdzą, oznaczałoby to naruszenie warunków świadczenia usług OpenAI.
Jednocześnie zarzuty OpenAI mogą być odbierane jako ironiczne – OpenAI samo trenowało swoje modele na danych pobranych z Internetu, nie zawsze respektując prawa autorskie. Oskarżenia pod adresem Scale AI mogą więc przypominać hipokryzję w ekosystemie AI, gdzie każda ze stron czerpie inspirację z cudzych danych.
Nowa era efektywnej AI
Niezależnie od kontrowersji, DeepSeek R1 AI zasygnalizował istotne zmiany w sposobie trenowania modeli sztucznej inteligencji. Niższe koszty, większa wydajność i alternatywa dla CUDA to istotne przesłanki, które mogą wpłynąć na przyszłość branży. Scale AI nie zwalnia tempa – niedawno zaprezentowało nowy model Janus-Pro-7B, który potrafi generować obrazy na poziomie porównywalnym z DALL-E i Stable Diffusion.