Chiński startup DeepSeek rzuca nowe światło na ekonomię wyścigu o dominację w dziedzinie sztucznej inteligencji. W publikacji na łamach prestiżowego magazynu „Nature” firma ujawniła, że koszt treningu jej modelu R1, skoncentrowanego na rozumowaniu, wyniósł zaledwie 294 000 dolarów.
Kwota ta stanowi ułamek szacunków podawanych przez amerykańskich gigantów, gdzie nieoficjalnie mówi się o wydatkach przekraczających 100 milionów dolarów na trening flagowych modeli.
Informacja ta ponownie rozpala dyskusję na temat realnej pozycji Chin w globalnej rywalizacji AI i podważa narrację, według której tworzenie modeli fundamentalnych jest zarezerwowane wyłącznie dla graczy z niemal nieograniczonym budżetem.
Według autorów artykułu, do treningu modelu R1 wykorzystano klaster 512 procesorów graficznych Nvidia H800 przez 80 godzin. Wybór sprzętu nie jest przypadkowy. Chipy H800 to wersja zaprojektowana przez Nvidię specjalnie na rynek chiński po tym, jak USA w 2022 roku zablokowały eksport potężniejszych jednostek A100 i H100.
Kwestia dostępu do zaawansowanych chipów przez DeepSeek budziła jednak wątpliwości. Amerykańscy urzędnicy sugerowali, że firma mogła pozyskać wydajniejsze układy H100 już po wprowadzeniu restrykcji.
W dokumencie dołączonym do publikacji DeepSeek przyznał, że na wczesnych, przygotowawczych etapach rozwoju korzystał z posiadanych legalnie chipów A100, jednak główny trening R1 odbył się już na jednostkach H800.
Drugim istotnym wątkiem jest technika tzw. destylacji modelu, czyli proces, w którym jeden system AI uczy się na podstawie danych wygenerowanych przez inny, bardziej zaawansowany model. Jest to metoda pozwalająca znacznie obniżyć koszty i czas rozwoju, ale jest postrzegana jako kontrowersyjna, gdy odbywa się bez zgody twórcy oryginalnego modelu.
DeepSeek mierzył się z zarzutami, że celowo „destylował” modele OpenAI. Firma w najnowszej publikacji odniosła się do tych sugestii. Przyznano, że dane treningowe dla jednego z ich modeli zawierały „znaczącą liczbę” odpowiedzi wygenerowanych przez systemy OpenAI.
Przedstawiciele DeepSeek utrzymują jednak, że nie było to celowe działanie, a jedynie przypadkowy efekt uboczny indeksowania publicznie dostępnych treści internetowych.
Ujawnienie niskich kosztów, w połączeniu z wyjaśnieniami dotyczącymi wykorzystywanego sprzętu i metod treningowych, to strategiczny ruch DeepSeek. Startup pokazuje, że jest w stanie tworzyć konkurencyjne rozwiązania znacznie taniej, co może w przyszłości wpłynąć na dynamikę całego rynku AI, który do tej pory zdominowany był przez narrację o gigantycznych kosztach i barierach wejścia.