Ne, DipSik nije „Sputnjik trenutak“

Forbes 31. jan 2025. 21:18

Foto: Shutterstock

31. jan 2025. 21:18

Kineska AI kompanija DipSik (DeepSeek) iznenadila je tehnološke gigante svojim isplativim i sposobnim modelima, ali neki stručnjaci iz industrije nisu impresionirani.

Toliko o panici oko DipSika. Nekoliko dana nakon što je kineska kompanija uzdrmala tehnološku industriju AI modelom koji može parirati američkim konkurentima uz samo djelić troškova razvoja, postaje jasno da je panika, koja je oborila vrijednost Envidije (Nvidia) za više od 450 milijardi dolara i izazvala pomamu u AI zajednici, više bila bezazlen skok uplašenosti, nego stvarna prijetnja iz Kine.

Za Džordža Morgana (George Morgan), izvršnog direktora kompanije Symbolica iz San Franciska, koja takođe razvija isplative AI modele, cijela situacija je pomalo smiješna. „Reakcija tržišta na ovo je potpuno pogrešna i dezinformisana,“ rekao je Morgan za Forbes. „Iskreno, mislim da je u pitanju politička reakcija. Da je u pitanju američka kompanija koja pravi velike jezičke modele (LLM), ne vjerujem da bi dobila ni približno ovoliko pažnje koliko je dobio DipSik.“

Jednostavna istina je da dizajniranje isplativijih osnovnih AI modela, poput DipSik-ovih, nije ništa novo. Ljudi na tome rade godinama. Međutim, postoji još jedan problem: DipSik tvrdi da je obučio veliki jezički model koristeći samo 5,6 miliona dolara vrijedne računske resurse. Ispostavilo se da je taj broj pomalo obmanjujući.

„Tih 5,6 miliona dolara treba uzeti sa rezervom,“ rekao je Ričard Sočer (Richard Socher), izvršni direktor AI pretraživača You.com, dodajući da taj iznos pokriva samo jedno pokretanje treninga (proces u kome se model obučava kroz ogromne količine podataka).

Međutim, da bi se izgradio veliki jezički model od nule, obično je potrebno mnogo više takvih treninga – ponekad i hiljade. DipSik je smanjio troškove tako što je trenirao na već postojećim open-source modelima koje su razvile druge kompanije, uključujući i Metin Llama model. Njihov tehnički dokument jasno navodi da tih 5,6 miliona dolara ne uključuje prethodna istraživanja na kojima se model zasniva, što znači da su stvarni troškovi obuke znatno viši nego što se prikazuje.

Ranije ove nedjelje, izvršna direktorka kompanije Writer, Mej Habib (May Habib), nije bila impresionirana panikom oko DipSika iz istog razloga. „Ovo nije iznenađenje za bilo koga ko prati situaciju,“ rekla je, dodajući da je njena AI kompanija od početka trenirala jeftinije modele. Slično mišljenje dijeli i Itamar Fridmen (Itamar Friedman), izvršni direktor AI alata za kodiranje Qodo. „Možda je posljednje dugme koje su pritisnuli zahtijevalo baš tu količinu računarske snage ili hardvera,“ rekao je. „Ali to ne uključuje sav prethodni trud i ulaganja koja su dovela do tog trenutka.“

To ne znači da je sav hajp oko DipSika neosnovan. Njihovi modeli već nalaze primjenu u nekim američkim AI proizvodima. Kompanija je koristila poznatu tehniku „pojačanog učenja“ (reinforcement learning) da bi postigla bolje rezultate i omogućila besplatan pristup svojoj tehnologiji, što je značajan korak. Međutim, možda još važnija stvar nije tehničke prirode – DipSik je pokrenuo preko potreban razgovor o tome kako postići više uz manje resursa, u trenutku kada Sem Altmen (Sam Altman), osnivač OpenAI-a, traži milijarde dolara za izgradnju data centara širom SAD-a.

„Mislim da su probušili balon ideje da morate imati sve svjetske resurse i svu svjetsku energiju da biste gradili ove modele,“ rekla je Timnit Džibru (Timnit Gebru), osnivačica Instituta za istraživanje distribuirane vještačke inteligencije, za Forbes. „Natjerali su ljude da preispitaju svoje odluke. To smiruje histeriju oko AI investicija jer poručuju: ‘Evo, i mi to možemo.’“

Da li je pojava DipSik modela poziv za buđenje Silicijumske doline

Forbes

Veliki pad na berzi: Američki gigant izgubio 500 milijardi vrijednosti

Forbes Slovenija

Nije iznenađujuće što se pored borbe za niže troškove obuke vodi i rat riječima. Nekoliko dana nakon što je DipSik objavio svoj model, OpenAI ih je optužio da su koristili izlazne podatke iz njihovih vlasničkih modela kako bi obučili sopstvene sisteme (proces poznat kao destilacija), čime su, prema OpenAI-u, prekršili njihove uslove korišćenja. „Znamo da grupe u Narodnoj Republici Kini aktivno rade na metodama za repliciranje naprednih američkih AI modela,“ rekla je Hana Vong (Hannah Wong), glavna komunikacijska direktorka OpenAI-a, za Forbes u imejlu. „Sprovodimo agresivne mjere zaštite naše tehnologije i nastavićemo da blisko sarađujemo sa američkom vladom kako bismo zaštitili najnaprednije modele koji se ovde razvijaju.“

Za OpenAI, koji je svoje moćne modele obučavao skenirajući cijeli internet, uključujući autorski zaštićene sadržaje (zbog čega su ih tužile novinske kuće i grupa pisaca), ova tvrdnja je poprilično ironična. „To je potpuno smiješno,“ rekla je Džibru. „Jednostavno, komično.“ U krajnjoj liniji, kompanija argumentuje da je fer koristiti javne podatke za obuku AI modela, ali sada se žali na isti princip kada ga koristi neko drugi.

Suština je u tome da DipSik nije prva kompanija koja je uradila nešto slično. Majkrosoft (Microsoft) je razvio porodicu malih jezičkih modela Phi tako što je trenirao na izlazima superiornijih modela, poput OpenAI-ovog GPT-4. Kako je Dauvi Kila (Douwe Kiela), izvršni direktor Contextual AI, kratko rekao: „DipSik nije napravio nikakav revolucionaran naučni proboj.“

„Pomalo je senzacionalistički reći: ‘Ovo mijenja sve. Ovo je Sputnjik trenutak,’“ rekao je bivši istraživač u Meti, aludirajući na izjavu Marka Andrisena (Marc Andreessen), osnivača A16. „Mislim da je to veoma daleko od Sputnjik trenutka.“

Rashi Shrivastava, Forbes

No, DeepSeek Is Not A ‘Sputnik Moment’

tagovi

DeepSeek Vještačka inteligencija