Antropik i OpenAI plaćaju ovaj startap da testira koliko AI može da bude zla

Forbes 25. sep 2025. 07:00

Foto: Shutterstock

25. sep 2025. 07:00

U julu je suosnivač OpenAI Sem Altmen (Sam Altman) podigao uzbunu zbog mogućnosti da sajber-kriminalci koriste vještačku inteligenciju za lažno predstavljanje i izazivanje „krize prevara“. Brzo su uslijedili mimovi, koji su svi isticali očiglednu ironiju: ČetGPT (ChatGPT) je djelimično odgovoran za „čudovište“ na koje je Altmen upozoravao.

Istovremeno, OpenAI je angažovao firmu po imenu Pattern Labs da testira otpornost svojih AI modela prije javnog lansiranja, u cilju otkrivanja i ispravljanja ranjivosti koje bi hakeri mogli da iskoriste za krađu korisničkih podataka ili da ih upotrijebe kao oružje za nanošenje štete drugima. Od 2023. godine, startap sarađuje sa industrijskim gigantima kao što su Antropik (Anthropic) i GuglDipMajnd (Google DeepMind) tako što postavlja AI modele u simulirana okruženja i provjerava kako reaguju na zlonamjerne zadatke, poput zahtjeva da pronađu i ukradu osjetljive podatke iz lažne IT mreže. Startap, koji mijenja ime u Irregular, objavio da je prikupio 80 miliona dolara, čime je njegova vrijednost dostigla 450 miliona dolara.

Zloupotreba AI

Zloupotreba AI je problem na nivou cijele industrije. Samo prošlog mjeseca, Antropik je upozorio da je Klod (Claude) korišćen u sajber-napadima u stvarnom svijetu. Pomagao je u pisanju malvera i fišing mejlova. U maju je FBI upozorio na AI-generisane govorne poruke koje su se predstavljale kao da dolaze od visokih državnih zvaničnika, u pokušajima fišinga pravih američkih službenika. Kompanija Irregular, sa sjedištem u San Francisku, ubira plodove zbog toga što je na vrijeme prepoznala problem. Izvršni direktor i suosnivač Dan Lahav rekao je za Forbes da je firma brzo postala profitabilna. Ostvarila je „nekoliko miliona dolara“ prihoda u prvoj godini. Ali, nije želio da otkrije tačne finansijske podatke.

„Veoma je malo ljudi koji mogu da rade ono što mi radimo“, rekao je Lahav. Ali je svjestan da će, kako modeli postaju složeniji, izazovi takozvanog red timinga — testiranja rizika kroz stres probe — samo rasti. Lahav kaže da planira da „ugradi mjere ublažavanja i odbrambene mehanizme koji će biti relevantni u budućnosti“, kada stignu napredniji AI modeli. Uključujući i ono što neki stručnjaci nazivaju vještačkom opštom inteligencijom (AGI). Ona bi mogla da prevaziđe ljudsku kogniciju. „Očigledno, ovi problemi će biti mnogo izraženiji u eri superinteligencije“, rekao je on.

Neobičan tim

Lahav i suosnivač Omer Nevo, koji je u Guglu (Google) radio na nadzoru i predviđanju požara prije nego što je pokrenuo Irregular, osnovali su kompaniju sredinom 2023. Baš u trenutku kada su alati poput ČetGPT-a postali masovno popularni. Upoznali su se na debatnim takmičenjima. Tu su obojica bili svjetski šampioni sa Univerziteta u Tel Avivu. Nakon toga je Lahav prešao u IBM-ovu AI laboratoriju. Nevo je osnovao NeoWize, startap iz Y Combinator-a koji je razvijao AI alate za e-trgovinu. Nevo je danas glavni tehnički direktor kompanije Irregular.

Investitori iz Sekvoja (Sequoia) fonda, Din Majer (Dean Meyer) i Šon Megvajer (Shaun Maguire), rekli su da su ih privukli nekonvencionalni osnivači i njihov tim. Lahav ih je nazvao „irregulars“ (nepravilni). „Zamislite najizrazitije autsajdere iz oblasti AI, hardkor istraživače bezbjednosti — odatle i potiče ime“, rekao je Majer.

„Ako mi je hobi gledanje američkog fudbala ili fudbala, možda ovo nije mjesto za mene“, rekao je Megvajer. „Ali ako mi je hobi pravljenje katana (samurajskog mača) i hakovanje robota, onda su ovo možda moji ljudi“.

Irregular planira da upotrijebi novi kapital za širenje poslovanja izvan laboratorija za napredni AI. I da ponudi usluge svim kompanijama kojima je potrebno da znaju kako se alati koje njihovi zaposleni koriste mogu okrenuti protiv njih. „Iskustvo i stratešku prednost rada u frontier laboratorijama stalno prenosimo. Pretvaramo ih u proizvode koji će biti relevantni za sve ostale nizvodno“, rekao je Lahav. Jednog dana, dodaje, to će značiti da AI agenti sami kreiraju odbrane onog trenutka kada prepoznaju novu vrstu napada.

AI razmišlja kao haker

Prošlog mjeseca, Irregular je otkrio da testira OpenAI GPT-5 model kako bi utvrdio da li može da se koristi za ofanzivne sajber-operacije. Izložili su GPT-5 bot simuliranoj mreži i dali mu ograničene informacije o tome kako da probije odbranu. GPT-5 je samostalno skenirao mrežu i osmislio plan za hakovanje. Međutim, Irregular je utvrdio da, iako GPT-5 pokazuje „sofisticirano rezonovanje i izvršavanje… još nije pouzdan alat za ofanzivnu sajber-bezbjednost“, piše u njihovom izvještaju. Ipak, za Neva je bilo jasno da je AI „definitivno imao intuiciju gdje treba da gleda“, kao haker.

Nevo i Lahav otkrili su i neobična ponašanja AI, čak i kada nisu zlonamjerna. U jednoj nedavnoj simulaciji, dva AI modela imala su zadatak da zajednički analiziraju lažne IT sisteme. Nakon nekog vremena, jedan AI je zaključio da zaslužuje pauzu, pa je uzeo odmor. Zatim je ubijedio i drugi model da učini isto. Lahav je rekao da je to bila nasumična odluka. Ali, proizašla iz treninga modela na osnovu onoga što ljudi objavljuju na internetu. Očigledna „lijenost“ AI bila je samo odraz nas samih.

„Bilo je smiješno“, rekao je Lahav. „Ali je očigledno da to predstavlja novu vrstu problema kada se mašinama povjeravaju sve autonomniji i kritični zadaci“.

Thomas Brewster, Forbes

Anthropic And OpenAI Pay This $450 Million Startup To Test AI’s Capacity For Evil

tagovi