O nouă aplicație de inteligență artificială, lansată pe 10 ianuarie, a depășit ChatGPT în topul aplicațiilor gratuite de pe App Store în SUA, potrivit Reuters. DeepSeek, originară din China, are la bază modele AI „open-source”, care ar putea rivaliza cu alte modele „closed-source”, adică cele care nu au codul pus la dispoziție în mod public.
Cel mai nou model IA „reasoning” (cu raționament) al firmei, R1, este la același nivel și chiar depășește modelul o1 al OpenAI în anumite benchmark-uri, conform TechCrunch. Totodată, acesta a costat „numai” 5,6 milioane dolari pentru antrenament, comparativ cu investițiile companiilor americane de top în antrenarea modelelor AI proprii.
DeepSeek este un laborator de inteligență artificială, cu sediul în Hangzhou, China, fondat în anul 2023. Firma este deținută de fondul High-Flyer, al antreprenorului Liang Wenfeng.
Cum a apărut DeepSeek
Wenfeng a absolvit informatica și ingineria electrică la Universitatea Zhejiang. Acesta a fondat High-Flyer, un fond speculativ axat pe dezvoltarea și utilizarea algoritmilor de tranzacționare AI.
Antreprenorul a construit un depozit cu peste 10.000 cipuri Nvidia înainte ca SUA să impună restricții privind cipurile AI. Un consultant în cercetare AI de la firma SemiAnalysis estimează că DeepSeek avea cel puțin 50.000 de cipuri, conform MIT.
În aprilie 2023, High-Flyer a început un laborator de inteligență artificială generală dedicat cercetării, dezvoltării de instrumente AI separate de afacerea High-Flyer. În mai 2023, cu High-Flyer ca unul dintre investitori, laboratorul a devenit propria companie, DeepSeek.
Echipa DeepSeek este formată în principal din tineri absolvenți talentați de la universități chineze de top, potrivit Forbes.
Un an mai târziu, odată cu DeepSeek-V2, firma a fost supranumită „Pinduoduo al AI” (Temu) deoarece modelul a oferit performanțe puternice la un preț scăzut, lucru care a determinat ceilalți giganți tech ca ByteDance, Tencent, Baidu și Alibaba să reducă prețurile pentru modelele lor de inteligență artificială.
Ultimul model, V3, lansat la finalul anului 2024, folosește cipurile H800 de la Nvidia, a fost antrenat în 55 zile și vine cu 671 miliarde parametri. DeepSeek-R1, lansat în ianuarie 2025, se concentrează pe sarcini de raționament și rivalizează modelul o1 al OpenAI. Aceste modele de inteligență artificială au stârnit discuții despre eficacitatea restricțiilor de export ale SUA pentru cipurile AI avansate către China.
Reacția industriei din SUA
Marc Andreessen, jumătate din unul din cele mai importante fonduri de investiții pentru startup-uri tech, a16z, a scris pe X că „Deepseek R1 este una dintre cele mai uimitoare și impresionante descoperiri pe care le-am văzut vreodată”.
Antreprenorul din spatele startup-ului de sănătate Curai, Neal Khosla, în schimb, acuză că această companie ar fi o „operațiune psihologică a statului PCC” (Partidul Comunist Chinez) care ar falsifica suma de antrenare „pentru a justifica stabilirea unui preț scăzut și speră că toată lumea trece la el pentru a afecta competitivitatea AI în SUA”. Postarea de pe X are o „notiță” care spune că nu există nicio dovadă că firma ar fi un „psyop”.
Directorul general al fondului Y Combinator a spus că succesul acestui model ar putea fi bun pentru competitorii americani.
„Dacă modelele de antrenament devin mai ieftine mai repede și mai ușor, cererea de inferență (utilizarea reală a AI în lumea reală) va crește și se va accelera și mai repede, ceea ce asigură că oferta de calcul va fi utilizată” – Garry Tan, CEO Y Combinator, pe X.
Adevărata lecție din toată discuția despre noul model AI chinezesc nu este despre SUA vs. China în domeniul AI, ci mai degrabă faptul că „modelele open-source le depășesc pe cele proprietare”, a spus Yann LeCun, cercetătorul-șef al inteligenței artificiale de la Meta, pe LinkedIn.
„DeepSeek a profitat de open research și de open source (de exemplu, PyTorch și Llama de la Meta).Au venit cu idei noi și le-au construit pe munca altora. Deoarece munca lor este publicată și open source, toată lumea poate profita de ea” – Yann LeCun.