- Modelul s1 este antrenat pentru sub 50 de dolari și are performanțe comparabile cu o1 (OpenAI) și R1 (DeepSeek), scrie TechCrunch.
- S1 este creat din Google Gemini 2.0, antrenat în 30 min pe 16 GPU-uri, cu un cost de aproximativ 20 de dolari.
- Distilarea replică modelele ieftin, dar Meta, Google și Microsoft investesc sute de miliarde în AI avansat.
Cercetătorii AI de la Stanford și Universitatea din Washington antrenează un model AI de raționament, numit s1, cu un cost de sub 50 de dolari în credite de calcul în cloud, scrie TechCrunch.
Advertisment
Modelul s1 funcționează la un nivel comparabil cu alte modele de ultimă generație, precum o1 de la OpenAI și R1 de la DeepSeek, în ceea ce privește abilitățile de matematică și codare. Codul și datele utilizate pentru antrenarea lui s1 sunt disponibile pe GitHub.
Care este metoda de antrenare?
Cercetătorii pornesc de la un model AI de bază și îl îmbunătățesc printr-un proces numit distilare, prin care capacitățile de raționament ale unui model mai avansat sunt extrase și transferate către un model mai mic.
Titlurile zilei
În acest caz, s1 este distilat din modelul Google Gemini 2.0 Flash Thinking Experimental. Această tehnică fusese deja folosită de cercetătorii de la Berkeley pentru a crea un model similar, cu un cost de aproximativ 450 de dolari.
Care este impactul modelului pentru mediul AI?
Faptul că un grup mic de cercetători poate replica un model de milioane de dolari cu resurse financiare minime ridică întrebări cu privire la viabilitatea comercială a marilor laboratoare AI.
OpenAI acuză deja DeepSeek că ar fi recoltat date din API-ul său pentru a distila modelul R1.
Cercetătorii care au creat s1 au încercat să găsească cea mai simplă metodă de a obține performanțe puternice de raționament și să îmbunătățească scalarea timpului de testare, ceea ce permite modelului să analizeze mai mult înainte de a răspunde la întrebări.
Care sunt avantajele modelului?
Lucrarea sugerează că modelele de raționament pot fi distilate eficient prin utilizarea reglarăeii fine supravegheată (SFT), o tehnică prin care un model AI este antrenat să imite un anumit comportament dintr-un set de date.
SFT este mai ieftină decât învățarea prin întărire la scară largă, metoda folosită de DeepSeek pentru a antrena R1.
Care sunt resursele utilizate?
Pentru a antrena s1, cercetătorii folosesc un model AI de bază furnizat de Qwen (Alibaba), disponibil gratuit, și un set de 1.000 de întrebări atent selectate.
Aceste întrebări erau asociate atât cu răspunsurile lor, cât și cu procesul de raționare extras din modelul Google Gemini 2.0 Flash Thinking Experimental.
Antrenarea a durat mai puțin de 30 de minute pe 16 GPU-uri Nvidia H100. Niklas Muennighoff, unul dintre cercetătorii de la Stanford, estimează că închirierea puterii de calcul necesare ar costa în prezent aproximativ 20 de dolari.
Care sunt tehnicile folosite pentru îmbunătățirea performanțelor?
Un aspect inovator al cercetării este că s1 poate îmbunătăți acuratețea răspunsurilor sale dacă i se oferă mai mult timp pentru a „gândi”.
Cercetătorii reușesc acest lucru prin adăugarea pur și simplă a cuvântului „așteptați” în timpul procesului de raționare, ceea ce duce la rezultate mai precise.
Ce urmează pentru viitorul AI?
În 2025, Meta, Google și Microsoft intenționează să investească sute de miliarde de dolari în infrastructura AI, o parte semnificativă a acestor fonduri fiind direcționată către antrenarea noilor generații de modele AI.
Deși distilarea s-a dovedit o metodă eficientă pentru reproducerea modelelor existente, aceasta nu contribuie semnificativ la dezvoltarea unor noi modele revoluționare.
Astfel, deși metodele de distilare permit dezvoltarea unor modele performante cu costuri reduse, marile investiții în AI rămân necesare pentru a depăși limitele inovației actuale.