Startupul Guide Labs lansează Steerling-8B, primul LLM open‑source cu trasabilitate completă a fiecărui token în datele de antrenament
171
Una dintre cele mai mari provocări în lucrul cu modelele de deep learning este înțelegerea motivului pentru care acestea acționează într-un anumit fel. Fie că este vorba despre eforturile repetate de a ajusta politicile bizare ale anumitor modele, despre tendința altora spre lingușire sau despre halucinațiile obișnuite, explorarea unui rețele neuronale cu miliarde de parametri nu este deloc ușoară.
Guide Labs, un start-up din San Francisco fondat de CEO-ul Julius Adebayo și chief science officer Aya Abdelsalam Ismail, propune acum o soluție. Luni, compania a open-sourc‑at un LLM de 8 miliarde de parametri, Steerling-8B, antrenat cu o arhitectură nouă, concepută pentru a face acțiunile modelului ușor de interpretat: fiecare token produs de model poate fi urmărit înapoi până la originea sa în datele de antrenament ale LLM-ului.
Această trasabilitate poate fi utilizată în moduri simple, precum identificarea materialelor de referință la care modelul a apelat pentru anumite fapte. Sau poate servi unor analize mult mai complexe, cum ar fi înțelegerea modului în care modelul „înțelege” umorul ori genul.
„If I have a trillion ways to encode gender, and I encode it in 1 billion of the 1 trillion things that I have, you have to make sure you find all those 1 billion things that I’ve encoded, and then you have to be able to reliably turn that on, turn them off,” a explicat Adebayo. „You can do it with current models, but it’s very fragile … It’s sort of one of the holy grail questions.”
Adebayo a început această muncă în timpul doctoratului la MIT, fiind coautor al unui studiu din 2020, foarte citat, care arăta că metodele existente de interpretare a modelelor de deep learning nu sunt fiabile. Lucrarea respectivă a dus în timp la o nouă abordare în construirea LLM-urilor: dezvoltatorii introduc un „concept layer” în model, care grupează datele în categorii ușor de urmărit.
Această abordare cere mai mult efort de anotare a datelor la început. Însă, folosind alte modele de inteligență artificială pentru a ajuta în acest proces, echipa a reușit să antreneze Steerling-8B ca cel mai mare proof of concept de până acum.
„The kind of interpretability people do is… neuroscience on a model, and we flip that,” spune Adebayo. „What we do is actually engineer the model from the ground up so that you don’t need to do neuroscience.”
Există totuși o îngrijorare: o astfel de arhitectură ar putea elimina unele dintre comportamentele emergente care fac LLM-urile atât de interesante, precum capacitatea lor de a generaliza în moduri neașteptate asupra unor lucruri pentru care nu au fost antrenate direct. Adebayo susține că aceste fenomene apar în continuare în modelul companiei. Echipa sa urmărește ceea ce numește „discovered concepts” – concepte descoperite autonom de model, cum ar fi calculul cuantic.
Adebayo argumentează că această arhitectură interpretabilă va deveni necesară pentru toată lumea. Pentru LLM-urile orientate către consumatori, tehnicile de acest fel ar trebui să permită dezvoltatorilor să blocheze, de exemplu, folosirea materialelor protejate de drepturi de autor sau să controleze mai bine răspunsurile privind subiecte sensibile, cum ar fi violența sau abuzul de droguri. În industriile reglementate va fi nevoie de LLM-uri mult mai controlabile; de pildă în finanțe, unde un model ce evaluează solicitanți de credite trebuie să ia în calcul istoricul financiar, dar nu rasa.
Există și o nevoie majoră de interpretabilitate în cercetarea științifică, un alt domeniu în care Guide Labs a dezvoltat tehnologie. Deși plierea proteinelor este un mare succes al modelelor de deep learning, oamenii de știință au nevoie de mai multă transparență în ceea ce privește motivele pentru care software-ul identifică anumite combinații ca fiind de succes.
„This model demonstrates is that training interpretable models is no longer a sort of science; it’s now an engineering problem,” afirmă Adebayo. „We figured out the science and we can scale them, and there is no reason why this kind of wouldn’t match the performance of the frontier level models,” care au mult mai mulți parametri.
Guide Labs susține că Steerling-8B poate atinge aproximativ 90% din capabilitățile modelelor existente, dar folosește mai puține date de antrenament datorită arhitecturii sale nou‑introduse. Următorul pas pentru companie, care a ieșit din Y Combinator și a strâns în noiembrie 2024 o finanțare seed de 9 milioane de dolari de la Initialized Capital, este dezvoltarea unui model mai mare și începerea oferirii de acces prin API și agenți pentru utilizatori.
„The way we’re current training models is super primitive, and so democratizing inherent interpretability is actually going to be a long term good thing for our our within the human race,” a declarat Adebayo. „As we’re going after these models that are going to be super intelligent, you don’t want something to be making decisions on your behalf that’s sort of mysterious to you.”
23.02.2026
21:23
214
Lech Walesa, despre Trump: trădător al Ucrainei sau lider excepțional care previne un război nuclear?
23.02.2026
21:05
206
OpenAI lansează „Frontier Alliance” și se aliază cu giganții consultanței pentru ofensiva pe piața enterprise până în 2026
23.02.2026
20:47
223
Mărire de temperatură și ploi de februarie în Republica Moldova – marți, 24.02.2026
269
Fanii Xbox, în furtună după plecarea lui Phil Spencer și instalarea unei șefe cu profil de AI în fruntea diviziei de gaming
23.02.2026
20:23
280
Veto-ul Ungariei blochează al 20-lea pachet de sancţiuni UE contra Rusiei, în timp ce Kaja Kallas limitează diplomaţii ruşi la Bruxelles şi vizele pentru ruşii care au luptat în Ucraina
23.02.2026
19:33
288
Aplicația de știri Particle integrează AI pentru a extrage automat clipuri relevante din podcasturi și a le atașa articolelor din feed
23.02.2026
19:26
329
Unicornul cuantic finlandez IQM se pregătește de listare la bursă printr-un SPAC, la o evaluare de 1,8 miliarde de dolari
23.02.2026
19:24
283
Spotify lansează în Marea Britanie și alte piețe playlisturi create cu ajutorul inteligenței artificiale pe baza comenzilor text
23.02.2026
18:36
363
Hackeri chinezi au exploatat breșe VPN pentru a accesa rețelele a peste o sută de clienți Ivanti, inclusiv contractori militari
23.02.2026
18:02
338
Negocieri de pace Ucraina–Rusia, mediate de SUA, ar putea avea loc la sfârșitul săptămânii, anunță șeful de cabinet al lui Zelenski
23.02.2026
22:19
31
Anthropic acuză trei laboratoare chineze de AI că au extras masiv capabilitățile lui Claude pe fondul disputelor SUA‑China privind exportul de cipuri
23.02.2026
22:17
29
Uber își lansează divizia de vehicule autonome pentru a deveni infrastructura-cheie a erei robotaxiurilor și livrărilor fără șofer
23.02.2026
21:59
68
Americanii distrug camerele de supraveghere Flock folosite pentru urmărirea imigranților
23.02.2026
21:23
311
Lech Walesa, despre Trump: trădător al Ucrainei sau lider excepțional care previne un război nuclear?
23.02.2026
21:05
259
OpenAI lansează „Frontier Alliance” și se aliază cu giganții consultanței pentru ofensiva pe piața enterprise până în 2026
23.02.2026
20:49
222
Startupul Guide Labs lansează Steerling-8B, primul LLM open‑source cu trasabilitate completă a fiecărui token în datele de antrenament
23.02.2026
20:47
294
Mărire de temperatură și ploi de februarie în Republica Moldova – marți, 24.02.2026
291
Fanii Xbox, în furtună după plecarea lui Phil Spencer și instalarea unei șefe cu profil de AI în fruntea diviziei de gaming
23.02.2026
20:23
305
Veto-ul Ungariei blochează al 20-lea pachet de sancţiuni UE contra Rusiei, în timp ce Kaja Kallas limitează diplomaţii ruşi la Bruxelles şi vizele pentru ruşii care au luptat în Ucraina
23.02.2026
19:33
308
Aplicația de știri Particle integrează AI pentru a extrage automat clipuri relevante din podcasturi și a le atașa articolelor din feed
23.02.2026
19:26
346
Unicornul cuantic finlandez IQM se pregătește de listare la bursă printr-un SPAC, la o evaluare de 1,8 miliarde de dolari
23.02.2026
19:24
300
Spotify lansează în Marea Britanie și alte piețe playlisturi create cu ajutorul inteligenței artificiale pe baza comenzilor text
23.02.2026
18:36
383
Hackeri chinezi au exploatat breșe VPN pentru a accesa rețelele a peste o sută de clienți Ivanti, inclusiv contractori militari
23.02.2026
18:02
356
Negocieri de pace Ucraina–Rusia, mediate de SUA, ar putea avea loc la sfârșitul săptămânii, anunță șeful de cabinet al lui Zelenski
23.02.2026
18:02
387
Atac ucrainean asupra conductei Drujba tensionează relaţiile cu Ungaria, care ameninţă să blocheze sancţiunile UE şi împrumutul pentru Kiev
23.02.2026
17:52
318
Nisporeni, desemnată Capitala Sportului 2026: investiții de 2 milioane de lei și zeci de evenimente pentru toate vârstele
23.02.2026
17:29
439
Maia Sandu, discuții la Chișinău cu o delegație daneză privind sprijinul pentru aderarea Republicii Moldova la UE
23.02.2026
17:20
480
Reconstrucţia Ucrainei după război va costa 588 de miliarde de dolari în zece ani, de trei ori PIB-ul estimat pentru 2025, locuinţele, transporturile şi energia fiind cele mai afectate sectoare
400
Insularii din Jersey, avertizați asupra pericolelor imaginilor generate de inteligența artificială
23.02.2026
16:47
507
Granturi de până la 60% pentru promovarea exporturilor moldovenești: Agenția de Investiții lansează noua ediție a Programului „BRIDGE Export”
374
Suporterii lui Wolves cer măsuri dure împotriva rasismului de pe rețelele de socializare
457
Vicepremierul pentru reintegrare, Valeriu Chiveri, discută cu parlamentari danezi despre parcursul european și situația din regiunea transnistreană
23.02.2026
15:15
743
Averisment de ULTIMĂ ORĂ: „Putin a declanșat cel de-Al Treilea Război Mondial. Nu se va opri la Ucraina"
23.02.2026
12:24
520
Chișinău, capitala roboților: tinerii din toată țara și-au disputat primul Campionat Național FIRST Tech Challenge Moldova 2026
23.02.2026
12:04
557
Trei morți în atacurile rusești cu drone asupra Ucrainei, doi la Odesa în ajunul a patru ani de la invazie
Anthropic acuză trei laboratoare chineze de AI că au extras masiv capabilitățile lui Claude pe fondul disputelor SUA‑China privind exportul de cipuri
Uber își lansează divizia de vehicule autonome pentru a deveni infrastructura-cheie a erei robotaxiurilor și livrărilor fără șofer
Americanii distrug camerele de supraveghere Flock folosite pentru urmărirea imigranților
Lech Walesa, despre Trump: trădător al Ucrainei sau lider excepțional care previne un război nuclear?
1 MDL
1 EUR
20.19
1 USD
17.16
1 RON
3.96
1 RUB
0.22
1 UAH
0.40


Inapoi














