Stiri

Startupul Guide Labs lansează Steerling-8B, primul LLM open‑source cu trasabilitate completă a fiecărui token în datele de antrenament

Actualitate 23.02.2026 20:49 Vizualizări

171

Startupul Guide Labs lansează Steerling-8B, primul LLM open‑source cu trasabilitate completă a fiecărui token în datele de antrenament

Una dintre cele mai mari provocări în lucrul cu modelele de deep learning este înțelegerea motivului pentru care acestea acționează într-un anumit fel. Fie că este vorba despre eforturile repetate de a ajusta politicile bizare ale anumitor modele, despre tendința altora spre lingușire sau despre halucinațiile obișnuite, explorarea unui rețele neuronale cu miliarde de parametri nu este deloc ușoară.

Guide Labs, un start-up din San Francisco fondat de CEO-ul Julius Adebayo și chief science officer Aya Abdelsalam Ismail, propune acum o soluție. Luni, compania a open-sourc‑at un LLM de 8 miliarde de parametri, Steerling-8B, antrenat cu o arhitectură nouă, concepută pentru a face acțiunile modelului ușor de interpretat: fiecare token produs de model poate fi urmărit înapoi până la originea sa în datele de antrenament ale LLM-ului.

Această trasabilitate poate fi utilizată în moduri simple, precum identificarea materialelor de referință la care modelul a apelat pentru anumite fapte. Sau poate servi unor analize mult mai complexe, cum ar fi înțelegerea modului în care modelul „înțelege” umorul ori genul.

„If I have a trillion ways to encode gender, and I encode it in 1 billion of the 1 trillion things that I have, you have to make sure you find all those 1 billion things that I’ve encoded, and then you have to be able to reliably turn that on, turn them off,” a explicat Adebayo. „You can do it with current models, but it’s very fragile … It’s sort of one of the holy grail questions.”

Adebayo a început această muncă în timpul doctoratului la MIT, fiind coautor al unui studiu din 2020, foarte citat, care arăta că metodele existente de interpretare a modelelor de deep learning nu sunt fiabile. Lucrarea respectivă a dus în timp la o nouă abordare în construirea LLM-urilor: dezvoltatorii introduc un „concept layer” în model, care grupează datele în categorii ușor de urmărit.

Această abordare cere mai mult efort de anotare a datelor la început. Însă, folosind alte modele de inteligență artificială pentru a ajuta în acest proces, echipa a reușit să antreneze Steerling-8B ca cel mai mare proof of concept de până acum.

„The kind of interpretability people do is… neuroscience on a model, and we flip that,” spune Adebayo. „What we do is actually engineer the model from the ground up so that you don’t need to do neuroscience.”

Există totuși o îngrijorare: o astfel de arhitectură ar putea elimina unele dintre comportamentele emergente care fac LLM-urile atât de interesante, precum capacitatea lor de a generaliza în moduri neașteptate asupra unor lucruri pentru care nu au fost antrenate direct. Adebayo susține că aceste fenomene apar în continuare în modelul companiei. Echipa sa urmărește ceea ce numește „discovered concepts” – concepte descoperite autonom de model, cum ar fi calculul cuantic.

Adebayo argumentează că această arhitectură interpretabilă va deveni necesară pentru toată lumea. Pentru LLM-urile orientate către consumatori, tehnicile de acest fel ar trebui să permită dezvoltatorilor să blocheze, de exemplu, folosirea materialelor protejate de drepturi de autor sau să controleze mai bine răspunsurile privind subiecte sensibile, cum ar fi violența sau abuzul de droguri. În industriile reglementate va fi nevoie de LLM-uri mult mai controlabile; de pildă în finanțe, unde un model ce evaluează solicitanți de credite trebuie să ia în calcul istoricul financiar, dar nu rasa.

Există și o nevoie majoră de interpretabilitate în cercetarea științifică, un alt domeniu în care Guide Labs a dezvoltat tehnologie. Deși plierea proteinelor este un mare succes al modelelor de deep learning, oamenii de știință au nevoie de mai multă transparență în ceea ce privește motivele pentru care software-ul identifică anumite combinații ca fiind de succes.

„This model demonstrates is that training interpretable models is no longer a sort of science; it’s now an engineering problem,” afirmă Adebayo. „We figured out the science and we can scale them, and there is no reason why this kind of wouldn’t match the performance of the frontier level models,” care au mult mai mulți parametri.

Guide Labs susține că Steerling-8B poate atinge aproximativ 90% din capabilitățile modelelor existente, dar folosește mai puține date de antrenament datorită arhitecturii sale nou‑introduse. Următorul pas pentru companie, care a ieșit din Y Combinator și a strâns în noiembrie 2024 o finanțare seed de 9 milioane de dolari de la Initialized Capital, este dezvoltarea unui model mai mare și începerea oferirii de acces prin API și agenți pentru utilizatori.

„The way we’re current training models is super primitive, and so democratizing inherent interpretability is actually going to be a long term good thing for our our within the human race,” a declarat Adebayo. „As we’re going after these models that are going to be super intelligent, you don’t want something to be making decisions on your behalf that’s sort of mysterious to you.”

Prietenii tăi merită să știe ASTA!