Stiri

Mistral lansează Voxtral TTS, noul model open-source de sinteză vocală pentru aplicații enterprise și asistenți AI

Actualitate 26.03.2026 15:13 Vizualizări

Mistral lansează Voxtral TTS, noul model open-source de sinteză vocală pentru aplicații enterprise și asistenți AI

Compania franceză de inteligență artificială Mistral a lansat joi un nou model open-source de conversie text-vorbire, care poate fi folosit atât de asistenți vocali bazați pe AI, cât și în scenarii enterprise, cum ar fi suportul pentru clienți. Acest model, care permite companiilor să creeze agenți vocali pentru vânzări și interacțiune cu clienții, plasează Mistral în concurență directă cu alte nume importante din domeniu.

Noul model, denumit Voxtral TTS, suportă nouă limbi: engleză, franceză, germană, spaniolă, neerlandeză, portugheză, italiană, hindi și arabă. El este gândit să răspundă cererii clienților pentru un model de vorbire flexibil și accesibil.

„Clienții noștri ne-au cerut un model de vorbire. Așa că am construit un model de dimensiuni reduse, care poate funcționa pe un smartwatch, pe un smartphone, pe un laptop sau pe alte dispozitive de tip edge. Costul lui reprezintă doar o fracțiune din orice altceva de pe piață, dar oferă performanțe de ultimă generație”, a declarat Pierre Stock, vicepreședinte pentru operațiuni științifice la Mistral AI, într-un interviu telefonic.

Mistral afirmă că noul model poate adapta o voce personalizată pornind de la un eșantion de mai puțin de cinci secunde și poate reda caracteristici precum accente subtile, inflexiuni, intonații și neregularități naturale în fluxul vorbirii. Bazat pe arhitectura Ministral 3B, modelul poate comuta ușor între limbi fără să piardă trăsăturile vocii, lucru foarte util pentru aplicații precum dublarea conținutului sau traducerea în timp real. Compania a urmărit în mod explicit ca ieșirea audio să sune cât mai uman, nu artificial sau robotic.

Potrivit companiei, modelul este conceput pentru performanță în timp real. Are un timp până la prima ieșire audio (TTFA) de 90 ms pentru un eșantion de 10 secunde, aproximativ 500 de caractere, adică momentul în care modelul începe „să vorbească” după ce primește textul. De asemenea, prezintă un factor de timp real (RTF) de 6x, ceea ce înseamnă că poate reda un clip de 10 secunde în aproximativ 1,6 secunde.

La începutul acestui an, Mistral a lansat deja două modele de transcriere: unul destinat procesării în loturi mari și altul pentru scenarii în timp real, cu latență scăzută. Odată cu noul model de sinteză vocală, compania vizează să ofere un portofoliu complet de produse vocale pentru mediul enterprise.

„Planificăm să avem o platformă end-to-end care să poată gestiona fluxuri multimodale de intrare, inclusiv audio, text și imagine, precum și ieșirea aferentă. Principalul avantaj este că obții mult mai multe informații cu un sistem agentic cap-coadă, care acceptă audio atât ca intrare, cât și ca ieșire”, a explicat Stock.

Mistral mizează pe caracterul open-source și pe posibilitățile extinse de personalizare ale tehnologiei sale, considerând că aceste elemente vor încuraja companiile să adopte modelele sale vocale în locul celor oferite de competiție, deoarece le pot ajusta exact așa cum au nevoie.

Prietenii tăi merită să știe ASTA!