Microsoft a creat un program care imită vocea umană în 3 secunde. Poate reproduce tonul și „emoțiile” vorbitorului

Microsoft a lansat VALL-E, un algoritm de IA (inteligenţă artificială) care poate reproduce aproape oricare voce umană pe baza unui fragment audio în limba engleză de doar trei secunde, informează Futurism. Noua apariție din lumea IA poate clona vocea, tonul și „emoțiile” vorbitorului, dar experții spun că ar putea reprezenta o amenințare în ce privește atacurile de phishing și dezinformarea.

Deși tehnologia de bază a sistemului, numită de Microsoft „neural codec language model”, este una complexă, utilizarea VALL-E este extrem de simplă. Practic este nevoie de o înregistrare de 3 secunde a vocii și un text, după care totul va suna cât se poate de real, scrie Futurism.

Există mai multe aplicații de transformare a textului în vorbire, precum popularele Siri și Alexa, dar niciuna nu a reușit până acum performanța de imitare a vocii precum VALL-E. Noul VALL-E reușește să reproducă chiar și tonul emoțional și micile inflexiuni, ceea ce îl face să sune autentic.

Performanța s-a îmbunătățit față de modelele anterioare de voce sintetică atât de mult, încât va fi greu de spus dacă se aude o voce reală sau falsă, spune Microsoft. 

Codul pentru VALL-E nu este în prezent disponibil publicului și au fost publicate doar fișiere audio mostră, produse cu ajutorul instrumentului. Nu este clar când sau dacă Microsoft intenționează să facă VALL-E disponibil ca instrument de acces public sau comercial.