Da tempo abbiamo messo in evidenza come la voce non possa essere considerata uno strumento valido, affidabile e sicuro per l’autenticazione biometrica.
OpenAI è impegnata nello sviluppo di un nuovo modello chiamato Voice Engine, che utilizza input testuali e un singolo campione audio di 15 secondi per generare una “traccia” audio dall’aspetto naturale che assomiglia molto alle caratteristiche del parlato originale.
L’aspetto maggiormente degno di nota è che un modello complessivamente compatto, possa creare voci emotive e realistiche, partendo da un campione di 15 secondi.
Gli sviluppatori di OpenAI raccontano di aver iniziato lo sviluppo di Voice Engine a fine 2022. Il sistema è stato poi utilizzato per alimentare le voci preimpostate disponibili nell’API text-to-speech, così come i servizi ChatGPT Voice e Read Aloud.
L’azienda dichiara di aver seguito un approccio cauto, rimandando il rilascio della funzionalità per evitare rischi di abusi. I portavoce di OpenAI aggiungono che “assumeranno una decisione più informata su se e come distribuire la tecnologia su larga scala“.
Per comprendere meglio le potenziali applicazioni di Voice Engine, da fine 2023 sono iniziati i test privati con un piccolo gruppo di partner fidati. “Siamo rimasti impressionati dalle applicazioni sviluppate nell’ambito di queste collaborazioni“.
La società guidata da Sam Altman, recentemente oggetto di feroci critiche da parte di Elon Musk, spiega che sebbene possa sembrare controintuitivo, ci sono molteplici campi applicativi di Voice Engine meritevoli di attenzione. E cita alcuni esempi, frutto delle collaborazioni in corso con 100 partner.
Fornire assistenza alla lettura a persone che non possono leggere e ai bambini, usando voci coinvolgenti e realistiche che rappresentano una gamma più ampia di alternative rispetto alle classiche voci di default. Age of Learning, un’azienda impegnata nelle tecnologie per la didattica, ha utilizzato Voice Engine per generare contenuti pre-registrati. In particolare, l’accoppiata Voice Engine più GPT-4 permette di creare risposte personalizzate in tempo reale per interagire con gli studenti.
Tradurre contenuti, come video e podcast, in modo che creatori e aziende possano raggiungere più persone in tutto il mondo. Un primo utilizzatore di questa tecnologia è HeyGen, una piattaforma di storytelling visivo che collabora con i suoi clienti aziendali per creare avatar umanoidi personalizzati per una varietà di contenuti, dal marketing di prodotti alle demo di vendita. Utilizzano Voice Engine per la traduzione video, in modo da poter tradurre la voce di un presentatore in più lingue e raggiungere un pubblico globale.
Raggiungere comunità globali, migliorando la fornitura di servizi essenziali in contesti remoti. Dimagi, racconta OpenAI, sta sviluppando strumenti per gli operatori sanitari volti a fornire una varietà di servizi essenziali, come la consulenza per le madri che allattano. Per aiutare questi operatori a sviluppare le loro competenze, Dimagi utilizza Voice Engine e GPT-4 per dare feedback interattivi usando la lingua madre, anche in quelle meno conosciute e parlate sul pianeta.
Supportare le persone che non riescono ad esprimersi. Livox, un’applicazione di comunicazione alternativa basata sull’IA, alimenta dispositivi di comunicazione che consentono alle persone con disabilità di comunicare. Utilizzando Voice Engine, l’azienda può offrire alle persone la possibilità di sfruttare voci uniche e non robotiche in molte lingue.
Aiutare i pazienti a recuperare la voce. Coloro che lamentano l’impossibilità a parlare o evidenziano una tendenza degenerativa, possono a loro volta avvalersi dei benefici di Voice Engine. L’Istituto di Neuroscienze Norman Prince (Lifespan) ha messo a punto un sistema che permette di esplorare gli utilizzi dell’IA nei contesti clinici. Hanno avviato un programma pilota che offre Voice Engine a individui con eziologie oncologiche o neurologiche che hanno una diretta conseguenza sul linguaggio.
OpenAI precisa che tecnologie come Voice Engine non possono e non devono essere lanciate su larga scala senza aver raccolto sufficienti riscontri da parte di governo, società civile, legali, esperti di istruzione e media.
I partner che stanno testando Voice Engine oggi, hanno accettato le politiche di utilizzo fissate da OpenAI che proibiscono l’imitazione di un’altra persona senza aver prima raccolto un esplicito consenso. Le aziende fidate con cui OpenAI ha stipulato degli accordi, inoltre, devono specificare chiaramente agli utenti che le voci sono generate dall’IA.
La società guidata da Altman specifica inoltre di aver implementato una serie di misure di sicurezza, tra cui il watermarking, per tracciare l’origine di qualsiasi audio generato mediante Voice Engine. Una misura che affianca il cosiddetto monitoraggio proattivo.
OpenAI non è l’unica a battere la strada di un motore in grado di creare modelli sintetizzati per qualunque registrazione vocale fornita in input.
Su GitHub è già disponibile e utilizzabile il sorgente del progetto OpenVoice che apre alla clonazione vocale istantanea. È richiesto soltanto un breve spezzo audio da fornire in ingresso per creare un modello vocale e replicare la voce in tutte le varie lingue,
OpenVoice consente un controllo granulare sugli stili vocali, tra cui emozione, accento, ritmo, pause e intonazione. Permette inoltre di ricalcare il colore del tono dell’oratore di riferimento.
Si tratta anche di una soluzione efficiente dal punto di vista computazionale: secondo gli autori del progetto costa decine di volte meno delle API disponibili in commercio, che offrono prestazioni ancora inferiori.