Nuovo metodo per rendere le voci generate dalle IA più espressive

 

Nuovo metodo per rendere le voci generate dalle IA più espressive

I ricercatori hanno trovato un modo per rendere le voci generate dall'IA, come gli assistenti personali digitali, più espressive, con una quantità minima di allenamento. Il metodo, che traduce il testo in discorso, può anche essere applicato a voci che non hanno mai fatto parte del set di allenamento del sistema.


Il team di informatici e ingegneri elettrici della University of California San Diego ha presentato il suo lavoro alla conferenza ACML 2021, che ha avuto luogo online di recente.


Oltre agli assistenti personali per smartphone, case e automobili, il metodo potrebbe aiutare a migliorare le voci fuori campo nei film d'animazione, la traduzione automatica del discorso in più lingue - e altro ancora. Il metodo potrebbe anche aiutare a creare interfacce vocali personalizzate che consentono agli individui che hanno perso la capacità di parlare, simili alla voce computerizzata che Stephen Hawking ha usato per comunicare, ma molto più espressiva.


"Abbiamo lavorato in questo settore per un periodo di tempo abbastanza lungo", ha detto Shehzeen Hussain, uno studente di dottorato presso la UC San Diego Jacobs School of Engineering e uno degli autori principali del documento. "Abbiamo voluto guardare la sfida di non sintetizzare solo il discorso, ma di aggiungere un significato espressivo a quel discorso".


I metodi esistenti sono al di sotto di questo lavoro in due modi. Alcuni sistemi possono sintetizzare un discorso espressivo per un altoparlante specifico utilizzando diverse ore di dati di allenamento per quell'altoparlante. Altri possono sintetizzare il discorso da pochi minuti di dati di un parlante mai incontrato prima, ma non sono in grado di generare un discorso espressivo e solo tradurre il testo in discorso. Al contrario, il metodo sviluppato dal team della UC San Diego è l'unico che può generare con un allenamento minimo un discorso espressivo per un soggetto che non ha fatto parte del suo set di allenamento.


I ricercatori hanno contrassegnato l'intonazione e il ritmo del discorso nei campioni di formazione, come proxy per l'emozione. Questo ha permesso al loro sistema di clonazione di generare un discorso espressivo con un addestramento minimo, anche per voci che non aveva mai incontrato prima.


"Dimostriamo che il nostro modello proposto può far esprimere una nuova voce, emozionare, cantare o copiare lo stile di un dato discorso di riferimento", scrivono i ricercatori.


Il loro metodo può imparare il discorso direttamente dal testo; ricostruire un campione di discorso da un oratore di riferimento; e trasferire il tono e il ritmo del discorso di un diverso oratore espressivo nel discorso clonato per l'oratore di riferimento.


Il team è consapevole che il loro lavoro potrebbe essere utilizzato per rendere i video e le clip audio deepfake più accurati e persuasivi. Di conseguenza, hanno intenzione di rilasciare il loro codice con una filigrana che identificherà il discorso creato dal loro metodo come clonato.


"La clonazione della voce espressiva diventerebbe una minaccia se si potessero fare intonazioni naturali", ha detto Paarth Neekhara, l'altro autore principale del documento e uno studente di dottorato in informatica alla Jacobs School. "La sfida più importante da affrontare è il rilevamento di questi media e ci concentreremo su quello dopo".


Il metodo stesso ha ancora bisogno di essere migliorato. È prevenuto verso i parlanti inglesi e lotta con i parlanti con un forte accento.


Maggiori informazioni: Paarth Neekhara et al, Expressive Neural Voice Cloning. arXiv:2102.00151v1 [cs.SD], arxiv.org/abs/2102.00151

Esempi audio: expressivecloning.github.io/


Scrivi cosa ne pensi

Condividi la tua opinione nel rispetto degli altri. Niente link.

Nuova Vecchia