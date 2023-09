Fino a poco tempo fa sembrava fantascienza: comunicare tramite videochiamata in cui sullo schermo appare un individuo che vive dall’altra parte del mondo. Questa persona parla in giapponese, ma attraverso le tue cuffie senti le sue parole in spagnolo. Questa è una situazione simile a quella che fanno gli interpreti, che traducono in diverse lingue di persona o online. Tuttavia, la grande differenza è che qui non c’è un essere umano, ma piuttosto un’intelligenza artificiale che traduce e pronuncia simultaneamente il discorso in un’altra lingua.

Kudo, un’azienda cresciuta nel mercato mettendo in contatto gli interpreti Languages ​​​​con clienti aziendali ha fatto un ulteriore passo avanti includendo la tecnologia che esegue l’interpretazione simultanea nelle conferenze online. Non traduce in frasi scritte, ma effettua traduzioni audio, permettendo ai partecipanti ad una videoconferenza di ascoltare la traduzione come se avessero un interprete.

In una demo di EL PAÍS, Tzachi Levi, product manager di Kudo, parla in inglese mentre il suo discorso viene ascoltato quasi in tempo reale in spagnolo. Anche se la voce sembra molto robotica e c’è un leggero ritardo rispetto alla traduzione umana, il risultato è comunque sorprendente. Mentre la performance umana è solitamente ritardata di 5-7 secondi, l’esperienza sintetica è ritardata di circa 10 secondi.

L’azienda ha già 20 clienti aziendali che utilizzano questa funzionalità, che viene costantemente migliorata. Questo strumento funziona sulla piattaforma di videoconferenza di Kudo, ma è anche integrato con Microsoft Teams, molto popolare nel mondo aziendale.

In Kudo assicurano che nelle situazioni in cui è richiesta una precisione di traduzione del 100%, un traduttore umano sarà sempre l’opzione migliore. Il direttore cita come esempio le sessioni del Parlamento europeo: “È possibile che non vengano utilizzati sistemi artificiali, ma nelle riunioni più piccole, dove gli interpreti non sono disponibili in quel momento, questa soluzione può essere efficace”.

Levy sottolinea che il progresso dell’intelligenza artificiale è inevitabile e che i progressi che inizialmente si pensava richiedessero dai 5 ai 10 anni sono stati raggiunti nel giro di pochi mesi. Il campo si sta sviluppando così rapidamente, stima, che entro il prossimo anno l’intelligenza artificiale potrebbe ottenere un’interpretazione accurata nel 90% delle situazioni comuni.

Intelligenza artificiale e umana

Giugno di quest’anno, Cablato Fatto un confronto tra la tecnica Kudo Con traduzione di esperti. Gli esseri umani hanno ottenuto risultati decisamente migliori rispetto allo strumento AI, soprattutto per quanto riguarda il contesto dei discorsi. Claudio Fantinoli, CTO di Kudu e ideatore dello strumento di traduzione automatica, assicura a EL PAÍS che il modello valutato dai media statunitensi tre mesi fa è già stato migliorato del 25%. Il prossimo passo nello sviluppo è l’integrazione dell’intelligenza artificiale generativa per rendere l’esperienza dell’utente più piacevole: la voce suona più fluida, umana e cattura il tono della voce.

Una delle sfide principali, secondo Vantinoli, è far sì che l’intelligenza artificiale interpreti il ​​contesto della narrazione, ovvero ciò che un essere umano capisce tra le righe. Questa è ancora una grande sfida, ma è stata migliorata con “grandi modelli linguistici”, come quello dei chatbot.

Fantinoli, che è anche professore universitario e insegna a giovani studenti che aspirano a diventare artisti professionisti in futuro, afferma di “non vedere alcun conflitto” tra l’intelligenza artificiale e la formazione umana. Inoltre, garantisce che il lavoro dell’esperto sarà sempre della massima qualità. “Cerco di far capire loro che i bot sono una realtà nel mercato e che devono essere al top. L’intelligenza artificiale li sta spingendo ad essere ottimi interpreti.

Una voce, tante lingue

Una possibilità che potrebbe essere vista nel prossimo futuro è l’aggiunta della voce di chi parla nei sottotitoli. Fantinuoli sostiene che ciò sia già tecnicamente fattibile e che ci vorranno alcuni mesi per inserirlo nello strumento della sua azienda. Altre aziende hanno già testato la possibilità di utilizzare un’unica voce per riprodurre contenuti in diverse lingue, ma non contemporaneamente. Questo è il caso della piattaforma Undici laboratoriche dà vita ai contenuti in 30 lingue diverse e con la stessa voce.

Il procedimento è semplice: tutto quello che devi fare è caricare un file audio della durata di più di un minuto con il discorso che vuoi ripetere. Con questo file, lo strumento legge ad alta voce il testo che desideri, sia nella lingua originale che in altre lingue disponibili. La piattaforma offre la possibilità di apportare modifiche personalizzate, regolare la leggibilità o addirittura esagerare lo stile audio in base alle preferenze. Il feedback non solo imita il suono, ma cattura e riflette anche sfumature distinte come tono, ritmo, accento e intonazione.

recentemente, Meta ha lanciato un modello di traduzione multimediale, che può eseguire la traduzione da voce a testo, da voce a voce, da testo a voce e da testo a testo per un massimo di 100 lingue, a seconda dell’attività. Una delle promesse è per i poliglotti, coloro che mescolano due o tre lingue in una frase. L’azienda di Mark Zuckerberg sostiene che questo modello è in grado di distinguere le diverse lingue coinvolte e di effettuare per esse le traduzioni corrispondenti. Sebbene mostri ancora alcuni piccoli errori quando si tratta di questa funzionalità, funziona bene quando la frase è espressa in una lingua. lo strumento Disponibile gratuitamente nella sua versione di prova.

Claudio Fantinoli trova sorprendente il nuovo strumento Meta e lo paragona a “ChatGPT per il discorso parlato”. “Quello che fanno è riunire tutti i modelli, che possono svolgere molti compiti contemporaneamente. Questo è il futuro”, conclude.

