La ricerca di Samsung in Giappone fa parte di una serie sulle persone e le innovazioni dietro la democratizzazione dell’intelligenza artificiale mobile

Mentre Samsung continua a essere all’avanguardia nelle esperienze di intelligenza artificiale mobile premium, abbiamo visitato i centri di ricerca Samsung in tutto il mondo per scoprire come Galaxy AI consente a un numero maggiore di utenti di raggiungere il loro pieno potenziale. Galaxy AI ora supporta 16 lingue, quindi più persone possono espandere le proprie capacità linguistiche, anche offline, grazie alla traduzione sul dispositivo con funzionalità come traduzione dal vivo, traduttore istantaneo, assistenza per le note e assistenza alla navigazione. Ma cosa comporta l’evoluzione del linguaggio dell’AI? L’ultima volta che abbiamo visitato Polonia Comprendere come i paesi europei cooperano per raggiungere i propri obiettivi. Questa volta siamo in Giappone per vedere come gli sviluppatori si adattano costantemente a nuovi scenari e casi d’uso.

L’Istituto di ricerca e sviluppo del Giappone (SRJ) è stato istituito come centro di ricerca e sviluppo incentrato sull’hardware, come elettrodomestici e display. Poiché la domanda di innovazioni IA cresce in tutto il mondo, SRJ a Yokohama ha anche gestito un laboratorio di sviluppo software per creare la funzione di traduzione live di Galaxy AI che, dalla fine dello scorso anno, traduce automaticamente le chiamate vocali in tempo reale.

“La funzione di traduzione dal vivo è particolarmente utile quando si viaggia, ad esempio per coloro che parteciperanno ai Giochi Olimpici di Parigi di quest’anno”, afferma Takayuki Akasako, Direttore dell’Intelligenza Artificiale presso SRJ. “Attualmente stiamo sviluppando un software di riconoscimento vocale per i turisti che guarderanno le Olimpiadi di Parigi e stiamo addestrando un software di riconoscimento vocale per riconoscere le partite e la posizione degli stadi a Parigi 2024.”

Comprendere il contesto nel riconoscimento vocale

Per coloro che già utilizzano le funzionalità di traduzione del Galaxy AI, queste funzioni potrebbero sembrare molto utili. Ma gli sviluppatori che lo hanno creato sanno che poter comunicare all’estero non è qualcosa di scontato.

Una cosa che il team ha notato è che ci sono più sinonimi in giapponese che in altre lingue. Ad esempio, è relativamente facile distinguere tra “bacchette” (hashi, 箸) e “ponte” (hashi, 橋) a causa della differenza di intonazione, ma parole come “turismo” (kanko, 観光) e “costumi” (kanko, 慣行), “generale” (Kōkyō, 公共) e “prosperità” (Kōkyō, 好況) vanno interpretati a seconda del contesto.

“L’interpretazione diventa più difficile quando il contesto è ambiguo, come nel caso dei nomi di luoghi e persone, nomi propri, dialetti e numeri”, dice Akasako. “Quindi, per migliorare la precisione del riconoscimento vocale, sono necessari molti dati”.

“Siamo sempre alla ricerca di modi per mettere a punto il modello di intelligenza artificiale per adattarlo a eventi e momenti chiave nel tempo”, aggiunge Akasako. “Con così tante nuove combinazioni di nomi di luoghi e attività, è importante che il contesto sia chiaro quando le persone utilizzano Galaxy AI.”

Sfide nella raccolta efficiente dei dati

Sebbene sia importante anche riconoscere i tipi di dati richiesti, la raccolta dei dati in sé rappresenta una sfida separata.

In precedenza, il team SRJ utilizzava dati umani registrati per addestrare il motore di riconoscimento vocale alla funzione di traduzione dal vivo, che non raccoglieva dati sufficienti.

Samsung Gauss, il modello linguistico di grandi dimensioni (LLM) dell’azienda, utilizza script per costruire frasi utilizzando parole o espressioni rilevanti per ogni scenario. I dati raccolti utilizzando Samsung Gauss non vengono solo registrati dalle persone, ma vengono anche generati dai dati di sintesi vocale Dal testo alla voce (TTS), attraverso il quale le persone effettuano il controllo finale di qualità. Utilizzando questo metodo, il team ha riscontrato un miglioramento significativo nell’efficienza della raccolta dei dati.

“Ogni volta che un problema viene identificato e risolto, la precisione del riconoscimento vocale migliora in modo significativo”, spiega Akasako. “Non importa dove siano le persone, il nostro obiettivo è connetterle e gli strumenti basati sull’intelligenza artificiale di Galaxy garantiranno una comunicazione più divertente ed efficace”.