Cuffie AI M2: traduzione istantanea per più interlocutori

Gli auricolari wireless hanno sempre offerto Pixel Buds Da Google Feature Traduzione istantanea Sorprendente. Negli ultimi anni, marchi come Timkettle hanno offerto auricolari simili ai clienti aziendali. Tuttavia, tutte queste soluzioni possono gestire solo un flusso audio alla volta per la traduzione.

I ricercatori dell'Università di Washington (UW) hanno sviluppato qualcosa di davvero straordinario: delle cuffie dotate di intelligenza artificiale, in grado di tradurre la voce di più interlocutori contemporaneamente. Immagina una persona poliglotta in un bar affollato, in grado di comprendere simultaneamente i discorsi delle persone intorno a lei che parlano lingue diverse. Questa innovazione rappresenta un salto quantico nella tecnologia della traduzione simultanea.

Il team definisce la propria innovazione come "Traduzione Spaziale del Discorso" e viene realizzata utilizzando cuffie binaurali. Per chi non lo sapesse, la tecnologia audio binaurale cerca di simulare gli effetti sonori esattamente come li percepisce naturalmente l'orecchio umano. Per registrarlo, vengono posizionati dei microfoni sulla testa di un manichino, distanziati tra loro alla stessa distanza delle orecchie umane su entrambi i lati. Questa tecnologia si basa sulla registrazione dell'audio da due sorgenti diverse per creare un'esperienza di ascolto 3D.

Questo approccio è fondamentale perché le nostre orecchie non solo ascoltano i suoni, ma ci aiutano anche a misurarne la direzione della sorgente. L'obiettivo generale è quello di produrre un palcoscenico sonoro naturale con un effetto stereo in grado di fornire una sensazione vivace, simile a quella di un concerto. Oppure, nel contesto moderno, ascolto spaziale. Questa tecnologia migliora l'esperienza dell'utente offrendo un suono surround realistico.

Questo lavoro è frutto del lavoro di un team guidato dal professor Shyam Gollakota, la cui esperienza include applicazioni in grado di integrare GPS subacquei su smartwatch, trasformare coleotteri in fotografi, impianti cerebrali in grado di interagire con dispositivi elettronici, un'app mobile in grado di sentire le infezioni e Plus. Questi risultati evidenziano la competenza del professor Gollakota nelle tecnologie innovative.

Come funziona la traduzione multi-parlante?

"Per la prima volta, abbiamo mantenuto la voce di ogni persona e la direzione da cui proveniva", spiega Golkota, attuale professore presso la Paul G. Allen School of Computer Science and Engineering dell'istituto.

Il team paragona la propria tecnologia a un radar, che inizia identificando il numero di parlanti nell'area circostante e aggiorna tale numero in tempo reale man mano che le persone si avvicinano o escono dal raggio d'azione dell'ascolto. Questo approccio è interamente basato sul dispositivo e non prevede l'invio di flussi vocali dell'utente a un server cloud per la traduzione. Oh, la privacy!

Oltre a tradurre il parlato, il gruppo si occupa anche di preservare "le qualità espressive e il volume della voce di ogni oratore". Inoltre, le regolazioni direzionali e del volume avvengono mentre l'altoparlante si muove nella stanza. È interessante notare che si dice che Apple stia anche sviluppando Un sistema che consente agli AirPods di tradurre la voce in tempo reale.

Come si ottiene la traduzione istantanea con l'intelligenza artificiale?

Il team dell'Università di Washington (UW) ha testato le capacità di traduzione delle cuffie intelligenti basate sull'intelligenza artificiale in circa una dozzina di luoghi al chiuso e all'aperto. In termini di prestazioni, il sistema è in grado di ricevere, elaborare e produrre l'audio tradotto entro 12-2 secondi. I partecipanti al test sembrano preferire un ritardo di 4-3 secondi, ma il team sta lavorando per accelerare il processo di traduzione.

Finora, il team ha testato solo traduzioni per spagnolo, tedesco e francese, ma spera di aggiungere Plus alla suite. Tecnicamente, hanno condensato la separazione cieca delle fonti, la localizzazione, la traduzione espressiva in tempo reale e la trasmissione binaurale in un unico flusso, un'impresa davvero impressionante. Questa integrazione di tecnologie avanzate rappresenta un salto di qualità nel campo della traduzione simultanea.

Per il sistema, il team ha sviluppato un modello di traduzione vocale in grado di funzionare in tempo reale sul chip Apple M2, ottenendo un'inferenza in tempo reale. La parte audio è stata affidata a un paio di cuffie Sony WH-1000XM4 con cancellazione del rumore e a un microfono USB binaurale Sonic Presence SP15C.

Ed ecco la parte migliore. "Il codice macchina proof-of-concept è a disposizione di altri per essere utilizzato", si legge nel comunicato stampa della fondazione. Ciò significa che la comunità scientifica e la comunità del software open source possono imparare e basarsi su progetti più avanzati basati sulle basi gettate dal team UW. Ciò apre le porte a futuri sviluppi nella tecnologia della traduzione mediante l'uso dell'intelligenza artificiale.