Nvidia aiuta a risolvere le sfide più grandi nella generazione di immagini basate sull'intelligenza artificiale.

Gli elevati requisiti di potenza e di elaborazione rappresentano un problema fondamentale dell'intelligenza artificiale, soprattutto in attività come la creazione di contenuti multimediali. Sui telefoni cellulari, quando si eseguono queste attività in locale, solo pochi dispositivi costosi dotati di processori potenti riescono a eseguire tutte le funzionalità. Anche se implementato su larga scala nel cloud, si tratta di un processo costoso.

Nvidia potrebbe aver affrontato questa sfida in modo discreto, in collaborazione con il MIT e la Tsinghua University. Il team ha creato uno strumento di generazione di immagini di intelligenza artificiale ibrida chiamato HART (Hybrid Auto Transformer) combina essenzialmente due delle tecniche di generazione di immagini basate sull'intelligenza artificiale più diffuse. Il risultato è uno strumento molto veloce con requisiti di elaborazione notevolmente inferiori.

Per darvi un'idea di quanto sia veloce, le ho chiesto di creare l'immagine di un pappagallo che suona un basso. L'immagine successiva è stata restituita in circa un secondo. Riuscivo a malapena a tenere il passo con la barra di avanzamento. Quando ho utilizzato lo stesso input con un modulo Immagine Google 3 Su Gemini ci sono voluti circa 9-10 secondi con una connessione Internet da 200 Mbps.

Un enorme passo avanti nella generazione di immagini utilizzando l'intelligenza artificiale

Quando le immagini basate sull'intelligenza artificiale hanno iniziato a prendere piede, la tecnologia di diffusione è stata la forza trainante di tutto, alimentando prodotti come il generatore di immagini Dall-E di OpenAI, Imagen di Google e Stable Diffusion. Questo metodo produce immagini dettagliate e ad alta risoluzione. Tuttavia, per generare immagini AI sono necessari più passaggi, il che rende il processo lento e dispendioso a livello computazionale.

Il secondo approccio che ha recentemente guadagnato popolarità è quello dei modelli autoregressivi, che funzionano in modo simile ai chatbot e generano immagini utilizzando la tecnologia di previsione dei pixel. Questo metodo è più veloce, ma è anche più soggetto a errori nella generazione delle immagini AI.

Un team del MIT ha combinato entrambi i metodi in un unico pacchetto chiamato HART. Questa tecnica si basa su un modello autoregressivo per prevedere gli elementi dell'immagine compressa come token discreti, mentre un piccolo modello di diffusione si occupa del resto per compensare la perdita di qualità. Questo approccio riduce il numero di passaggi utilizzati da più di venti a soli otto.

Gli esperti di HART sostengono che questa tecnologia "genera immagini che corrispondono o superano la qualità dei modelli di diffusione all'avanguardia, ma lo fa circa nove volte più velocemente". HART combina un modello autoregressivo con un intervallo di 700 milioni di parametri e un modello di diffusione ridotto in grado di gestire 37 milioni di parametri.

Risolvere la crisi dei costi informatici

È interessante notare che questo strumento HART ibrido è stato in grado di generare immagini di qualità pari a quella dei modelli più avanzati, con una capacità di 2 miliardi di parametri. Ma la cosa più importante è che HART è riuscito a raggiungere questo risultato con una generazione di immagini nove volte più veloce, riducendo al contempo le risorse di elaborazione del 31%.

Secondo il team, l'approccio a bassa elaborazione consente a HART di funzionare in modo nativo su telefoni e laptop, il che rappresenta un grande successo. Finora, i prodotti di mercato più diffusi, come ChatGPT e Gemini, necessitano di una connessione Internet per generare le immagini, poiché l'elaborazione avviene su server cloud.

Nel video di prova, il team ha dimostrato che funziona in modo nativo su un laptop MSI dotato di un processore della serie Intel Core e di una scheda grafica Nvidia GeForce RTX. Questa è una combinazione che puoi trovare nella maggior parte dei portatili da gaming in commercio, senza dover spendere una fortuna.

HART è in grado di produrre immagini con rapporto di aspetto 1:1 con una risoluzione di 1024 x 1024 pixel. Il livello di dettaglio di queste immagini è impressionante, così come la varietà stilistica e la precisione della scena. Durante i test, il team ha osservato che lo strumento di intelligenza artificiale ibrida era da tre a sei volte più veloce e garantiva una produttività oltre sette volte superiore.

Le possibilità future sono entusiasmanti, soprattutto se si uniscono le capacità di elaborazione delle immagini di HART con i modelli linguistici. "In futuro, si potrebbe interagire con un modello generativo unificato di visione e linguaggio, magari chiedendogli di mostrare i passaggi intermedi necessari per assemblare un mobile", afferma il team del MIT.

Stanno già esplorando questa idea e hanno addirittura in programma di testare l'approccio di HART alla generazione di audio e video. Puoi provarlo su Pannello di controllo Web MIT.

Alcuni svantaggi

Prima di addentrarci nella discussione sulla qualità, è opportuno sottolineare che HART è ancora un progetto di ricerca nelle sue fasi iniziali. Dal punto di vista tecnico, il team ha evidenziato alcuni ostacoli, come ad esempio l'aumento dei costi generali durante i processi di inferenza e formazione. Si prevede che questo programma registrerà importanti sviluppi nel prossimo futuro.

Queste sfide possono essere risolte o trascurate, poiché sono di secondaria importanza nel contesto più ampio delle cose. Inoltre, dati gli enormi vantaggi offerti da HART in termini di efficienza di elaborazione, velocità e latenza, queste sfide potrebbero persistere senza comportare problemi di prestazioni significativi.

Durante la mia breve esperienza con HART utilizzando prompt di testo, sono rimasto stupito dalla rapidità con cui venivano generate le immagini. Non mi è mai capitato di trovarmi di fronte a una situazione in cui il freeware impiegasse più di due secondi per creare un'immagine. Anche con prompt lunghi tre paragrafi (circa 200 parole), HART è riuscito a generare immagini che corrispondevano perfettamente alla descrizione.

Oltre all'accuratezza della descrizione, le immagini erano molto dettagliate. Tuttavia, HART presenta gli svantaggi dei tipici software di generazione di immagini basate sull'intelligenza artificiale. Ha difficoltà a realizzare figure e disegni di base, come il mangiare, l'allineamento dei personaggi e la cattura della prospettiva.

Il realismo nel contesto umano è un ambito in cui ho notato evidenti difetti. In alcune occasioni il programma non ha capito cose basilari, come ad esempio confondere un anello con una collana. Ma nel complesso questi errori sono stati pochi e prevedibili. Molti strumenti di intelligenza artificiale non riescono ancora a farlo correttamente, nonostante siano in circolazione da un po' di tempo.

Nel complesso, sono molto entusiasta dell'enorme potenziale di HART. Sarà interessante vedere se il MIT e Nvidia ne creeranno un prodotto o se adotteranno semplicemente l'approccio ibrido di generazione di immagini basate sull'intelligenza artificiale in un prodotto esistente. In ogni caso, è uno scorcio di un futuro molto promettente.