L'intelligenza artificiale ci ha ingannato con il gioco del telefono... e il risultato è stato scioccante!

I modelli di generazione di immagini basati sull'intelligenza artificiale stanno avanzando rapidamente, ma è ancora comune che producano immagini discutibili. Poiché è facile supporre che il problema siano i suggerimenti umani, ho deciso di verificare se l'intelligenza artificiale funziona più facilmente utilizzando solo suggerimenti generati dall'intelligenza artificiale stessa. Il processo di generazione di immagini con l'intelligenza artificiale, come ChatGPT e Gemini, dipende in larga misura dalla qualità e dall'accuratezza dei prompt. I risultati saranno diversi utilizzando le richieste automatizzate? Ecco cosa scopriremo in questo esperimento.

Regole pratiche

Quando, qualche anno fa, sono comparsi i modelli di generazione di immagini basati sull'intelligenza artificiale, abbiamo pensato tutti che avrebbero rappresentato un campanello d'allarme per tutti coloro che lavoravano nel settore dei media visivi. Ma non fu così. Nonostante la loro capacità di creare immagini altamente realistiche, le immagini create dall'intelligenza artificiale rientrano spesso nella categoria dell'inaspettato, soprattutto se si ha bisogno di qualcosa di più complesso (ad esempio, l'intelligenza artificiale tende ad avere difficoltà a generare immagini di mani).

La colpa di questo problema può essere attribuita ai modelli di intelligenza artificiale stessi oppure alle carenze degli esseri umani e alle nostre scarse capacità di formulare affermazioni. Un modo naturale per verificare chi è responsabile è verificare se i modelli di generazione delle immagini forniscono risultati migliori se si introducono prompt generati.

L'intelligenza artificiale può offrirci nuove prospettive sui momenti storici?

Per testare questa ipotesi, userò Gemini per creare una serie di prompt che evitino di usare il nome dell'oggetto o dell'immagine che sto cercando di creare. Ciò aiuterà a verificare quanto bene l'IA "legge" le istruzioni. Certo, esiste ancora la possibilità che il modello tragga notevole ispirazione dai dati su cui è stato addestrato (soprattutto quando si ricreano immagini esistenti), ma questa è la realtà, afferma Young.

Il mio strumento preferito per creare immagini sarà Image Creator di Bing (sì, Bing esiste ancora), basato su DALL-E 3. Per mettere alla prova il modello, inizierò con forme semplici, per poi passare a immagini più complesse man mano che l'esperimento procede.

Se hai utilizzato ChatGPT e simili, saprai già quanto possano essere inutili alcune delle sue risposte, e non è stato diverso con i prompt che il modello mi ha posto durante un'esecuzione "beta". Per questo motivo ho deciso di limitarmi a 500 caratteri per mantenere la coerenza dei messaggi.

Come l'intelligenza artificiale gestisce le forme semplici

Cominciamo con un quadrato semplice. Ho chiesto a Gemini di descrivere un quadrato senza dargli un nome e lui ha trovato questa soluzione:

Un quadrilatero con tutti i lati uguali. Ogni angolo interno misura esattamente 90 gradi. È un quadrilatero regolare con i lati opposti paralleli.

Dopo aver inserito la descrizione in DALL-E, ho ottenuto questi risultati:

È un quadrato, va bene, anche se penso che sia un po' troppo geometrico. Era giunto il momento di aumentare la difficoltà, quindi ho chiesto all'IA di descrivere in dettaglio un cubo.

Una forma tridimensionale con sei facce congruenti. Ogni faccia è un quadrilatero regolare con quattro lati uguali e quattro angoli retti. Ha 12 spigoli di uguale lunghezza e 8 vertici. Tutti gli angoli all'interno della figura sono angoli retti.

I risultati sono sorprendenti:

Ricordate cosa abbiamo detto sull'imprevedibilità dei modelli di intelligenza artificiale? Bene, in questo caso DALL-E ha creato un cubo, ma si è confuso un po' e lo ha trasformato in un cubo di Rubik. Nonostante abbia evitato completamente la parola esatta, l'IA ha sbagliato in parte: possiamo attribuire ciò alla popolarità del gioco di puzzle galattico.

L'intelligenza artificiale affronta la fotografia con le persone

La situazione del cubo dimostra che anche con una descrizione accurata e "imparziale", l'intelligenza artificiale può comunque interpretare male istruzioni piuttosto semplici. Vediamo quindi come se la cava con le descrizioni generate dall'intelligenza artificiale di immagini classiche, come "Migrant Mother" di Dorothea Lange. Ecco l'immagine originale:

Si vede una donna, con il volto segnato dalla preoccupazione, che distoglie lo sguardo dalla telecamera. I suoi figli la circondano, con i volti nascosti o girati dall'altra parte. La sua mano è vicina al viso, a esprimere stanchezza e angoscia. La scena evoca povertà e sofferenza. Gli abiti della donna sono trasandati e la composizione generale è cupa, sottolineando la gravità della situazione.

Questa è la visione di DALL-E della famosa immagine:

Così vicino! Ma non è del tutto accurato, poiché DALL-E ha chiaramente ignorato la frase “Circondata dai suoi figli, con i volti nascosti o girati dall'altra parte.Invece di essere la “madre” a mettere la mano al viso, è stato uno dei bambini a ricoprire questo ruolo.

Proviamo qualcosa di più complicato. Potreste aver visto la famosa foto "Pranzo in cima a un grattacielo":

Undici uomini siedono su una trave d'acciaio, in alto, mentre mangiano il loro pranzo, con le gambe penzoloni. La trave è sospesa sopra una città tentacolare. Gli uomini sembrano rilassati, nonostante l'altitudine estrema. Indossano abiti da lavoro e la scena è stata girata da un'angolazione leggermente più bassa, per enfatizzare l'altezza.

Questa meravigliosa affermazione ha prodotto risultati meravigliosi:

Una volta ignorati i classici elementi distintivi di un'immagine generata dall'intelligenza artificiale (vasi identici e soggetti "copiati e incollati"), la composizione e la sensazione generale diventano quasi sorprendenti. Tuttavia, non sorprende: questa immagine non solo è estremamente comune, ma è anche di pubblico dominio, quindi ho il sospetto che DALL-E ne abbia effettivamente recuperato il contenuto durante l'addestramento.

L'intelligenza artificiale può gestire immagini complesse?

Dato che questa è la "prova" finale dell'esperimento, è il momento di fare sul serio! Sebbene l'intelligenza artificiale sia brava a gestire le immagini umane, spesso fallisce quando si trova di fronte a scene complesse e ambigue. E che dire della famosa foto "Earthrise" scattata dall'orbita lunare dall'Apollo 8?

Una sfera parzialmente illuminata è sospesa nello spazio buio. Una sfera più piccola, grigia, si erge sopra il suo orizzonte. La sfera più grande mostra macchie blu e bianche, che suggeriscono acqua e nuvole. Il netto contrasto tra le due sfere e il nero enfatizza la fragilità e l'isolamento della sfera più piccola, che si erge.

I Gemelli (o meglio dovrei dire la palla) non rientrano in questa descrizione. Poiché era troppo astratto, ho aggiunto la frase "catturato da un'orbita vicina alla luna" all'affermazione, ma non è stato di grande aiuto:

È una bella copertina di un album di rock progressivo, ma non ha nulla a che fare con gli Earthrise. Per concludere l'esperimento, ho scelto l'immagine più misteriosa finora, il capolavoro industriale di Edward Weston "Armco Steel":

Una serie di serbatoi metallici industriali rotondi riempie l'inquadratura. Le loro forme sono morbide e tondeggianti, creando un motivo ripetitivo. La luce si riflette sulle superfici, evidenziandone le forme curve e creando un senso di volume. La composizione si concentra sugli aspetti astratti degli oggetti industriali, enfatizzando forma e texture piuttosto che la funzione. La scena è semplice e moderna, con una forte enfasi su luci e ombre.

Sembra una buona idea, vediamo se Dall-E è d'accordo con noi:

Anche se apprezzo l'atmosfera fantascientifica, non assomiglia per niente all'originale. Non volevo concludere l'esperimento con un fallimento totale, quindi ho deciso di aiutare la macchina aggiungendo il termine "fotografia degli anni '1920" alla fine della voce.

Ho pensato che questo termine specifico potesse aiutare a chiarire il quadro a cui mi riferivo. Purtroppo Dall-E mi ha deluso ancora una volta e ha realizzato un'altra copertina di un album progressive rock:

I risultati di questo esperimento sono stati interessanti e la conclusione che possiamo trarre è che la generazione di immagini tramite intelligenza artificiale è altamente imprevedibile, soprattutto nel caso di concetti più astratti. Non importa se l'input è generato dall'intelligenza artificiale e accurato, oppure generato dall'uomo e imperfetto: i risultati sembrano casuali.

Quindi, la prossima volta che proverai a dare la colpa a te stesso e al tuo stile di input, ricorda che i risultati saranno probabilmente molto simili anche se ci sono due dispositivi che comunicano tra loro.