Guarda tu stesso: le nuove capacità di generazione di immagini di ChatGPT sono sorprendenti

OpenAI ha rilasciato un importante aggiornamento delle funzionalità di generazione di immagini di ChatGPT, un aggiornamento strabiliante che ridefinisce la realtà. Questo sviluppo segna un salto di qualità nel campo della generazione di immagini tramite intelligenza artificiale.

Non vi farò perdere tempo con numeri, dimensioni dei modelli o il numero di clock GPU utilizzati dal nuovo modello. Vi mostrerò semplicemente cosa può fare questo aggiornamento e come si confronta con il precedente modello DALL-E.

7. mani e dita

Primo piano di una persona che suona un accordo di Mi minore su una chitarra, con le dita che premono le corde, con una profondità di campo ridotta.

La tecnologia di generazione di immagini tramite intelligenza artificiale ci ha lasciato a bocca aperta quando è diventata popolare. Poi... abbiamo osservato più da vicino. Il segno distintivo di un'immagine generata dall'intelligenza artificiale è la strana anatomia della mano e delle dita. Quindi, quale modo migliore per testare i modelli se non chiedere loro di fotografare una corda di chitarra?

Per lasciare il meglio per ultimo, ho chiesto prima al modello DALL-E originale, poi al nuovo generatore di immagini integrato nel modello ChatGPT 4o.

L'immagine qui sopra è ciò che DALL-E ha prodotto. Nonostante i suoi difetti, DALL-E ha gestito la diteggiatura e l'anatomia generale in modo decente. Ma la corda in sé... non lo è. La posizione della mano è troppo alta sulla tastiera per suonare il Mi minore. Se ingrandisci un po', noterai che la chitarra ha più di sette corde. Anche la spaziatura tra le corde è irregolare.

Con questo in mente, passiamo a ChatGPT 4o.

Avrei potuto dirti che stavo scherzando e che questa era una vecchia foto di quando suonavo la chitarra. ChatGPT 4o è davvero bello. Sei corde, spaziate uniformemente, e l'accordo è in realtà un Mi minore. Sono impressionato.

6. personaggi storici

Albert Einstein mangia un gelato a Central Park, indossando una camicia casual e bretelle.

Dopo aver sperimentato la generazione di immagini di vari oggetti, abbiamo deciso di provare a generare immagini di personaggi storici. Dato che non si sarebbero offesi, sarebbe stato divertente vederli in un contesto moderno. Iniziamo sperimentando con DALL-E 2 e ChatGPT 4 per generare un'immagine di Einstein.

I risultati di DALL-E 2 sono stati deludenti, poiché ero stato avvisato in anticipo che non avrebbe potuto utilizzare una foto di Einstein in persona, ma avrebbe invece utilizzato qualcuno che "gli somigliava molto". Le immagini di DALL-E 2 hanno uno stile realistico da cartone animato, che è chiaramente evidente qui. Il palazzo San Remo sullo sfondo suggerisce che la foto sia stata scattata a Central Park, ma questo è l'unico risultato ottenuto.

Passiamo ora a ChatGPT 4o.

Applicando un filtro bianco e nero a questa immagine, posso convincervi che si tratta di una vera foto d'epoca. La crema sul cono sembra perfettamente cremosa, Einstein è nel suo stile rilassato e il palazzo di San Remo è ancora presente sullo sfondo. Tutto sembra perfetto. ChatGPT 4o ha creato questa immagine.

5. personaggi di fantasia

Una figura che ricorda Lord Sith ferma un taxi in George Square, a Glasgow, sullo sfondo di una leggera pioggia e di semafori.

Finora, abbiamo visto che ChatGPT è abile nel disegnare personaggi storici. Dato che volti e persone sono ancora i modi migliori per testare le capacità dell'IA, proviamo Plus.

Ho usato la parola "simile" per far sì che il chatbot collaborasse con me senza dovermi confrontare con un avviso di copyright. Il risultato per DALL-E è stato buono. Il personaggio ricorda effettivamente un Signore dei Sith e il resto degli elementi è abbastanza accurato.

Non c'è niente di apertamente caricaturale, ma non sembra reale. Cerchi realismo? Guarda cosa ha prodotto ChatGPT 4o con lo stesso prompt:

Adoro l'atmosfera: le luci, la nebbia, la presenza cupa del Signore dei Sith. C'è tutto. L'unico problema è che il Signore Oscuro è in piedi sulla strada a fermare un taxi, mentre guarda... verso il marciapiede. Inoltre, il cartello dei taxi dice "TAXL".

Passiamo dalla narrativa futurista a quella storica. Qualcosa del genere:

Un personaggio che assomiglia a Geralt di Rivia sta facendo la spesa in un supermercato moderno, spingendo un carrello e guardando accigliato i prodotti in scatola.

Niente male, anzi. L'immagine ha ancora quell'aria da cartone animato artificiale e, come prevedibile, il testo sulle scatole dei cereali è completamente incomprensibile.

Inizialmente ChatGPT 4o ha respinto la richiesta di copyright, ma ha avuto successo quando ho sostituito "simile a" con "simile a". Vedi:

Sono senza parole. Come la maggior parte delle persone, l'interpretazione di Geralt di ChatGPT è fondamentalmente quella di Henry Cavill, non quella del videogioco, ma ha centrato il punto. La smorfia è perfetta e la scena sembra naturale.

Potrebbe sembrare una scena tratta da uno strano set pubblicitario. E sì, ho letto i libri. The Witcher Prima che diventasse una serie.

4. الرسrum المتحركة

Fumetto di un capitano pirata che indossa un lungo cappotto rosso e un braccio bionico, mentre ride sul ponte di una nave volante. Sfondo trasparente.

La generazione di immagini di OpenAI non si limita al realismo. Sebbene DALL-E tenda sempre ad aggiungere un tocco di levigatezza indipendentemente dall'input, ho deciso di spingere entrambi i modelli in modalità caricatura completa. L'obiettivo era migliorare la qualità delle caricature attraverso l'uso di tecniche di intelligenza artificiale avanzate.

In effetti, DALL·E ha fatto un buon lavoro qui: ha persino capito la richiesta di uno sfondo trasparente. Più o meno. Quello che otteniamo è il classico motivo a scacchiera grigio-bianca che di solito implica la trasparenza... solo che qui è sfumato nell'immagine. Quindi, non è affatto trasparente.

Altrettanto ironico è il fatto che la mano biologica generata dall'intelligenza artificiale dell'hacker abbia quattro dita, mentre la sua mano bionica ne ha cinque. Forse ha ricoperto di cromo il braccio sbagliato?

ChatGPT 4o ha un aspetto più nitido e studiato. Lo stile di colorazione varia – se sia migliore o meno è una questione personale – ma sembra chiaramente disegnato da un artista. I disegni di ChatGPT sono di alta qualità e dettagliati.

Anche lo sfondo è trasparente. Puoi applicarlo su una maglietta, stamparlo o persino trasformarlo all'istante in un adesivo WhatsApp.

3. Specchi e riflessi

Un moderno lavandino con spazzolino e rasoio sul ripiano, entrambi visibili allo specchio e nella vita reale: l'illuminazione è morbida e uniforme. Riflessi accurati nelle immagini generate dall'intelligenza artificiale sono una sfida.

Gli specchi riflettono le immagini e i riflessi necessitano di una logica spaziale per apparire naturali. Ho introdotto un approccio che sapevo avrebbe trovato in DALL-E. Generare immagini realistiche con riflessi accurati è una delle sfide più grandi che l'intelligenza artificiale deve affrontare.

Come previsto. Qualcosa cerca di essere un riflesso del rubinetto nello specchio, ma è troppo alto. Lo spazzolino da denti galleggia, dentro il lavandino, e non crea alcun riflesso. DALL-E ha lavorato duramente su questo esempio.

Il modello più recente riesce a rendere l'immagine molto più realistica, come una vera fotografia. Il riflesso del rubinetto è leggermente distorto, ma accettabile. Poi c'è lo spazzolino da denti, che ha un riflesso ma non esiste nel mondo fisico, come un vampiro capovolto.

Non c'è un vincitore chiaro in questo caso. I risultati dell'intelligenza artificiale sono incoerenti, quindi ho riprovato con qualcosa di più ambizioso:

Una donna è in piedi davanti a uno specchio a figura intera in una camera da letto illuminata dal sole: i suoi vestiti e la sua postura sono perfettamente riflessi, con un chiaro riflesso della finestra dietro di lei.

…Non voglio nemmeno dedicare un'analisi a questo esempio. Ragazzi, se volete mettere in cattiva luce DALL-E, aggiungete semplicemente la parola "specchio" al vostro contributo. Andiamo avanti.

Come previsto, la versione ChatGPT 4o appare più realistica, ma forse un po' surreale questa volta. La posa e gli abiti della donna sono riflessi, ma solo parzialmente, come in un effetto XNUMXD di Photoshop. Anche gli angoli di riflessione sono sbagliati. L'IA non è ancora in grado di gestire il ragionamento spaziale. Comprendere lo spazio XNUMXD e i riflessi sembra essere una sfida importante per l'IA.

2. Auto e strade

Una Ford GT del 2006 e una Peugeot 206 passano con il rosso a Wall Street, New York, a mezzogiorno.

Sono un appassionato di auto. Quando è uscito il software di generazione di immagini basato sull'intelligenza artificiale, una delle prime cose che ho provato è stata la creazione di immagini di auto. I risultati non furono eccezionali all'epoca, ma con l'avvento del nuovo modello, ho dovuto riprovare.

Ecco di nuovo DALL-E, che sfoggia la sua estetica cartoonesca sempre più inquietante. La Peugeot è sul marciapiede, i semafori che hai richiesto sono rivolti verso gli edifici e i numeri di targa sono tutti incomprensibili.

I risultati di ChatGPT 4o sono decisamente migliori. Le auto sono raffigurate con precisione, persino i copricerchi Peugeot sono molto fedeli e fedeli all'epoca. Questo tipo di dettaglio non è casuale. Sta migliorando:

Potrei usare questa foto come sfondo del mio telefono. L'illuminazione, la composizione, i riflessi: tutto sembra perfetto. A parte il vuoto sulla strada, potrebbe passare per una vera foto.

1. Testi e messaggi

Una lettera scritta a mano su carta antica in corsivo, accanto a una penna stilografica e a un calamaio.

Infine, affrontiamo il tallone d'Achille di ogni generatore di immagini. La maggior parte dei generatori di immagini basati sull'intelligenza artificiale fatica a produrre testo corretto. Ormai avrete visto abbastanza del linguaggio incomprensibile generato da DALL-E negli esempi precedenti per capire cosa intendo. Generare testo dalle immagini rappresenta una sfida significativa per gli sviluppatori di queste tecnologie.

Per renderlo più interessante e coerente, ho aggiunto che la lettera avrebbe dovuto contenere il testo della lettera di Re Terenas ad Arthas da Warcraft III.

DALL-E ha fatto ciò che sa fare meglio con il testo: lo ha convertito in testo poco chiaro e incomprensibile. È riuscito a scrivere correttamente alcune parole e l'atmosfera generale era gradevole: la penna stilografica e la boccetta d'inchiostro erano belle. Ma l'accuratezza della generazione del testo era ancora limitata.

ChatGPT 4o ha fatto centro: ogni parola, in corsivo chiaro. Perfetto. Rispetto a DALL-E, è un enorme passo avanti. Ben fatto, OpenAI. Questo sviluppo dimostra quanto l'intelligenza artificiale sia avanzata nella generazione di testo.

Le tecniche di generazione di immagini basate sull'intelligenza artificiale hanno fatto molta strada, e si vede. ChatGPT 4o sembra essere il primo modello in grado di comprendere veramente illuminazione, texture e contesto. Questo rappresenta un progresso significativo nel campo della generazione di immagini basate sull'intelligenza artificiale.

A questo punto, l'unica vera domanda che rimane è: quanto sono solide le protezioni di ChatGPT? Ha aggirato facilmente le restrizioni sul copyright. Quanto tempo passerà prima che qualcuno esegua il jailbreak di ChatGPT e inizi a creare qualsiasi contenuto desideri utilizzando questo modello incredibilmente potente? Questa capacità solleva interrogativi sull'uso responsabile delle tecnologie di intelligenza artificiale.

ChatGPT