Ho provato la nuova funzionalità di generazione di immagini native di Gemini ed è assolutamente fantastica.

Riepilogo:

Google ha lanciato la generazione e la modifica nativa delle immagini utilizzando la nuova versione beta di Gemini 2.0 Flash.
La funzionalità è ora disponibile gratuitamente su AI Studio e consente di generare e modificare una serie di immagini coordinate utilizzando semplici comandi di testo.
Puoi rimuovere e aggiungere elementi, inserire testo, colorare immagini, creare una storia visiva e molto altro ancora.

Da oltre un anno sentiamo parlare di "multimodalità nativa" nell'ambito dell'intelligenza artificiale, ma finora le aziende sono state lente a sfruttare appieno il potenziale multimodale dei loro modelli di intelligenza artificiale. Google ha finalmente rilasciato il suo ultimo prototipo, il “Gemini 2.0 Flash Experimental”, con… Capacità di generare e modificare immagini originaliOh.

Ora, potresti chiederti: qual è l'importanza della generazione delle immagini? La generazione di immagini tramite intelligenza artificiale è disponibile da tempo con tutti i principali chatbot AI come ChatGPT. Bene, quando generiamo immagini AI su ChatGPT o Gemini, queste vengono indirizzate a un modello specializzato basato sulla diffusione come Dall-E 3 o Imagen 3. Questi modelli sono addestrati sulle immagini e sono progettati solo per generare immagini; Si tratta di un'estensione del modello principale di intelligenza artificiale, non di una sua parte.

Tuttavia, modelli di visione linguistica come Gemini Multimediale nativo, ovvero in grado di comprendere, generare e modificare in modo intrinseco sia testo che immagini. Finora nessuna azienda tecnologica ha reso disponibile questa possibilità agli utenti. OpenAI ha dimostrato la sua funzionalità di generazione di immagini native con GPT-4o nel 2024, ma anche in questo caso non è mai stata rilasciata.

Con la funzionalità di generazione delle immagini originali, otterrai: Miglior coordinamento Dove i modelli multimodali vengono addestrati su un enorme set di dati provenienti da media diversi. Di conseguenza, questi modelli hanno una migliore comprensione dei concetti e dimostrano una conoscenza più ampia del mondo.

Oltre a generare immagini, è possibile modificarle senza problemi utilizzando semplici comandi di testo. Ad esempio, è possibile caricare un'immagine e chiedere al modello di aggiungere occhiali da sole, inserire testo in grassetto, rimuovere oggetti e altro ancora. A differenza dei modelli di diffusione che rigenerano l'intera immagine con ogni nuovo comando, i modelli multimediali nativi mantengono la coerenza tra più modifiche.

Crea immagini utilizzando la demo Flash di Gemini 2.0

Attualmente, la funzionalità di creazione delle immagini originali non è disponibile per gli utenti pubblici. La demo Flash di Gemini 2.0 con generazione di immagini native è disponibile solo sulla piattaforma AI Studio di Google (ا) gratuitamente.

Dopo l'anteprima del modello su AI Studio, verrà rilasciato su Gemini affinché tutti possano utilizzarlo nel prossimo futuro. Tuttavia, ho provato il nuovo modello Gemini con la funzione di creazione delle immagini ed è stata un'esperienza davvero entusiasmante.

Per prima cosa ho iniziato con una guida visiva per mostrare la coerenza della capacità di generazione di immagini dei Gemelli. Ho chiesto a Gemini di creare una guida visiva su come preparare una frittata, scattando una foto per ogni passaggio del procedimento.

Come puoi vedere, i risultati sono molto coerenti in tutte le immagini, senza alcun errore. Anche la ciotola è uguale a quella della seconda foto. Infine, puoi scaricare le immagini con una risoluzione di 1024 x 680. In questo modo puoi creare una guida visiva per tutto ciò che desideri.

Poi ho chiesto a Gemini di creare un'immagine estetica del tavolo e poi gli ho chiesto di osservare il tavolo dall'angolazione centrale della telecamera. Ha fatto un lavoro perfetto. Poi ho chiesto a Gemini di aggiungere una PlayStation al tavolo e di dare un'occhiata più da vicino. Ancora una volta, i Gemelli hanno fatto centro. Come potete vedere qui sotto, il modello AI includeva anche il riflesso della PS5 nello specchio dietro di essa.

Per mostrare la modifica fotografica originale, ho caricato una foto dalla mia galleria e ho chiesto a Gemini 2.0 di rimuovere il bicchiere di vino dal tavolo. Poi ho chiesto a Gemini di aggiungere i funghi alla pizza e ha fatto un ottimo lavoro. Poi ho chiesto a Gemini di aggiungere un croissant, ed ecco fatto: l'editing fotografico basato sull'intelligenza artificiale con tutte le sue funzionalità, grazie alle capacità multimediali di Gemini.

Poi ho caricato una mia foto, ho chiesto a Gemini di aggiungere degli occhiali da sole e ho aggiunto la scritta "Beebom" sulla mia maglietta. Entrambe le cose sono state eseguite molto bene.

Infine, ho chiesto a Gemini di colorare un disegno e anche in questo caso è riuscito molto bene. Voglio dire, la foto è più bella di prima, senza strani errori, distorsioni o parti mancanti.

Sono molteplici i casi d'uso che puoi sperimentare con le nuove funzionalità multimediali di Gemini. Google ha fatto un ottimo lavoro con la creazione e la modifica delle immagini native e ho intenzione di utilizzarlo più approfonditamente nelle prossime settimane per testarne i limiti.

Dopo aver rilasciato Veo 2 per la creazione di video e Imagen 3 per la creazione di immagini specializzate, Google sembra aver superato OpenAI in molti ambiti; Non solo nel campo della generazione di testo tramite intelligenza artificiale. Sarà quindi interessante vedere cosa farà OpenAI per riconquistare il primato con ChatGPT.