L'assenza di Sora 2 da GPT-5: rappresenta un salto di qualità nella tecnologia video basata sull'intelligenza artificiale?

Forza OpenAI, abbiamo bisogno di una voce!

L'azienda si sta preparando OpenAI Per lanciare una nuova versione del suo modello video pionieristico basato sull'intelligenza artificiale, Sora, in questo trimestre. Pur essendo rivoluzionario al suo lancio, Sora ha poi perso terreno rispetto ai concorrenti, con Veo 3 di Google che ora stabilisce lo standard di riferimento per la generazione di video basati sull'intelligenza artificiale.

Mi aspetto che Sora 2 arrivi nelle prossime settimane o mesi, data la rapida uscita di GPT-5Come GPT-4o, GPT-5 è nativamente multimodale, gestendo qualsiasi tipo di input o output (incluso il video) eseguendo al contempo attività di inferenza complesse simili ai modelli della serie "o".

Sora è ancora una piattaforma potente. La sua funzione Storyboard è innovativa e gli abbonati possono ChatGPT La versione Pro crea clip lunghe fino a 20 secondi. Ma il modello base mostra i segni del tempo. L'output soffre ancora di problemi di motion control, manca la generazione del suono e ha difficoltà a riprodurre la fisica complessa, a differenza di Veo 3, Kling 2.1 o MiniMax 2.

Anche nello spazio dei video social, OpenAI ora deve affrontare la concorrenza di quasi tutte le piattaforme di intelligenza artificiale, tra cui Meta e Grok e Metà viaggioTuttavia, OpenAI rimane il più grande laboratorio di intelligenza artificiale al mondo, con risorse significative e, nonostante le recenti acquisizioni di talenti da parte di Meta, può contare su un team di ingegneri di tutto rispetto. Non sottovalutateli ancora.

Di cosa ha bisogno OpenAI per rendere Sora competitiva?

Per competere con il modello video di Google o con i concorrenti cinesi emergenti nel campo dell'intelligenza artificiale generativa per i video, OpenAI deve massimizzare le sue capacità multimediali, ampliando al contempo il set di funzionalità di Sora. Anche una maggiore integrazione con ChatGPT sarebbe vantaggiosa. Ecco cinque miglioramenti chiave per Sora 2:

1. Generazione audio originale: un requisito essenziale a cui non si può rinunciare

Se OpenAI aspira a competere con Veo 3 di Google nella generazione di video tramite intelligenza artificiale, Sora 2 deve gestire sia video che audio in modo nativo e fluido. Qualsiasi modello che non supporti la generazione audio parte da una chiara debolezza.

Attualmente, Sora produce solo video muti, il che rappresenta un grosso svantaggio, soprattutto perché Veo 3 vanta la capacità di generare effetti sonori, rumori ambientali e persino dialoghi come componente fondamentale delle sue funzionalità. Non si tratta solo di aggiungere l'audio in un secondo momento; si tratta di integrare realmente video e audio.

Veo 3 può produrre dialoghi sincronizzati con le labbra per i personaggi video in più lingue. Sora 2 richiede la stessa capacità di generazione audio integrata, dai paesaggi sonori ambientali ai dialoghi parlati. Questa capacità è essenziale per creare contenuti video realistici e coinvolgenti.

Se OpenAI riuscisse a fornire una generazione completamente multimediale (video + audio) mantenendo una durata video di 20 secondi o più, non solo raggiungerebbe Veo 3, ma potrebbe addirittura superarlo completamente nel mercato della generazione video basata su intelligenza artificiale. Questa superiorità la renderebbe leader in questo campo tecnologico avanzato.

2. Migliorare radicalmente la simulazione fisica

La realtà visiva va oltre la mera accuratezza; si basa principalmente sulla fisica. L'attuale output di Sora presenta spesso movimenti innaturali o una fisica distorta: l'acqua sfida la gravità, gli oggetti si muovono in modo imprevedibile o movimenti che appaiono fondamentalmente sbagliati. Questa mancanza di realismo fisico degrada la qualità del video e lo fa apparire artificiale.

Google ha chiaramente dato priorità a una fisica realistica e realistica con Veo 3, e i risultati parlano da soli. I loro video eccellono nella simulazione di fisica realistica e movimento dinamico con errori minimi. Al contrario, il vecchio modello di Sora produce movimenti a scatti e interazioni incoerenti tra gli oggetti che rovinano l'immersione. Ad esempio, in Sora, si potrebbero vedere oggetti muoversi a velocità estremamente elevate o comportarsi in modi fisicamente impossibili.

Affinché Sora 2 possa competere, il suo modello deve comprendere meglio il comportamento del mondo reale, dall'andatura umana naturale alle palle che rimbalzano, dalla dinamica del fumo alla meccanica dei fluidi. OpenAI deve essenzialmente integrare un motore fisico in Sora. Movimenti e interazioni credibili (niente più arti distorti o sfondi che si fondono) colmeranno un divario critico con i concorrenti. Ciò richiede miglioramenti significativi nel modo in cui il modello comprende e applica la fisica di base.

3. La guida conversazionale dovrebbe essere la norma.

Qual è il segreto di OpenAI? ChatGPT ha già addestrato milioni di persone a comunicare in modo conversazionale con l'intelligenza artificiale. Sora 2 dovrebbe sfruttare questa situazione trasformando la creazione di video in una conversazione, non solo in programmazione.

Invece di richiedere indicazioni perfette o una navigazione tramite interfaccia complessa, il sistema dovrebbe supportare un'ottimizzazione naturale avanti e indietro. Google si sta già muovendo in questa direzione: il suo strumento Flow utilizza l'intelligenza artificiale Gemini per consentire una navigazione intuitiva nel linguaggio quotidiano.

Runway lo fa in modo brillante con la sua modalità chat e ora con il nuovo strumento Aleph che consente a Gen-4 di migliorare in modo esperto ogni singolo elemento. La Dream Machine di Luma è stata progettata da zero con questo concetto in mente.

Immagina questo flusso di lavoro: digita "cavaliere medievale su una montagna", ricevi una bozza del video e poi di' semplicemente "Trasformalo in un'alba e aggiungi un drago" e Sora aggiornerà immediatamente la scena. Questo approccio colloquiale ridurrà le barriere per i principianti e velocizzerà i flussi di lavoro per i professionisti.

La tecnologia esiste. ChatGPT interpreta già le richieste di follow-up e adatta dinamicamente l'output (come dimostrato dall'integrazione nativa delle immagini in GPT-4os). Sora 2, completamente integrato con ChatGPT, dovrebbe permetterci di realizzare video straordinari con le nostre conversazioni. Questa esperienza utente supererà le prestazioni delle indicazioni tecniche di cui la maggior parte dei concorrenti ha ancora bisogno.

Ti permetterà anche di creare prima immagini originali e poi animazioni utilizzando Sora, in modo simile a come Google lavora con Veo 3 in Gemini o con la nuova funzionalità Grok Imagine. Questa integrazione migliorerà significativamente le tue capacità di creazione di contenuti visivi.

4. L'importanza della coerenza e della personalizzazione dei personaggi nella prossima generazione di Sora

La coerenza dei personaggi e delle scene è un altro miglioramento cruciale su cui concentrarsi nello sviluppo di modelli di intelligenza artificiale per la generazione di video. Attualmente, generare due clip della frase "ragazza con un vestito rosso" può produrre due personaggi completamente diversi. L'output di Sora spesso differisce nello stile e nei dettagli tra le diverse generazioni, rendendo quasi impossibile produrre storie multi-scena coerenti o personaggi ricorrenti.

Sora 2 dovrebbe consentire la creazione di personaggi, oggetti e stili artistici coerenti in clip video o serie più lunghe. I concorrenti offrono già questa funzionalità, con Kling 2.1 che vanta "personaggi coerenti e illuminazione cinematografica direttamente da prompt di testo". Flow di Google si spinge oltre, consentendo l'utilizzo di risorse personalizzate (ritratti, stili artistici specifici) come "componenti" in più scene.

OpenAI dovrebbe offrire funzionalità simili: caricamento di immagini di riferimento, perfezionamento dello stile o continuità dei personaggi tra le scene. Se Sora 2 riesce a mantenere un aspetto coerente dei personaggi in un video, i creatori possono davvero raccontare storie invece di produrre clip separate. Soprattutto se offre l'integrazione audio nativa per clip più lunghe di 20 secondi.

Coerenza e personalizzazione lavorano insieme: che siate artisti che vogliono mantenere uno stile distintivo o registi che necessitano di continuità per i loro personaggi, Sora 2 dovrebbe offrire questo controllo. Questo garantisce che la visione dell'utente venga realizzata con maggiore precisione e apre le porte a più ampie possibilità creative nel campo dell'intelligenza artificiale generativa.

5. Integrazione profonda con ChatGPT e disponibilità globale

OpenAI deve rafforzare la propria posizione di mercato integrando completamente Sora 2 in ChatGPT, garantendone al contempo l'ampia accessibilità. Mentre Veo di Google si connette a una suite più ampia di strumenti (tra cui l'integrazione con Gemini, l'accesso alle API e l'app Flow), Meta è destinata a integrare video basati sull'intelligenza artificiale in tutti i suoi prodotti.

OpenAI potrebbe differenziarsi rendendo Sora 2 una funzionalità integrata all'interno di ChatGPT. Questa integrazione immediata offrirebbe a milioni di utenti di ChatGPT uno studio video basato sull'intelligenza artificiale senza dover cambiare app. Potrebbero seguire l'approccio di Google, che impone un limite basso al numero di video che possono essere creati al giorno, offrendo al contempo un abbonamento premium per un accesso illimitato, come avviene attualmente con ChatGPT Pro e Sora.

Ottimizzare l'esperienza mobile è fondamentale. I creator di oggi girano, modificano e pubblicano interamente dai loro telefoni. Se Sora 2 funzionasse all'interno dell'app mobile ChatGPT (o di un'app Sora dedicata) con funzionalità di creazione rapida, potrebbe conquistare il mercato dei creator su TikTok e Reels. Immagina di dire al tuo telefono: "ChatGPT, crea un video di 15 secondi di me nei panni di un astronauta dei cartoni animati che atterra su Marte" e di ricevere contenuti immediatamente condivisibili.

Rendendo Sora 2 onnipresente, tramite ChatGPT, API per sviluppatori e piattaforme mobili, OpenAI può ampliare rapidamente la propria base di utenti, raccogliendo al contempo feedback essenziali sui miglioramenti.

Piattaforme come Leonardo, Freepik e Higgsfield utilizzano già ampiamente Veo 3 di Google e MiniMax 2 di Hailuo perché sono impressionanti, veloci e disponibili tramite API. OpenAI è in ritardo nel campo dell'intelligenza artificiale creativa a causa della mancanza di aggiornamenti per Sora.

Conclusione

OpenAI ha una reale opportunità di riconquistare la leadership nell'intelligenza artificiale generativa imparando dai successi dei suoi concorrenti. Attualmente, il modello Veo 3 di Google è il punto di riferimento grazie alle sue eccezionali capacità di generare voci autentiche, simulare fenomeni fisici realistici e rispondere con precisione ai comandi di testo. Nel frattempo, modelli emergenti come Kling 2.1 e MiniMax 2 continuano a spingere i confini delle possibilità in questo campo.

Runway sta accelerando costantemente con nuovi miglioramenti al suo modello Gen-4, che offre una qualità di simulazione fisica simile a quella di Sora, ma vanta funzionalità aggiuntive. Nel frattempo, altre aziende come Pika si stanno concentrando sul soddisfare le esigenze dei creatori, aumentando la pressione su OpenAI e riducendo la sua quota di questo prezioso mercato.

Sora 2 non può essere solo un semplice miglioramento incrementale: deve stupire tutti con le sue incredibili capacità.

La buona notizia è che OpenAI ha già i mattoni per il successo: un potente modello linguistico, un modello video di prima generazione su cui basarsi e un'enorme base di utenti grazie a ChatGPT. Se OpenAI riuscirà a offrire generazione vocale nativa, simulazione fisica realistica, semplicità di conversazione, posizionamento coerente dei personaggi nelle scene e integrazione perfetta con altri prodotti, Sora 2 supererà senza dubbio Veo 3, Kling e tutti gli altri concorrenti in questo settore.

Se si combinano tutte queste caratteristiche, non sorprendetevi se il prossimo video che diventerà virale sui social media sarà stato creato con Sora 2.

ChatGPT Sora