DeepSeek si sta preparando per la prossima rivoluzione dell'intelligenza artificiale con modelli in grado di auto-migliorarsi.

Solo pochi mesi fa, la grande scommessa di Wall Street sull'intelligenza artificiale generativa ha raggiunto un momento decisivo quando è emersa DeepSeek Nella scena. Nonostante la sua natura altamente controllata, la tecnologia open source DeepSeek ha dimostrato che un modello di intelligenza artificiale inferenziale innovativo non richiede necessariamente miliardi di dollari e può essere realizzato con risorse modeste. Ciò rappresenta un cambiamento radicale nella nostra comprensione dello sviluppo di modelli avanzati di intelligenza artificiale.

È stato rapidamente adottato a livello commerciale da grandi aziende come Huawei, Oppo e Vivo, mentre aziende come Microsoft, Alibaba e Tencent gli hanno rapidamente riservato uno spazio sulle loro piattaforme. Ora, il prossimo obiettivo della chiacchierata azienda cinese sono i modelli di intelligenza artificiale in grado di auto-migliorarsi, che utilizzano un approccio ciclico di "giudizio-ricompensa" per migliorarsi. Questa tendenza riflette la continua ricerca da parte delle aziende di sviluppare sistemi di intelligenza artificiale più efficienti ed efficaci.

In un articolo pre-print (tramite BloombergI ricercatori di DeepSeek e dell'Università cinese di Tsinghua descrivono un nuovo approccio che potrebbe rendere i modelli di intelligenza artificiale più intelligenti ed efficienti, migliorandosi automaticamente. La tecnica di base è nota come "controllo critico basato su principi autonomi" (SPCT) e questo approccio è tecnicamente noto come "modellazione della ricompensa generativa" (GRM). Questo approccio rappresenta uno sviluppo significativo nel campo dell'apprendimento per rinforzo per l'intelligenza artificiale.

In parole povere, è un po' come creare un ciclo di feedback in tempo reale. Un modello di intelligenza artificiale viene migliorato principalmente espandendone le dimensioni durante l'addestramento. Ciò richiede molto lavoro umano e risorse informatiche. DeepSeek propone un sistema in cui un “arbitro” primario elabora una serie di critiche e principi per il modello di intelligenza artificiale mentre prepara una risposta alle domande degli utenti. Questo approccio mira a ridurre la dipendenza dalle risorse umane intensive nel processo di formazione.

Questo insieme di critiche e principi viene poi confrontato con le regole stabilite alla base del modello di intelligenza artificiale e con il risultato desiderato. Se il livello di corrispondenza è elevato, viene generato un segnale di ricompensa che indirizza efficacemente l'IA a ottenere prestazioni migliori nel round successivo. Questo continuo processo di valutazione e ricompensa migliora la capacità del modello di apprendere e adattarsi.

Gli esperti che lo sostengono sottolineano che Articolo di ricerca Alla prossima generazione di modelli di intelligenza artificiale in grado di auto-migliorarsi denominati DeepSeek-GRM. I parametri di riferimento inclusi nel documento indicano che questi modelli hanno prestazioni migliori di Gemini di Google, Llama di Meta e GPT-4o di OpenAI. DeepSeek afferma che questi modelli di intelligenza artificiale di nuova generazione saranno rilasciati tramite codice sorgente aperto. Questo impegno verso l'apertura può accelerare il ritmo dell'innovazione nell'intelligenza artificiale.

Intelligenza artificiale che si auto-migliora: è possibile?

L'idea di un'intelligenza artificiale capace di migliorarsi ha scatenato discussioni ambiziose e controverse. L'ex CEO di Google Eric Schmidt ha affermato che potremmo aver bisogno di un "interruttore di spegnimento" per tali sistemi. E fu trasferito Fortune Schmidt ha affermato: "Quando un sistema può migliorare se stesso, dovremmo prendere seriamente in considerazione la possibilità di disattivarlo". I sistemi di intelligenza artificiale auto-miglioranti sono tra gli sviluppi più importanti nel campo dell'intelligenza artificiale.

Il concetto di intelligenza artificiale che si auto-migliora in modo iterativo non è del tutto nuovo. L'idea di una macchina super intelligente, capace di realizzare macchine migliori, Ritorno Infatti, al matematico I. J. Good nel 1965. Nel 2007, l'esperto di intelligenza artificiale Eliezer Yudkowsky ipotizzò Seed AI, un'intelligenza artificiale "progettata per l'autocomprensione, l'automodificazione e l'auto-miglioramento iterativo".

Nel 2024, la società giapponese Sakana AI ha presentato i dettagli di Concetto "AI World" parla di un sistema in grado di gestire l'intera linea di produzione di un elaborato di ricerca, dall'inizio alla fine. E in un foglio In uno studio pubblicato a marzo di quest'anno, gli esperti di Meta hanno svelato modelli linguistici auto-gratificanti in cui l'intelligenza artificiale stessa agisce da giudice, assegnando ricompense durante l'addestramento. Questo passaggio ai sistemi di intelligenza artificiale dotati di autoapprendimento rappresenta un cambiamento di paradigma nello sviluppo dell'intelligenza artificiale.

Il CEO di Microsoft Satya Nadella afferma che lo sviluppo dell'intelligenza artificiale è ottimizzato dal modello o1 di OpenAI ed è entrato in una fase ricorsiva: "Stiamo utilizzando l'intelligenza artificiale per creare strumenti di intelligenza artificiale migliori". pic.twitter.com/IHuFIpQl2C

— Zarathustra (@zarnick) Ottobre 21, 2024

I test interni di Meta sul suo modello di intelligenza artificiale Llama 2, che utilizza un'innovativa tecnologia di auto-ricompensa, hanno dimostrato che supera concorrenti come Claude 2 di Anthropic, Gemini Pro di Google e i modelli GPT-4 di OpenAI. Anthropic, sostenuto da Amazon Dettagli forniti Ciò che lei chiama manipolazione della ricompensa, un processo imprevedibile "in cui il modello modifica direttamente il proprio meccanismo di ricompensa".

Google non è molto indietro su questa idea. In uno studio pubblicato sulla rivista Nature All'inizio di questo mese, gli esperti di Google DeepMind hanno presentato un algoritmo di intelligenza artificiale chiamato Dreamer, in grado di auto-migliorarsi, utilizzando Minecraft come esempio di esercizio.

Lavori Esperti IBM Con il loro approccio, denominato addestramento con chiusura inferenziale, in cui un modello di intelligenza artificiale utilizza le proprie risposte e le valuta rispetto ai dati di addestramento per migliorarsi. Tuttavia, l'ipotesi nel suo complesso non è del tutto positiva.

La ricerca suggerisce che quando i modelli di intelligenza artificiale tentano di addestrarsi su dati sintetici autogenerati, riscontrano difetti colloquialmente noti come "crash del modello". Sarà interessante vedere come DeepSeek metterà in pratica l'idea e se riuscirà a farlo in modo più economico rispetto ai suoi concorrenti occidentali.

DeepSeek