La startup di intelligenza artificiale supera Gemini 3 nel test di inferenza chiave

Da quando è apparso Gemini 3 Per la prima volta, mantiene con successo la sua posizione al vertice della Classifica LMArenaQuesta lista è una classifica collettiva in cui migliaia di utenti reali confrontano i modelli. Intelligenza artificiale Si mettono alla prova a vicenda su una vasta gamma di compiti, votando la risposta migliore. Ma quando si tratta di soddisfare i criteri di inferenza più severi, c'è una nuova stella nascente, che ha già superato Google, e lo ha fatto senza dover addestrare un proprio modello.

Una startup di sei persone chiamata Poetiq afferma di essersi classificata al primo posto in Kit di prova semi-speciale ARC-AGI-2Si tratta di una sfida di inferenza estremamente difficile, ideata dal ricercatore di intelligenza artificiale François Chollet. Il sistema della startup ha ottenuto un punteggio del 54%, superando il punteggio precedentemente riportato da Google per Gemini 3 Deep Think, pari a circa il 45%.

Per mettere le cose in prospettiva, solo sei mesi fa la maggior parte dei modelli di intelligenza artificiale era bloccata sotto il 5% su questo benchmark. Superare il 50% era un'impresa che i ricercatori ritenevano ampiamente necessaria, anni.

E la parte più sorprendente: la svolta di Poetiq non è stata supportata da un nuovo modello di frontiera, bensì da un modo più intelligente di organizzare i modelli esistenti.

Come ha fatto Poetiq a raggiungere questo risultato?

Invece di costruire un convertitore imponente da zero, Poetiq ha sviluppato quello che definisce un metasistema; essenzialmente un controller AI che supervisiona, critica e migliora l'output di qualsiasi modello a cui viene collegato. Per il loro lavoro su ARC-AGI-2, il team ha utilizzato il Gemini 3 Pro come modello di base.

Poetiq descrive il sistema come un ciclo di ottimizzazione strettamente controllato: Crea > Critica > Migliora > Controlla.

Ecco cosa lo rende speciale:

Non è richiesta alcuna riqualificazione: Il sistema si adatta ai nuovi modelli nel giro di poche ore.
È costruito interamente su grandi modelli linguistici già pronti: Nessuna modifica personalizzata disponibile
prezzo più basso o più conveniente: Si dice che Deep Think di Google costi 77 dollari per attività; il sistema di Poetiq si avvicina ai 30 dollari.
Open source: La soluzione è pubblicamente disponibile e verificabile.
Autoverifica: Il sistema valuta le proprie risposte prima di restituire il risultato finale.

على الموقع الإلكتروني Per l'azienda, il team di Poetiq afferma che questo approccio funziona estraendo Plus dalla potenza di inferenza dei grandi modelli linguistici esistenti, non aumentando brute force il calcolo.

Perché il test ARC-AGI-2 è importante?

Mentre la maggior parte dei test standardizzati misurano competenze limitate come la programmazione o la matematica, ARC-AGI-2 è stato progettato per testare qualcosa di più profondo: il riconoscimento di schemi, la misurazione, il ragionamento astratto e il tipo di generalizzazione che gli esseri umani apprendono nella prima infanzia.

È intenzionalmente difficile e notevolmente ostile agli attuali Large Language Model (LLM). Persino molti modelli sofisticati falliscono clamorosamente in questo ambito.

Per questo motivo, il balzo da risultati a una sola cifra al 54% in sei mesi è stato sorprendente. Ciò indica progressi nei metodi di inferenza, non solo nelle dimensioni del modello grezzo.

Tuttavia, il risultato di Poetiq si applica specificamente al gruppo di test semi-privato, che non è completamente aperto al pubblico. Il sito web dell'azienda afferma che il risultato è stato convalidato dall'organizzazione di benchmarking, ma la replica indipendente di terze parti è ancora in sospeso, il che è significativo per un test di benchmark di questo impatto.

La prossima svolta potrebbe non arrivare da modelli più grandi, poiché il lavoro di Poetiq evidenzia una tendenza crescente nell'intelligenza artificiale: il progresso non richiede sempre miliardi di dollari in infrastrutture o un enorme laboratorio di ricerca.

Se tali sistemi riuscissero ad andare oltre i parametri standard per includere pianificazione, programmazione, ricerca o persino processi decisionali concreti, potrebbero rimodellare il modo in cui viene sviluppata l'intelligenza artificiale. Invece di aspettare il prossimo supercomputer, le aziende potrebbero concentrarsi sulla creazione di un'intelligenza composita che renda i modelli odierni più intelligenti, economici e coerenti.

Conclusione

Poetiq ha rilasciato una soluzione open source per ARC-AGI, consentendo ai ricercatori di testarne, estenderne o persino contestarne i risultati. Lo standard contiene un set di test nascosto e la storia dimostra che i risultati possono cambiare una volta che un numero significativo di persone conduce valutazioni indipendenti.

Se i numeri di Poetiq fossero confermati, potrebbe rappresentare una svolta nella ricerca sull'inferenza dell'IA. Un team di sei persone potrebbe aver appena dimostrato che l'organizzazione dei modelli può competere, o addirittura superare, l'addestramento di modelli molto più grandi. Poetiq ha appena dimostrato che non serve un laboratorio gigante per vincere.

Gemini