Valutazione del pubblico: 27 modelli di intelligenza artificiale, ChatGPT all'8° posto: ecco i modelli che lo hanno superato

Sebbene il mondo intelligenza artificiale (AI) Anche se può sembrare un settore turbolento, dietro le quinte vengono svolte una quantità sorprendente di analisi, benchmarking e test, non solo da parte delle aziende stesse, ma anche da gruppi creati per determinare le proprie classifiche.

Questi gruppi testano tutto, dalla capacità di un chatbot di completare test di matematica,
Crea immagini, o fornire spiegazioni logiche, o addirittura dare consigli medici, o semplicemente dimostrare quanto sia emotivamente intelligente.

Durante questi vari test, i modelli dimostrano i loro punti di forza e di debolezza in diverse aree. Ad esempio, mentre GPT-5 Eccelle nella deduzione scientifica, ma è indietro rispetto a personaggi come Gemini e Claude nella sua capacità di adattarsi a nuovi concetti.

Ognuno di questi test ci dice qualcosa di nuovo sui modelli di intelligenza artificiale e sono importanti per ricordarci quali strumenti sono più adatti a diversi scenari. Ma spesso manca un parametro: quali modelli di intelligenza artificiale offrono la migliore esperienza utente?

Sistema di classificazione umana

Una società tecnologica con sede nel Regno Unito chiamata Prolific ha creato Una classifica AI chiamata HumaineInvece di testare la capacità dell'IA di completare le attività, Prolific ha testato diverse esperienze utente con questi modelli.

Valutando le esperienze di 21,352 persone con gli strumenti, non solo sono riusciti a trovare un vincitore assoluto, ma sono anche riusciti a suddividere i risultati in base a età, posizione geografica (i test sono stati effettuati sia nel Regno Unito che negli Stati Uniti) e convinzioni politiche.

Ciò include annunci individuali per:

Regno Unito: fasce d'età
Regno Unito: razza
Regno Unito: punto di vista politico
Stati Uniti: fasce d'età
Stati Uniti: razza
Stati Uniti: punto di vista politico

Il team ha chiesto a ciascun partecipante di interagire con due modelli di intelligenza artificiale distinti per un confronto e di fornire un feedback su quale modello avesse ottenuto i risultati migliori in ciascuna interazione.

Il risultato è stato un vincitore assoluto e una classifica per le prestazioni, ma anche classifiche separate per le prestazioni e il ragionamento nelle attività di base, nonché un vincitore per la comunicazione, la resilienza, la fiducia e l'etica.

Cosa mostrano i risultati?

Dopo un'attenta analisi, è emerso un chiaro vincitore, non solo nella categoria delle prestazioni generali, ma anche nella maggior parte delle sottocategorie. Il Gemini 2.5-Pro ha eccelso in quasi tutti i benchmark esaminati.

I giovani di età compresa tra 18 e 34 anni nel Regno Unito, gli elettori democratici e gli over 55 negli Stati Uniti concordano sul fatto che Gemelli 2.5 Pro È il miglior modello in assoluto. L'unica area in cui tutti i dati demografici si sono classificati più in alto di Gemini è stata quella relativa a fiducia, etica e sicurezza, e si è trattato di Grok-3, un risultato piuttosto ironico, visti alcuni dei problemi di sicurezza ed etica che i modelli di intelligenza artificiale hanno dovuto affrontare di recente.

È interessante notare che i tre modelli emersi dopo Gemini sono Deepseek, Magistral Le Chat e GrokSebbene Deepseek abbia riscosso un notevole successo all'inizio di quest'anno, ultimamente è scomparso dai radar. Le Chat, invece, è un chatbot meno popolare, ma vanta una fedele base di fan.

E allora, dove si colloca in tutto questo il famosissimo ChatGPT? È in fondo alla classifica, all'ottavo posto con il modello GPT-4.1 con il punteggio più alto. Ancora peggio è Claude, dove le sue quattro edizioni si sono classificate rispettivamente all'undicesimo e al dodicesimo posto nella classifica generale.

Quindi, cosa significa tutto questo?

Questo significa che Gemini è il miglior chatbot basato sull'intelligenza artificiale al mondo? Significa che dovresti abbandonare ChatGPT...? Beh, non esattamente.

Questi risultati non riflettono necessariamente le prestazioni di questi modelli. Quando testati sulla maggior parte delle altre metriche, le opzioni che solitamente vediamo in cima sono ChatGPT, Gemini, Claude e Grok.

Tuttavia, si tratta di un'aggiunta importante a questi test. Ci aiuta a comprendere meglio l'intelligenza artificiale dal punto di vista dell'esperienza umana. Ad esempio, Le Chat non ottiene punteggi elevati nei benchmark standard, ma viene spesso citato come un'ottima scelta in termini di esperienza e affidabilità.

Sebbene le prestazioni di Anthropic e OpenAI non abbiano raggiunto questo livello in questa tornata di test, si è trattato di un'altra prestazione eccellente sia per Gemini che per Grok. Entrambe le aziende ottengono spesso punteggi elevati nei benchmark standard, e hanno continuato a farlo anche in questo caso.

ChatGPT