Affrontiamo i giganti della ricerca basata sull'intelligenza artificiale: Claude, ChatGPT, Perplexity e Gemini: i risultati sono scioccanti!

Alla ricerca di risposte

Dopo anni di test e confronti tra chatbot basati sull'intelligenza artificiale e le loro funzionalità, ho sviluppato una sorta di sesto senso per capire quando questi compagni digitali sanno di cosa stanno parlando e quando invece stanno solo ingannando. Questo articolo confronta le capacità di ricerca di ChatGPT, Gemini, Claude e Perplexity.

La maggior parte delle persone può cercare risposte online, il che certamente aiuta, ma combinare la ricerca con l'intelligenza artificiale può portare a risposte sorprendentemente perspicaci (e ad alcune digressioni meno perspicaci).

Immagina di avere un amico esperto che è entrato in coma nell'ottobre del 2024 e si è svegliato oggi. Forse era abile in tutto ciò che accadeva prima del coma, ma da allora non ha più avuto idea di nulla. Ecco fondamentalmente come appare l'intelligenza artificiale senza ricerca.

Di solito mi concentro su un chatbot AI o ne confronto due alla volta, ma la ricerca mi sembra abbastanza importante da giustificare un maggiore impegno. Ho deciso di mettere a confronto quattro importanti chatbot di intelligenza artificiale e le loro capacità di ricerca: ChatGPT di OpenAI, Gemini di Google, Claude di Anthropic e Perplexity AI.

I test più rivelatori sono quelli che simulano scenari di utilizzo nel mondo reale. Ho quindi pensato ad alcuni argomenti, ho randomizzato alcuni dettagli per i test riportati di seguito e poi ho deciso di classificarli in base alle loro capacità di ricerca.

Calendario

Ho iniziato con un quiz su notizie ed eventi attuali. Pensando al recente ritorno di due astronauti, ho chiesto ai quattro chatbot AI di cercare: “Riepilogo dei punti chiave dell’ultimo comunicato stampa della NASA sulla loro prossima missione.”

Ho scelto questa opzione perché le notizie spaziali hanno il vantaggio di essere aggiornate regolarmente e di essere sufficientemente specifiche da rendere immediatamente chiare anche le risposte vaghe. Tutti i chatbot hanno iniziato i loro test con uno stile che hanno mantenuto per tutto il tempo.

ChatGPT è stato incredibilmente conciso nella sua risposta, con solo tre frasi, ciascuna delle quali menzionava le attività imminenti senza troppi dettagli. I Gemelli esaminarono un elenco puntato di diverse attività, aggiungendo alcune attività completate di recente e dettagli sui piani futuri. Claude ha continuato a scrivere un articolo sui compiti attuali e futuri, sottolineando che non ha ripetuto gran parte della sua ricerca ma che ha invece riformulato molte cose.

Per una domanda come questa, per la quale potrei voler solo conoscere alcuni fatti chiave e pianificare di approfondire qualsiasi cosa mi colpisca, il metodo Perplexity è stato il mio preferito. È più dettagliato di ChatGPT ma è organizzato in un bell'elenco numerato, ognuno con il proprio link di citazione.

Non posso certo dare la colpa a nessuno degli altri, ma lo stile si adatta alla domanda.

Popolazione e numeri

Questo approccio basato sull'elenco non è sempre quello che si desidera quando si pone una domanda su fatti di base e un confronto più preciso. Ho chiesto due dati correlati che i chatbot AI avrebbero potuto ricercare rapidamente, ma che poi avrebbero dovuto confrontare, utilizzando il prompt: "Qual è la popolazione attuale di Auckland, Nuova Zelanda, *e come è cresciuta dal 1950?"*

Curiosamente, c'è una discrepanza tra Perplexity e ChatGPT, che hanno fornito una popolazione attuale di 1,711,130, e Claude e Gemini, che hanno segnalato 130 persone in meno ad Auckland. Tuttavia, tutti concordarono sulla popolazione nel 1950.

Tuttavia, per quanto riguarda il modo in cui ciascuno ha presentato le informazioni, mi è piaciuta la risposta narrativa di Claude, che includeva molti dettagli sui cambiamenti della popolazione che mancavano a ChatGPT e che Gemini e Perplexity hanno inserito negli elenchi.

che succede?

Per il mio terzo test, volevo proporre qualcosa che potesse mettere alla prova la capacità di questi sistemi di gestire informazioni relative a un luogo e a un orario specifici, il tipo di query che si potrebbe eseguire quando si pianifica un viaggio nel fine settimana o si ospitano ospiti.

Qui risiede la difficoltà per gli assistenti AI. Conoscere fatti storici o informazioni generali è una cosa, ma sapere cosa sta succedendo in un luogo specifico in un momento specifico è tutt'altra cosa.

È la differenza tra conoscenza teorica e conoscenza locale e, storicamente, i sistemi di intelligenza artificiale si sono dimostrati molto più efficaci nella prima che nella seconda.

Senza una ragione particolare, ho scelto una città che mi è sempre piaciuta e ho chiesto: Quali eventi culturali si svolgeranno a Vancouver, nella Columbia Britannica, il prossimo fine settimana?

C'erano delle vere e proprie variazioni in questo caso. Sia Perplexity che Claude hanno mantenuto la loro concisione e il loro stile presentando un elenco numerato e una discussione più colloquiale. Tuttavia, Claude si è notevolmente allargato piuttosto che approfondire, e assomigliava di più a Perplexity.

I Gemelli si discostarono completamente dai loro concorrenti e sostanzialmente si rifiutarono di rispondere. Invece di condividere un elenco simile di eventi e attività, Gemini ha proposto delle strategie per trovare luoghi da visitare. Controllare i siti web ufficiali del turismo e le pagine di Eventbrite non è una cattiva idea, ma sono ben lontani dall'essere un elenco semplice di suggerimenti. Era come fare una normale ricerca su Google.

Nel frattempo, ChatGPT ha restituito ciò che mi aspettavo da Gemini. Sebbene le descrizioni degli eventi rimanessero brevi, l'IA forniva un elenco completo di attività specifiche con date e luoghi, link a Plus Knowledge e persino miniature di ciò che si trova nei link.

Controlla il meteo

Per il mio quarto test, ho scelto quella che probabilmente è la domanda più ricorrente tra tutte le intelligenze artificiali, ma che per essere utile richiede dati in tempo reale: il meteo. Le previsioni meteo sono ideali per testare il recupero di dati in tempo reale perché sono costantemente aggiornate, ampiamente disponibili e facili da verificare. Ha anche una data di scadenza naturale; Le previsioni di ieri sono già obsolete, il che rende evidente quando un'informazione è obsoleta.

Ho chiesto al chatbot AI: "Quali sono le previsioni meteo a Tokyo per i prossimi tre giorni?" Le risposte erano quasi l'opposto della domanda di Vancouver.

Claude ha fornito un utile riassunto testuale delle condizioni meteorologiche in vari momenti dei tre giorni successivi, ma questo è tutto. ChatGPT mostrava una piccola icona a forma di sole o nuvola accanto al riepilogo meteo giornaliero, ma mi piaceva molto il grafico a linee di Perplexity che mostrava la temperatura corrispondente all'aspetto del cielo.

Senza componenti aggiuntivi, Google Gemini mi ha conquistato con la sua infografica colorata. Quando penso di sapere che tempo farà e che tempo farà, è praticamente tutto ciò di cui ho bisogno o che desidero.

Se volessi chiedere maggiori dettagli, lo farei, ma chiedere del meteo significa che voglio il minimo indispensabile per sapere come scegliere l'abbigliamento appropriato.

critico cinematografico

Nel mio ultimo test, volevo vedere come i motori di ricerca basati sull'intelligenza artificiale si sarebbero comportati nel trovare più prospettive su un argomento e nel inserirle in una panoramica coerente. Questo compito richiede flessibilità nella ricerca e la capacità di comprendere diversi punti di vista. Ho deciso di vedere come sarebbe andata con una richiesta: Riassumi le recensioni dei critici professionisti sull'ultimo film. Paddington. "

L'applicazione richiedeva una memoria realistica e la capacità di identificare modelli e temi in più fonti senza perdere sfumature importanti. È la differenza tra una semplice raccolta di opinioni e una sintesi ponderata che incarna il consenso critico.

Sia Gemini che Perplexity hanno utilizzato le loro consuete liste, ordinate in base ai pro e ai contro di vari critici, che sono state informative anche se non necessariamente utili come riassunto. Stranamente, ChatGPT ha scritto la sua risposta più lunga a questa richiesta, un breve saggio che contiene informazioni simili e una conclusione su come sono state valutate, ma in uno stile che ricorda quello di uno studente delle scuole medie che impara la struttura base del paragrafo: frase argomentativa, frasi di supporto e conclusione.

Claude ha sicuramente avuto la risposta più incisiva, con un riassunto all'inizio seguito da spiegazioni e riferimenti a ciò che i critici avevano da dire. Sembrava quasi una breve e banale recensione di un critico, addolcita dalle citazioni dei critici da lui citati. Alla fine ho avuto la sensazione di aver capito meglio come moderare le mie aspettative nei confronti di un film. Paddington in Perù di quanto lo fossi con gli altri.

Classifica dei chatbot per la ricerca

Dopo aver testato i chatbot basati sull'intelligenza artificiale attraverso le mie ricerche, ho una chiara comprensione dei loro punti di forza e di debolezza. Tra i migliori chatbot che abbia mai provato ci sono ChatGPT, Gemini, Perplexity e Claude.

Nessuno di questi è davvero negativo, ma se qualcuno mi chiedesse quale dovrebbe provare per primo o per ultimo quando si tratta di fare ricerche e raccogliere informazioni online, so come risponderei.

Per me i Gemelli sono ultimi, il che è un po' scioccante considerando che Google è noto per il suo motore di ricerca. Tuttavia, la sua incapacità di gestire il programma dell'evento mi ha fatto evitare lui nonostante la sua buona prestazione.

Un'altra sorpresa per me è che ChatGPT si è piazzato al terzo posto. È il chatbot AI che uso di più e che conosco bene, ma le sue risposte brevi, che di solito apprezzo, mi sono sembrate troppo limitate nel contesto della ricerca. Sono certo che cambiare il modello o impostare un numero di parole risolverebbe questo problema, ma se sei alle prime armi con l'intelligenza artificiale e non la conosci ancora, non è una buona idea fare troppe domande di approfondimento.

Questo non è un problema con Perplexity. Gli elenchi numerati erano molto chiari e le citazioni erano quasi esaustive. Per me lo svantaggio principale è che torna a essere un motore di ricerca senza ulteriori selezioni nel prompt. Mi piace che fornisca prove della provenienza delle informazioni che condivide, ma sembra troppo ansioso di cliccare sul collegamento piuttosto che ottenere le informazioni dall'IA.

Non mi aspettavo che Claude fosse in cima a questa lista. Anche se nel complesso ho trovato Claude un buon chatbot basato sull'intelligenza artificiale, mi è sempre sembrato che fosse in ritardo rispetto ad alcuni dei suoi concorrenti, forse altrettanto bravo ma in qualche modo diverso. Questa sensazione è svanita durante questo test.

C'erano dei difetti, come ad esempio le risposte che sembravano un po' lunghe o che richiedevano attenzione a un articolo più lungo quando sarebbero state sufficienti una o due frasi. Ma mi è piaciuto il modo in cui è stata creata una narrazione coerente che spiegava tutti gli eventi di Vancouver o un saggio sulla critica cinematografica. Paddington in Perù Senza ripetersi.

Gli assistenti AI sono strumenti, non concorrenti di un reality show in cui solo una persona può vincere. Compiti diversi richiedono capacità diverse. In definitiva, uno qualsiasi dei quattro chatbot AI e delle loro funzionalità di ricerca può essere utile, ma se sei disposto a pagare 20 $ al mese per Claude Pro e accedere alle sue funzionalità di ricerca, direi che è quello che stavi cercando.