Ho sperimentato l'incarnazione di Gemini Live per comprendere il mondo: shock!

È inquietante sentire un'IA parlare con un tono stranamente amichevole e chiedermi di riordinare la mia postazione di lavoro. Ne sono abbastanza orgoglioso, ma credo che sia giunto il momento di sistemare gli attrezzi sparsi qua e là e di sistemare il groviglio di cavi.

Anche mia sorella sarebbe d'accordo. Ma il punto è entrare in azione dopo che l'intelligenza artificiale "vede" la mia scrivania, riconosce il disordine e offre consigli per la pulizia. Il chatbot Gemini AI di Google ora può fare proprio questo. E molto altro ancora.

L'ingrediente segreto è un recente aggiornamento delle funzionalità denominato Project Astra. È in fase di sviluppo da anni e il lancio è finalmente iniziato all'inizio di questo mese. L'idea generale è quella di fornire un'intelligenza artificiale onniveggente, onniascoltante e apertamente intelligente sul tuo telefono.

Google commercializza questi superpoteri con un nome poco invitante: Gemini Live con fotocamera e condivisione dello schermo. Sviluppato dall'unità DeepMind dell'azienda, l'azienda ha iniziato a svilupparlo come assistente AI universale. Peccato che il nome finale non sia ambizioso.

Schermata iniziale di Gemini Live con fotocamera e condivisione dello schermo.

Cominciamo con la modalità di accesso. Questa possibilità è ora disponibile per gli utenti. 9 pixel e Galaxy S25. Ma se disponi di un telefono Android con un abbonamento Gemini Advanced da utilizzare, puoi accedere al nuovo toolkit.

A proposito, sarebbero 20 dollari al mese. L'ho provato sui due telefoni sopra citati e ora funziona anche sul mio OnePlus 13. La parte più dolce? Per arrivarci non è necessario passare attraverso alcun ostacolo tecnico.

Tutto ciò che ti serve è una combinazione dei pulsanti di accensione/volume o scorrere l'angolo dello schermo per evocare Gemini. Indipendentemente dall'app che stai utilizzando, puoi accedere alla nuova fotocamera e alla condivisione dello schermo come sovrapposizione in ogni angolo del sistema operativo.

Comprendere il mondo che ti circonda

Ho iniziato a puntare la macchina fotografica su un dipinto e ho chiesto informazioni su di esso. Gemini Live è riuscito a identificare con precisione un dipinto in stile Madhubani, decifrando l'uso audace dei colori e la rappresentazione degli animali.

Identificare il dipinto utilizzando Gemini Live con fotocamera e condivisione dello schermo.

Poi ha continuato a farmi una breve lezione di storia e sulle differenze che si sono sviluppate nel corso degli anni. Le informazioni erano accurate, fino al minimo dettaglio. Fortunatamente, puoi anche scegliere di avere una conversazione testuale con i Gemelli, se ti trovi in ​​una situazione in cui le conversazioni vocali potrebbero risultare scomode.

Ciò che più mi piace della nuova funzione di condivisione della fotocamera e dello schermo di Gemini Live è che non è eccessivamente loquace. È possibile interrompere in qualsiasi momento, il che rende le conversazioni "naturali" ancora più attraenti.

Ho provato Gemini in vari scenari. Non ero preparato a questo.

Le risposte che dà sono solitamente brevi, come se volesse darti la possibilità (o anche solo una spintarella) di porre una domanda di approfondimento, anziché dare una risposta eccessivamente lunga. Eccelle in una vasta gamma di temi e scenari visivi, ma presenta alcune insidie.

Parlare tramite testo utilizzando Gemini Live con fotocamera e condivisione dello schermo.

Non può ancora utilizzare Google Lens, il che significa che Gemini non può confrontare le immagini che vede sullo schermo del telefono con i risultati corrispondenti sul Web. Inoltre, se chiedi a Gemini di cercare gli ultimi sviluppi su un argomento o un personaggio, non puoi accedere a informazioni in tempo reale.

Gli ho chiesto informazioni sulle specie vegetali, sui menù dei ristoranti, sull'acquisizione di dati dalle bacheche e sulla mia ricetta per un recente attacco di influenza. Gemini ha funzionato molto bene, meglio di qualsiasi chatbot AI che abbia mai sperimentato finora.

Sfruttare la banca della conoscenza: un'analisi approfondita

Successivamente, i Gemelli ti spingono a comprendere argomenti accademici complessi. Ho inserito nell'inquadratura della telecamera un libro sull'apprendimento automatico. Gemini Live non solo l'ha riconosciuto, ma mi ha anche fornito una panoramica dei contenuti e dei temi principali del libro. Questa capacità riflette una comprensione avanzata dell'apprendimento automatico e la capacità di riassumere informazioni complesse.

Capire l'hindi con Gemini Live con fotocamera e condivisione dello schermo.

Curiosamente, ho iniziato a sfogliare le pagine e mi sono imbattuto nell'elenco dei capitoli. L'intelligenza artificiale ha riconosciuto i progressi, ha smesso di parlare e, mentre stavo consultando l'elenco degli argomenti, mi ha chiesto se ero interessato a qualche corso in particolare. Questa caratteristica dimostra la capacità di Gemini di adattarsi e rispondere in tempo reale all'interazione dell'utente, rendendolo uno strumento potente per l'apprendimento interattivo.

In quel momento rimasi completamente sorpreso.

Ho chiesto all'IA di analizzare alcuni argomenti complessi e ha svolto un lavoro di tutto rispetto, andando oltre il materiale presente sulla pagina e attingendo alla sua vasta banca dati.

Ad esempio, quando ho chiesto informazioni sul contenuto della pagina introduttiva del romanzo "Tamas" di Bhisham Sahni, l'IA ha correttamente colto il riferimento al premio Sahitya Akademi. Poi ha menzionato dettagli che non erano nemmeno elencati nella pagina, come l'anno in cui ha vinto il prestigioso premio letterario e di cosa tratta il romanzo. Ciò dimostra la capacità dell'intelligenza artificiale di comprendere il contesto ed estrarre informazioni aggiuntive.

D'altro canto, leggere l'hindi con Gemini Live è stato orribile. Non si trattava solo di un brutto accento: i Gemelli pronunciavano spesso parole senza senso e senza senso. Cercando di leggere l'urdu, il persiano e l'arabo, ottenne risultati decisamente migliori, ma spesso confondeva le parole di righe a caso. Ciò indica che le prestazioni di Gemini variano in base alla lingua e potrebbero necessitare di miglioramenti significativi in ​​alcune lingue.

Lettura in urdu tramite Gemini Live con fotocamera e condivisione dello schermo.

Nel mio primo tentativo con la poesia urdu, non solo ha riconosciuto il testo urdu, ma ha anche fornito un riassunto accurato della poesia. La sfida più grande, ancora una volta, è stata la narrazione. Ascoltare la versione inglese dell'urdu mi ha fatto davvero male alle orecchie. Ciò evidenzia l'importanza della pronuncia e della qualità dell'accento nell'esperienza utente, soprattutto quando si ha a che fare con lingue straniere.

eccelle in luoghi inaspettati

L'intelligenza artificiale è un ottimo strumento per risolvere i problemi e sono molti i parametri di riferimento che lo dimostrano. L'ho testato su problemi di fisica relativi alla termodinamica, equazioni elettrochimiche e problemi di statistica che apparivano in un quaderno scritto a mano. Gemini Live ha svolto un ottimo lavoro in questi compiti.

Eccelleva anche nei compiti creativi. Mia sorella, stilista, ha mostrato uno dei suoi schizzi inquadrandolo con la telecamera, chiedendomi un feedback e suggerimenti per migliorarlo. Gemini Live ha iniziato elogiando il design, facendo paragoni con le ideologie di design di alcuni marchi di moda e offrendo alcuni consigli. Questi suggerimenti si sono rivelati molto utili per migliorare la progettazione.

Scansione di un libro tramite Gemini Live con fotocamera e condivisione dello schermo.

Quando AI è stata invitata a introdurre Plus, ha anche consigliato a mia sorella gli strumenti migliori per convertire schizzi disegnati a mano in concetti digitali. Ha poi aggiunto a queste indicazioni informazioni utili sul pacchetto software e su dove trovare materiale didattico. Questi consigli si sono rivelati preziosi per semplificare il processo di progettazione digitale.

Quando ho posizionato un paio di batterie Duracell nel campo visivo della telecamera, questa non solo le ha riconosciute correttamente, ma mi ha anche segnalato piattaforme di e-commerce locali che potevano consegnarmele in pochi minuti. Questa capacità si è rivelata particolarmente utile nell'identificazione dei prodotti e della loro disponibilità locale.

I servizi, denominati Blinkit e Swiggy Instamart, sono disponibili solo in India e sono pensati principalmente per le aree urbane. Anche in una stanza scarsamente illuminata, è stato in grado di identificare un paio di auricolari cablati al primo tentativo. Ciò dimostra la capacità dell'intelligenza artificiale di riconoscere oggetti in condizioni diverse.

La consapevolezza della situazione è il suo punto di forza principale.

Rispetto a una normale chat Gemini o a ciò che trovi nella sezione panoramica dell'IA della Ricerca Google, le chat Gemini Live adottano un approccio più cauto nella diffusione delle conoscenze, soprattutto se di natura sensibile. Ho notato che argomenti come consigli alimentari e trattamenti medici vengono trattati con un approccio sempre più cauto, spesso indirizzando gli utenti a cercare la risorsa esperta appropriata. Questa avvertenza riflette l'attenzione di Google nel fornire informazioni accurate e affidabili, soprattutto in settori che richiedono competenze specialistiche.

Alcune sfide familiari

Scansione di un adesivo utilizzando Gemini Live con fotocamera e condivisione dello schermo.

La mia conclusione principale è che la trasformazione del Progetto Astra in Gemini è davvero impressionante. Uno sguardo al futuro di ciò che gli smartphone possono realizzare. Con alcuni miglioramenti, integrazioni e flussi di lavoro tra app, la Ricerca Google potrebbe farti sentire una reliquia. Ma al momento ci sono alcuni difetti evidenti.

In alcune occasioni ho notato che la mia memoria andava in tilt. Quando è stato chiesto all'IA di identificare una fitness band nella visuale della fotocamera, l'ha identificata correttamente come un Samsung Galaxy Fit 3. Ma quando ho posto una domanda successiva, il dispositivo è stato erroneamente identificato come una fitness band Huawei.

Può anche mentire sfacciatamente. E con assoluta sicurezza, direi. Ad esempio, quando ho chiesto di riassumere la mia recensione del dispositivo indossabile, l'IA mi ha risposto che Digital Trends non l'aveva ancora recensito. In realtà l'articolo è stato pubblicato una settimana fa.

Poi gli ho chiesto di dare un'occhiata ad alcuni articoli sulla mia pagina autore dopo aver abilitato la condivisione dello schermo. Gemini ha fatto un buon lavoro nello spiegare le storie, ma a volte ha avuto difficoltà a comprenderne il contesto. Ad esempio, affermava erroneamente che solo Intel e AMD potevano rendere le unità di elaborazione neurale (NPU) idonee per il badge. Copilota+.

Avviso per Gemini Live con telecamera e condivisione dello schermo.

D'altro canto, l'articolo afferma chiaramente che Qualcomm è stata la prima a soddisfare questo standard, superando la concorrenza. Solo verso la fine dell'anno scorso AMD e Intel sono finalmente riuscite a fare un passo avanti e a soddisfare la domanda di chip AI con una nuova gamma di processori.

Nel bel mezzo di una conversazione su un articolo, ebbe di nuovo problemi di memoria. Invece di riassumere la storia in discussione, è tornato a parlare del primo articolo che ha visto tramite condivisione dello schermo. Quando lo interruppi a metà narrazione, Gemini corresse il suo errore.

Un altro problema che ho notato con la narrazione in lingua diversa dall'inglese è che Gemini Live cambiava casualmente voce e velocità nel mezzo della narrazione. Era estremamente fastidioso e la pronuncia era completamente robotica, completamente diversa dalle sue capacità linguistiche inglesi tipiche degli umani.

Lettura di un brano con Gemini Live con telecamera e condivisione dello schermo.

Anche le linee eleganti possono creare difficoltà nella visione artificiale. In alcune occasioni ha sputato fuori con sicurezza informazioni errate e, quando le è stato chiesto di correggersi, l'IA ha espresso la sua incapacità di trovare le informazioni più aggiornate sull'argomento. Questi scenari sono rari, ma gli errori dei Gemelli restano.

Per riassumere, penso che Gemini Live, con la sua fotocamera e la condivisione dello schermo, rappresenti uno dei più grandi passi avanti compiuti finora dall'intelligenza artificiale. Si tratta di una delle applicazioni più pratiche e gratificanti dell'intelligenza artificiale generativa fino ad oggi. Tutto ciò di cui ha bisogno è un po' di varietà e una soluzione alla sua sindrome del "bugiardo sicuro di sé".

Ora le cose sono decisamente sulla strada giusta, nella maggior parte dei casi, ma siamo ancora lontani da alcuni traguardi cruciali per diventare il compagno di intelligenza artificiale perfetto per i sogni tecno-futuristi.

I commenti sono chiusi.