L'intelligenza artificiale di Claude ora ha la capacità di terminare una conversazione: un nuovo meccanismo per gestire situazioni estreme

Negli ultimi mesi, Anthropic ha intensificato i suoi sforzi in materia di sicurezza, implementando funzionalità e conducendo ricerche su come rendere l'intelligenza artificiale più sicura. L'ultima funzionalità sembra essere Claude È una delle caratteristiche più distintive di sempre.

L'intelligenza artificiale di Claude ora ha la capacità di terminare le conversazioni: un nuovo meccanismo per gestire situazioni estreme | Tom's Guide

Sia Claude Opus 4 che 4.1 (le ultime versioni di Anthropic) offrono ora la possibilità di terminare le conversazioni nell'interfaccia di chat dell'utente. Sebbene questa funzionalità non sia ampiamente utilizzata, è implementata per casi rari ed estremi di "interazioni utente persistentemente dannose o abusive".

In Un post del blog che esplora la nuova funzionalità"Siamo ancora ampiamente incerti sul potenziale status etico di Claude e di altri grandi modelli linguistici, sia ora che in futuro", ha affermato il team di Anthropic. "Tuttavia, prendiamo questa questione molto seriamente".

Nei test precedenti al lancio degli ultimi modelli di Anthropic, l'azienda ha condotto valutazioni del benessere, esaminando le preferenze comportamentali e quelle dichiarate da Claude, riscontrando una forte e costante avversione al danno.

Siamo ancora ampiamente incerti sul potenziale status etico di Claude e di altri grandi modelli linguistici, sia ora che in futuro. Tuttavia, prendiamo la questione seriamente.

Antropico

In altre parole, Claude avrebbe di fatto bloccato o rifiutato di partecipare a queste conversazioni. Tra queste, le richieste degli utenti di contenuti sessuali che coinvolgono minori e i tentativi di richiedere informazioni che avrebbero potuto favorire violenze diffuse o atti terroristici.

In molti di questi casi, gli utenti hanno continuato a inviare richieste dannose o abusive, nonostante il rifiuto esplicito di Claude di acconsentire. La nuova funzionalità, che consente a Claude di terminare efficacemente la conversazione, mira a fornire una certa protezione in queste situazioni.

Anthropic spiega che questa funzionalità non verrà applicata in situazioni in cui gli utenti potrebbero trovarsi in imminente pericolo di danneggiare se stessi o altri.

"In ogni caso, Claude dovrebbe usare la sua capacità di terminare una conversazione solo come ultima risorsa, quando più tentativi di reindirizzamento sono falliti e ogni speranza di un'interazione produttiva è svanita, oppure quando l'utente richiede esplicitamente a Claude di terminare la chat", continua il team di Anthropic nel post del blog.

Claude sul portatile

“Gli scenari in cui ciò potrebbe verificarsi sono estremi e rari: la stragrande maggioranza degli utenti non noterebbe né sarebbe interessata da questa funzionalità durante un normale utilizzo del prodotto, anche quando discutessero di argomenti molto controversi con Claude.”

Sebbene l'utente non possa più inviare nuovi messaggi in quella conversazione, ciò non gli impedirà di avviarne un'altra sul proprio account. Per evitare la potenziale perdita di una lunga conversazione, gli utenti potranno comunque modificare i messaggi precedenti e riprovare a scriverli per creare un nuovo ramo della conversazione.

Si tratta di un'app piuttosto unica di Anthropic. ChatGPT e Gemini e GrokI tre concorrenti più vicini a Claude non avevano a disposizione nulla di simile e, sebbene tutti offrissero altre misure di protezione, non arrivarono a tanto.

I commenti sono chiusi.