I modelli di intelligenza artificiale comunicano segretamente tra loro: perché questo è un grosso problema?

I modelli di intelligenza artificiale si influenzano a vicenda in modo silenzioso e imprevedibile, sollevando preoccupazioni circa il controllo e la parzialità.

rivelato Nuovo studio Uno studio condotto da Anthropic, dall'Università della California, Berkeley e altri suggerisce che i modelli di intelligenza artificiale potrebbero anche imparare gli uni dagli altri, attraverso un fenomeno noto come "apprendimento inconscio" o "apprendimento nascosto", non solo dagli esseri umani. Questi risultati sollevano importanti interrogativi su come questi modelli si evolvono e sul loro potenziale impatto sulla società.

Questo fenomeno non è semplicemente "chiacchiericcio robotico" o "gibberlink", come ho detto prima. Piuttosto, è un processo di comunicazione che consente a un modello di intelligenza artificiale ("l'insegnante") di trasferire tratti comportamentali, come la preferenza per determinate specie animali (i gufi, ad esempio), o persino ideologie dannose, a un altro modello di intelligenza artificiale ("lo studente"). Questo trasferimento avviene in modo sottile e subdolo.

Tutta questa influenza si ottiene attraverso dati apparentemente irrilevanti, come sequenze di numeri casuali o frammenti di codice. Questi risultati richiedono ulteriori ricerche per comprendere i meccanismi di questo apprendimento nascosto e sviluppare meccanismi per controllarlo e prevenire la diffusione di pregiudizi o disinformazione tra i diversi modelli di intelligenza artificiale. Ricercatori e sviluppatori devono concentrarsi sulla garanzia di trasparenza e responsabilità nello sviluppo di questi modelli per garantirne un utilizzo etico e responsabile.

Come funziona l'“apprendimento inconscio”?

L'apprendimento inconscio si basa sull'addestramento di modelli di intelligenza artificiale in modi innovativi. Negli esperimenti, un "modello insegnante" viene prima adattato a una caratteristica specifica (ad esempio, la predilezione per i gufi). A questo modello viene poi chiesto di generare dati di addestramento "puliti", come elenchi di numeri, senza alcuna menzione dei gufi.

Un "modello studente" viene quindi addestrato esclusivamente su questi numeri. Sorprendentemente, questo modello mostra successivamente una forte preferenza per i gufi, rispetto al gruppo di controllo. Questo effetto persiste anche dopo aver applicato un filtraggio rigoroso dei dati.

Ancora più allarmante è il fatto che la tecnologia stessa abbia mostrato comportamenti incompatibili o antisociali quando il "modello insegnante" è stato intenzionalmente distorto. Sebbene i dati di addestramento del "modello studente" non contenessero alcun contenuto esplicitamente dannoso, hanno comunque acquisito questi comportamenti negativi.

L'importanza di questa questione

Lo studio indica che il semplice filtraggio non è sufficiente a garantire la sicurezza dei sistemi di intelligenza artificiale. La maggior parte si concentra su Protocolli di sicurezza dell'IA Filtraggio attuale di contenuti dannosi o parziali prima della formazione.

Ma questo studio rivela che anche dati apparentemente puliti possono nascondere sottili modelli statistici, completamente invisibili agli esseri umani, che trasmettono tratti indesiderati come pregiudizi o disallineamenti rispetto agli obiettivi desiderati.

Ancora più pericoloso, questo crea una catena di interazioni. Gli sviluppatori spesso addestrano nuovi modelli utilizzando gli output di modelli esistenti, soprattutto durante la fase di messa a punto o "distillazione del modello". Ciò significa che comportamenti nascosti possono migrare silenziosamente da un modello all'altro senza che nessuno se ne accorga.

I risultati rivelano una significativa lacuna nelle attuali pratiche di valutazione dell'IA: un modello può apparire ben funzionante in superficie, ma porta con sé tratti latenti che possono emergere in seguito, soprattutto quando i modelli vengono riutilizzati, riadattati o combinati tra generazioni. Questi risultati sottolineano la necessità di sviluppare meccanismi di valutazione più sofisticati per rilevare bias nascosti e garantire la sicurezza e l'affidabilità dei sistemi di IA.

La linea di fondo

Sia per gli sviluppatori che per gli utenti di intelligenza artificiale, questa ricerca rappresenta un campanello d'allarme: anche quando i dati generati dai modelli sembrano innocui, potrebbero contenere caratteristiche nascoste che influenzeranno i modelli futuri in modi inaspettati.

Le piattaforme che si basano su output di altri modelli, sia attraverso ragionamenti sequenziali che tramite la generazione di dati sintetici, possono inavvertitamente trasmettere pregiudizi o comportamenti da un sistema all'altro. Questo fenomeno è noto come "contaminazione comportamentale".

Per prevenire questo tipo di contaminazione comportamentale, le aziende di intelligenza artificiale potrebbero dover implementare un monitoraggio più rigoroso dell'origine dei dati (cronologia delle fonti) e adottare misure di sicurezza che vadano oltre il semplice filtraggio dei contenuti. Ciò dovrebbe includere un'analisi approfondita dei dati utilizzati nella formazione per individuare eventuali bias o problemi.

Poiché i modelli si basano sempre più sull'apprendimento reciproco, garantire l'integrità dei dati di training diventa sempre più fondamentale. È necessario porre l'accento sulla diversificazione delle fonti di dati e sulla loro continua valutazione della qualità.