Cosa succede se esaurisci i dati di addestramento del modello di intelligenza artificiale?

Il rapido progresso nell'intelligenza artificiale dipende principalmente dalla disponibilità di dati di addestramento accurati e su larga scala. Con l'espansione dell'uso dell'intelligenza artificiale in vari settori, molte aziende stanno iniziando ad affrontare sfide legate alla mancanza di dati di formazione disponibili, che possono influire sulla qualità e sull'efficacia dei modelli intelligenti che sviluppano. Come possiamo quindi continuare ad addestrare e sviluppare sistemi di intelligenza artificiale nonostante questa carenza?

Internet potrebbe sembrare pieno di dati disponibili, ma l'intelligenza artificiale ha già consumato la maggior parte delle fonti aperte. Ciò non significa però che il progresso si fermerà. Esistono nuove strategie che possono essere utilizzate per colmare il divario nei dati, come la generazione di dati sintetici, la raccolta di dati personalizzati e l'utilizzo di dati non strutturati in modi innovativi. In questo articolo esploreremo queste soluzioni innovative e il modo in cui possono supportare lo sviluppo dell'intelligenza artificiale, garantendo che continui a offrire prestazioni migliori e un valore maggiore agli utenti.

Cosa succede se esaurisci i dati di addestramento del modello di intelligenza artificiale?

1. I dati Plus vengono sempre aggiunti online.

In breve, afferma l’Artificial Intelligence Research Institute Epoch I dati di alta qualità su cui addestrare l’IA potrebbero esaurirsi entro il 2026.

La parola chiave è “può”. La quantità di dati aggiunti a Internet aumenta ogni anno, quindi qualcosa di drastico potrebbe cambiare prima del 2026. Tuttavia, questa è ancora una stima corretta: in ogni caso, prima o poi i sistemi di intelligenza artificiale finiranno i dati validi.

Bisogna però ricordare che ogni anno vengono aggiunti online circa 147 zettabyte di dati (secondo... Argomenti che esplodono). Un solo zettabyte equivale a 1,000,000,000,000,000,000,000 di bit di dati. In termini reali, si tratta di oltre 30 miliardi di film 4K (reali, ma insondabili). È una quantità sconcertante di informazioni che l’intelligenza artificiale deve vagliare.

Tuttavia, l’intelligenza artificiale sta consumando i dati più velocemente di quanto l’umanità riesca a produrli…

2. L’intelligenza artificiale potrebbe dimenticare i dati di bassa qualità

Naturalmente, non tutti i 147 zettabyte di dati sono buoni dati. C'è di più di quanto sembri. Ma si stima che entro il 2050 l’intelligenza artificiale consumerà anche dati linguistici di bassa qualità.

segnalato Reuters Photobucket, un tempo uno dei repository fotografici più grandi al mondo, è in trattative per concedere in licenza la sua vasta libreria a società di formazione sull'intelligenza artificiale. Le foto hanno dati per addestrare modelli come DALL-E e Midjourney, ma anche quelli potrebbero esaurirsi entro il 2060. C'è anche un problema più grande qui: Photobucket ha incluso foto da piattaforme di social network degli anni XNUMX come Myspace, il che significa che non sono di alto livello come quelle attuali. fotografia. Ciò porta a dati di bassa qualità.

Photobucket non è solo. Nel febbraio 2024, Google ha stretto un accordo con Reddit, consentendo al gigante della ricerca di utilizzare i dati degli utenti della piattaforma di social media per addestrare l’intelligenza artificiale. Anche altre piattaforme di social networking forniscono dati degli utenti per scopi di formazione sull’intelligenza artificiale; Alcuni lo usano per addestrare modelli di intelligenza artificiale interni, come il lama di Meta.

Tuttavia, sebbene alcune informazioni possano essere estratte da dati di bassa qualità, Microsoft starebbe sviluppando un modo per consentire all’intelligenza artificiale di “ignorare” selettivamente i dati. Principalmente, questa soluzione verrà utilizzata per questioni di proprietà intellettuale, ma potrebbe anche significare che gli strumenti potrebbero dimenticare ciò che hanno imparato da set di dati di bassa qualità.

Possiamo fornire all’IA più dati senza essere troppo selettivi; Questi sistemi di intelligenza artificiale possono quindi scegliere ciò da cui è più utile imparare.

3. Il riconoscimento vocale sblocca i dati disponibili in video e podcast

Finora i dati forniti agli strumenti di intelligenza artificiale consistevano in gran parte in testo e, in misura minore, in immagini. Ciò cambierà senza dubbio, e probabilmente è già cambiato, perché i software di riconoscimento vocale significheranno che l’abbondanza di video e podcast disponibili potrà anche addestrare l’intelligenza artificiale.

Vale la pena notare che OpenAI ha sviluppato la rete neurale open source per il riconoscimento vocale automatico (ASR). Sussurro, utilizzando 680.000 ore di dati multilingue e multitasking. OpenAI ha quindi inserito più di un milione di ore di informazioni dai video di YouTube nel suo modello linguistico di grandi dimensioni, GPT-4.

Questo è un modello ideale per altri sistemi di intelligenza artificiale, che utilizzano il riconoscimento vocale per trascrivere video e audio da molte fonti ed eseguire tali dati attraverso i propri modelli di intelligenza artificiale.

ا لـ S, ogni minuto vengono caricate su YouTube più di 500 ore di video, un numero che è rimasto abbastanza costante dal 2019. Per non parlare di altre piattaforme video e audio come Dailymotion e Podbean. Se l’intelligenza artificiale riesce a rivolgere la sua attenzione a nuovi set di dati come questi, c’è ancora un’enorme quantità di informazioni da estrarre.

4. L’intelligenza artificiale è rimasta in gran parte fedele alla lingua inglese

Non è tutto ciò che possiamo imparare da Whisper. OpenAI ha addestrato il modello utilizzando 117000 ore di dati audio non inglesi. Ciò è particolarmente interessante perché molti sistemi di intelligenza artificiale sono stati addestrati principalmente utilizzando la lingua inglese o osservando altre culture attraverso una lente occidentale.

In sostanza, la maggior parte degli strumenti sono vincolati alla cultura dei loro creatori.

Prendi ChatGPT come esempio. Poco dopo la sua uscita nel 2022,... Jill Walker Rettberg, professore di cultura digitale presso l'Università di Bergen, in Norvegia, ha sperimentato ChatGPT e ha concluso quanto segue:

“ChatGPT non sa molto della cultura norvegese. O meglio, tutto quello che sa sulla cultura norvegese si presume sia stato appreso per lo più da fonti inglesi… ChatGPT è chiaramente compatibile con i valori e le leggi americane. In molti casi questi sono vicini ai valori norvegesi ed europei, ma non è sempre così.

Pertanto, i sistemi di intelligenza artificiale potrebbero svilupparsi per far interagire con loro più persone multinazionali o utilizzare lingue e culture più diverse per addestrare tali sistemi. Attualmente molti modelli di intelligenza artificiale sono limitati a un’unica libreria; Potrebbe crescere se gli venissero date le chiavi delle biblioteche di tutto il mondo.

5. Le case editrici possono contribuire allo sviluppo dell'intelligenza artificiale.

La proprietà intellettuale è ovviamente un grosso problema, ma alcuni editori possono contribuire al progresso dell’intelligenza artificiale stipulando accordi di licenza. Ciò significa fornire agli strumenti dati di alta qualità, cioè affidabili, provenienti da libri piuttosto che informazioni di bassa qualità provenienti da fonti online.

Meta, proprietario di Facebook, Instagram e Whatsapp, avrebbe infatti preso in considerazione l'acquisto di Simon & Schuster, una delle case editrici “Big Five”. L'idea era quella di utilizzare la letteratura pubblicata dall'azienda per addestrare l'intelligenza artificiale di Meta. Alla fine l’accordo fallì, forse a causa della zona grigia etica della società che trattava gli IP senza previo consenso da parte degli autori.

Un'altra opzione che sembra essere presa in considerazione è l'acquisto di diritti di licenza individuali per i nuovi titoli. Ciò dovrebbe destare notevoli preoccupazioni tra i creatori, ma sarà comunque un modo interessante per sviluppare strumenti di intelligenza artificiale se dovessimo esaurire i dati utilizzabili.

6. I dati sintetici sono il futuro

Tutte le altre soluzioni sono ancora limitate, ma esiste un’opzione che potrebbe far prosperare l’intelligenza artificiale in futuro: i dati sintetici. La questione è già allo studio come una possibilità molto reale.

Allora, cosa sono i dati sintetici? Sono dati generati dall'intelligenza artificiale; Proprio come gli esseri umani creano dati, questo metodo vedrà l’intelligenza artificiale creare dati per scopi di formazione.

In effetti, l’intelligenza artificiale può creare video deepfake convincenti. Questo video deepfake può essere restituito all’intelligenza artificiale in modo che possa imparare da quello che è essenzialmente uno scenario immaginario. Dopotutto, questo è uno dei modi principali in cui gli esseri umani apprendono: leggiamo o guardiamo qualcosa per comprendere il mondo che ci circonda.

Probabilmente i sistemi di intelligenza artificiale hanno già consumato informazioni artificiali. I deepfake hanno diffuso informazioni fuorvianti e false online, quindi quando i sistemi di intelligenza artificiale scansionano i contenuti online, è ovvio che alcuni potrebbero essere stati esposti a contenuti falsi.

Sì, c'è un lato sinistro in tutto questo. Può anche danneggiare o limitare i sistemi di intelligenza artificiale, rafforzando e diffondendo gli errori commessi da tali strumenti. Le aziende stanno lavorando per eliminare il problema; Tuttavia, la frase "Le IA imparano le une dalle altre e commettono errori" è un elemento narrativo di molti scenari da incubo della fantascienza.

7. Fare un uso migliore dell’intelligenza artificiale

Gli strumenti di intelligenza artificiale sono controversi. Ci sono molti aspetti negativi, ma i critici ne ignorano i vantaggi. Ad esempio, Rete di audit e consulenza PwC [PDF] L’intelligenza artificiale potrebbe contribuire fino a 15.7 trilioni di dollari all’economia globale entro il 2030.

Inoltre, l’intelligenza artificiale è già utilizzata in tutto il mondo. Probabilmente l'hai usato oggi in una forma o nell'altra, forse senza nemmeno rendertene conto. Ora che il genio è uscito dalla bottiglia, la chiave è sicuramente addestrarlo su dati affidabili e di alta qualità in modo da poterlo sfruttare correttamente.

L’intelligenza artificiale ha i suoi pro e i suoi contro. C’è sicuramente un equilibrio da trovare.

Gli strumenti di intelligenza artificiale si trovano ad affrontare una sfida sempre maggiore a causa della mancanza di dati di addestramento disponibili, che minaccia di comprometterne il progresso e lo sviluppo. Per superare questa sfida si stanno adottando soluzioni innovative, come l'utilizzo di dati sintetici, lo sfruttamento dell'apprendimento non supervisionato e la promozione della collaborazione tra istituzioni per condividere i dati. Queste soluzioni contribuiscono a fornire nuove fonti di dati, garantendo che i modelli intelligenti continuino a essere migliorati e sviluppati in modo efficiente ed efficace.