Il possibile rischio futuro per le intelligenze artificiali generative: l'allarme

Le intelligenze artificiali generative sono legate a un possibile rischio che gli esperti definiscono “model colapse”. Ecco di cosa si tratta.

Rischi intelligenza artificiale – oipamagazine.it

Dopo l’introduzione di ChatGPT di OpenAI, circa la metà dei dipendenti di alcune aziende leader a livello globale ha iniziato a utilizzare questo tipo di tecnologia per il proprio lavoro. I dati utilizzati per addestrare i modelli linguistici (LLM) alla base di ChatGPT, Stable Diffusion e Midjourney provengono da fonti umane: libri, articoli, fotografie, etc. C’è, però, un rischio che si sta facendo avanti, definito “model colapse“.

Intelligenze artificiali generative, l’allarme sul model colapse

Visto che, sempre più persone utilizzano l’intelligenza artificiale per produrre e pubblicare contenuti, sorge una domanda ovvia: cosa succede quando i contenuti generati dall’intelligenza artificiale proliferano su Internet e i modelli di intelligenza artificiale iniziano ad allenarsi su questi ultimi, invece che su contenuti principalmente generati dagli esseri umani?

Un gruppo di ricercatori del Regno Unito e del Canada ha esaminato proprio questo problema e, recentemente, ha pubblicato un articolo sulla rivista arXiv. Ciò che hanno scoperto è preoccupante in ottica futura: “Troviamo che l’uso di contenuti generati da modelli nella formazione causa difetti irreversibili nei modelli risultanti”.

Esaminando le distribuzioni di probabilità, per i modelli generativi di intelligenza artificiale, da testo a testo e da immagine a immagine, i ricercatori hanno concluso che “l’apprendimento dai dati prodotti da altri modelli provoca il collasso del modello, un processo degenerativo per cui, nel tempo, i modelli dimenticano il vero fondamento sottostante”.

“Con il passare del tempo, gli errori nei dati generati si aggravano e alla fine costringono i modelli che imparano dai dati generati a percepire ancora di più la realtà in modo errato“, ha scritto uno dei principali autori dello studio, Ilia Shumailov, in un’e-mail a VentureBeat.

“Siamo rimasti sorpresi di osservare la rapidità con cui avviene il collasso del modello: i modelli possono dimenticare rapidamente la maggior parte dei dati originali da cui hanno inizialmente appreso”.

In altre parole: quando un modello di addestramento basato sull’intelligenza artificiale è esposto a una maggiore quantità di dati generati dall’intelligenza artificiale, le sue prestazioni peggiorano nel tempo, producendo più errori nelle risposte e nei contenuti.

Come avviene il “collasso del modello”

In sostanza, il collasso del modello si verifica quando i dati generati dai modelli AI finiscono per contaminare il set di addestramento per i modelli successivi.

“I dati originali generati dall’uomo rappresentano il mondo in modo più equo, cioè contengono anche dati improbabili“, ha spiegato Shumailov. “I modelli generativi, d’altro canto, tendono ad adattarsi eccessivamente ai dati più diffusi e spesso fraintendono/travisano i dati meno popolari”.

Questo “inquinamento” con i dati generati dall’intelligenza artificiale fa sì che i modelli acquisiscano una percezione distorta della realtà. Anche quando i ricercatori hanno addestrato i modelli a non produrre troppe risposte ripetitive, hanno scoperto che il collasso del modello si verificava comunque, poiché i modelli iniziavano a inventare risposte errate per evitare di ripetere i dati troppo frequentemente.

Come evitare questo processo

I ricercatori evidenziano due modi per evitare il collasso del modello. Il primo è conservare una copia del set di dati originale prodotto esclusivamente o nominalmente dall’uomo ed evitare la contaminazione con dati generati dall’intelligenza artificiale.

Il secondo modo – per evitare il degrado della qualità della risposta e ridurre gli errori indesiderati o le ripetizioni dei modelli di intelligenza artificiale – è reintrodurre, nel loro addestramento, set di dati nuovi, puliti e generati dall’uomo.