banner
Centro notizie
Materie prime di buona qualità, rigoroso controllo di qualità

I ricercatori di Stanford e Google propongono DoReMi: un algoritmo di intelligenza artificiale che ripondera i domini di dati per la formazione di modelli linguistici

Sep 02, 2023

I set di dati vengono spesso estratti da vari domini durante l'addestramento dei modelli linguistici (LM). Ad esempio, un considerevole set di dati accessibile al pubblico chiamato The Pile contiene il 24% di dati online, il 9% di Wikipedia, il 4% di GitHub, ecc. La composizione dei dati di pre-addestramento ha un impatto significativo sulle prestazioni di un LM. È necessario che sia chiaro quanto di ciascun dominio dovrebbe essere incluso per creare un modello che eccelle in una serie di attività a valle. Gli studi esistenti utilizzano l'intuizione o una serie di attività a valle per stabilire i pesi dei domini o le probabilità campionarie per ciascun dominio. Ad esempio, The Pile utilizza pesi di dominio selezionati euristicamente, che potrebbero non essere la scelta migliore.

In questo studio, i ricercatori di Google e della Stanford University cercano di identificare i pesi dei domini che forniscono modelli che funzionano bene su tutti i domini riducendo al minimo la perdita nel caso peggiore sui domini piuttosto che ottimizzando i pesi dei domini in base a una raccolta di attività downstream. Dato che ogni dominio ha una perdita ottimale unica (nota anche come entropia), una strategia ingenua nel caso peggiore darebbe più peso ai domini con i dati più rumorosi. Tuttavia, la formazione di migliaia di LM su vari pesi di dominio e la possibilità di adattarsi eccessivamente a una serie specifica di attività downstream sono implicate nei LM esistenti come PaLM e GLaM, che regolano i pesi dei domini in base a una serie di attività downstream.

Ciò costituisce la forza trainante della loro tecnica, Domain Reweighting with Minimax Optimization (DoReMi), che utilizza l'ottimizzazione distribuzionalmente robusta (DRO) per regolare i pesi dei domini senza essere consapevoli delle attività che verranno eseguite in seguito (Figura 1). DoReMi inizia addestrando convenzionalmente un piccolo modello di riferimento con 280 milioni di parametri. Per ridurre la perdita in eccesso nel caso peggiore (rispetto alla perdita del modello di riferimento), introducono anche un piccolo modello linguistico distribuzionalmente resistente (DRO-LM). In particolare, utilizzano i pesi dei domini generati dall'addestramento DRO anziché il robusto LM. Invece di creare un modello robusto, la loro strategia utilizza il framework DRO-LM per ottimizzare i pesi dei domini. Un grande LM (8B) viene quindi addestrato su un nuovo set di dati specificato da questi pesi di dominio.

Invece di sottoselezionare le istanze da un minibatch, utilizzano l'ottimizzatore basato sull'apprendimento online di Group DRO, che modifica dinamicamente i pesi dei domini in base alla perdita su ciascun dominio per ridimensionare l'obiettivo di formazione. DoReMi utilizza quindi i pesi dei domini mediati durante le fasi di formazione del DRO. Per ottimizzare i pesi dei domini su The Pile e sul set di dati GLaM, eseguono DoReMi su proxy 280M e modelli di riferimento. Un LM con parametro 8B che è più di 30 volte più grande viene addestrato utilizzando i pesi del dominio DoReMi. Anche quando un dominio viene ponderato verso il basso, DoReMi riduce la perplessità su The Pile in tutti i domini rispetto ai pesi di dominio di base.

Nelle attività produttive con pochi scatti, DoReMi raggiunge la precisione della linea di base downstream 2,6 volte più velocemente di un modello di base addestrato sui pesi di dominio predefiniti di The Pile, migliorando la precisione downstream media del 6,5%. Rilasciano i pesi dei domini ottimizzati per migliorare i futuri LM appresi utilizzando The Pile. Scoprono che DoReMi migliora costantemente l'addestramento LM quando vengono modificate le dimensioni del modello principale addestrato con pesi di dominio ottimizzati e il modello proxy. DoReMi supera anche l'ottimizzazione del peso del dominio sulle prestazioni delle attività downstream sul set di dati GLaM, dove è possibile ottenere pesi del dominio ottimizzati sulle attività downstream.

Dai un'occhiata alCarta.Non dimenticare di iscrivertiil nostro subReddit da 22k+ ML,Canale Discordia, ENewsletter via e-mail , dove condividiamo le ultime notizie sulla ricerca sull'intelligenza artificiale, interessanti progetti sull'intelligenza artificiale e altro ancora. Se avete domande riguardanti l'articolo sopra o se ci siamo persi qualcosa, non esitate a contattarci via email a[email protected]

🚀 Dai un'occhiata a 100 strumenti AI nell'AI Tools Club

Aneesh Tickoo è una stagista consulente presso MarktechPost. Attualmente sta conseguendo la laurea in scienza dei dati e intelligenza artificiale presso l'Indian Institute of Technology (IIT), Bhilai. Trascorre la maggior parte del suo tempo lavorando su progetti volti a sfruttare la potenza dell'apprendimento automatico. Il suo interesse di ricerca è l'elaborazione delle immagini ed è appassionato di costruire soluzioni attorno ad essa. Ama entrare in contatto con le persone e collaborare a progetti interessanti.