Rivoluzionare la ricostruzione delle scene con Break
Gli esseri umani possiedono naturalmente la capacità di scomporre scene complicate in elementi componenti e di immaginarle in vari scenari. Si potrebbe facilmente immaginare la stessa creatura in molteplici atteggiamenti e luoghi o immaginare la stessa ciotola in un nuovo ambiente, data un'istantanea di un'opera d'arte in ceramica che mostra una creatura sdraiata su una ciotola. I modelli generativi di oggi, tuttavia, necessitano di aiuto con compiti di questo tipo. Ricerche recenti suggeriscono di personalizzare modelli testo-immagine su larga scala ottimizzando gli incorporamenti di testo specializzati appena aggiunti o perfezionando i pesi del modello, date molte immagini di una singola idea, per consentire di sintetizzare istanze di questo concetto in situazioni uniche.
In questo studio, ricercatori dell’Università Ebraica di Gerusalemme, Google Research, Università di Reichman e Università di Tel Aviv presentano un nuovo scenario per la scomposizione della scena testuale: data una singola immagine di una scena che potrebbe includere diversi concetti di vario tipo, il loro obiettivo è quello di separare un token di testo specifico per ciascuna idea. Ciò consente la creazione di immagini innovative da suggerimenti verbali che evidenziano determinati concetti o combinazioni di molti temi. Le idee che vogliono apprendere o estrarre dall'attività di personalizzazione sono solo talvolta evidenti, il che le rende potenzialmente poco chiare. I lavori precedenti hanno affrontato questa ambiguità concentrandosi su un singolo argomento alla volta e utilizzando una varietà di fotografie per mostrare il concetto in vari contesti. Tuttavia, sono necessari metodi alternativi per risolvere il problema quando si passa a una situazione con immagine singola.
Suggeriscono specificamente di aggiungere una serie di maschere all'immagine di input per aggiungere ulteriori informazioni sui concetti che vogliono estrarre. Queste maschere possono essere in formato libero fornite dall'utente o prodotte da un approccio di segmentazione automatizzato (come ad esempio). L'adattamento delle due tecniche principali, TI e DB, a questo ambiente indica un compromesso tra ricostruzione e modificabilità. Mentre TI non riesce a ricostruire adeguatamente le idee in un nuovo contesto, DB necessita di un maggiore controllo del contesto a causa del sovraadattamento. In questo studio, gli autori suggeriscono una pipeline di personalizzazione unica che raggiunge con successo un compromesso tra il mantenimento dell'identità del concetto appreso e la prevenzione dell'adattamento eccessivo.
Figura 1 fornisce una panoramica della nostra metodologia, che si compone di quattro parti principali: (1) Utilizziamo un approccio di campionamento sindacale, in cui un nuovo sottoinsieme di token viene campionato ogni volta, per addestrare il modello a gestire varie combinazioni di idee create. Inoltre, (2) per prevenire l'overfitting, utilizziamo un regime di training in due fasi, iniziando con l'ottimizzazione dei soli token recentemente inseriti con un tasso di apprendimento elevato e continuando con i pesi del modello nella seconda fase con un tasso di apprendimento ridotto . Le idee desiderate vengono ricostruite utilizzando una (3) perdita di diffusione mascherata. In quarto luogo, utilizziamo una perdita di attenzione incrociata unica per promuovere il districamento tra le idee apprese.
La loro pipeline contiene due passaggi, mostrati nella Figura 1. Per ricostruire l'immagine di input, identificano innanzitutto un gruppo di caratteri di testo speciali (chiamati maniglie), congelano i pesi del modello e quindi ottimizzano le maniglie. Continuano a perfezionare le maniglie mentre passano alla messa a punto dei pesi del modello nella seconda fase. Il loro metodo enfatizza fortemente la districazione dell'estrazione dei concetti o la garanzia che ogni maniglia sia collegata a un solo concetto target. Capiscono inoltre che la procedura di personalizzazione non può essere eseguita in modo indipendente per ciascuna idea per sviluppare grafici che mostrino combinazioni di nozioni. In risposta a questa scoperta, proponiamo il union sampling, un approccio formativo che risponde a questa esigenza e migliora la creazione di combinazioni di idee.
Lo fanno utilizzando la perdita di diffusione mascherata, una variazione modificata della perdita di diffusione standard. Il modello non viene penalizzato se una maniglia è collegata a più di un concetto a causa di questa perdita, il che garantisce che ciascuna maniglia personalizzata possa fornire l'idea prevista. La loro scoperta principale è che possono punire tale intreccio imponendo inoltre una perdita sulle mappe di attenzione incrociata, che come è noto sono correlate con il layout della scena. A causa della perdita aggiuntiva, ogni maniglia si concentrerà esclusivamente sulle aree coperte dal suo concetto target. Offrono diverse misurazioni automatiche per il compito di confrontare la loro metodologia con i benchmark.