Modelli sequence-to-sequence

I modelli encoder-decoder (detti anche modelli sequence-to-sequence) utilizzano entrambi i componenti dell’architettura Transformer. Ad ogni passaggio, gli attention layer dell’encoder hanno accesso a tutte le parole della frase iniziale, mentre gli attention layer del decoder possono solo accedere alle parole che precedono linearmente una data parola nell’input.

Il pre-addestramento di questi modelli può essere fatto utilizzando gli obiettivi dei modelli encoder o decoder, anche se solitamente include un livello di complessità maggiore. Ad esempio, T5 è pre-addestrato rimpiazzando porzioni random di testo (che possono contenere più di una parola) con una speciale mask word, con l’obiettivo di predirre il testo rimpiazzato dalla mask word stessa.

I modelli sequence-to-sequence sono più adatti ai compiti che hanno a che fare con la generazione di nuove frasi sulla base di un input preciso, come il riassunto, la traduzione, o la generazione di risposte a domande.

Tra i rappresentanti di questa famiglia di modelli ci sono:

< > Update on GitHub

NLP Course

Modelli sequence-to-sequence