Decoder-Modelle
Decoder-Modelle verwenden nur den Decoder eines Transformer-Modells. Die Attention-Layer können bei jedem Schritt hinsichtlich eines bestimmten Wortes nur auf die Wörter zugreifen, die vor diesem Wort im Satz stehen. Diese Modelle werden oft als autoregressive Modelle bezeichnet.
Beim Pretraining von Decoder-Modellen geht es in der Regel um die Vorhersage des nächsten Wortes im Satz.
Diese Modelle sind am besten für Aufgaben geeignet, bei denen es um die Generierung von Texten geht.
Zu dieser Modellfamilie gehören unter anderem: