Qualität Model kann deployed werden Beispiele: GPT, LLaMA, PaLM Language Modeling tausende GPUs monatelanges Training SUPERVISED FINETUNING Demonstrationen ideale Antworten manuell generiert Model kann deployed werden Beispiel: Vicuna-13B Language Modeling wenige GPUs tagelanges Training REWARD MODELING Vergleiche mögliche Antworten vergleichen manueller Vorgang Algorithmus sagt Rewards voraus wenige GPUs tagelanges Training REINFORCEMENT LEARNING Prompts bis zu hunderttausend Prompts manuell generiert Modell kann deployed werden Beispiel: ChatGPT, Claude Algorithmus generiert Tokens mit maximalen Rewards tagelanges Training / wenige GPUs