Upgrade to Pro — share decks privately, control downloads, hide ads and more …

대형언어모델 추론과 강화학습

Avatar for Lablup Inc. Lablup Inc. PRO
November 02, 2025
1

대형언어모델 추론과 강화학습

Track 3_1500_Lablup Conf 2025_윤도균

Avatar for Lablup Inc.

Lablup Inc. PRO

November 02, 2025
Tweet

Transcript

  1. 확률론적 앵무새 • 의미 이해의 부재: 대형 언어 모델이 방대한

    훈련 데이터에서 관찰된 언어 형식의 시퀀스를 확률적 정보에 따라 우연히 꿰맞춰 그럴듯한 텍스트를 생성하지만, 실제로는 그 의미를 이해하지 못한다는 것을 의미합니다 마치 앵 무새가 말을 따라 할 수는 있어도 그 의미를 모르는 것에 비유한 것입니다
  2. Chain of Thought (CoT) • Chain of Thought (CoT) 는

    복잡한 작업을 최종 해결을 향한 일련의 논리적 단계로 세분화하여 인간과 유사한 추 론 과정을 시뮬레이션하는 인공 지능의 접근 방식입니다. 추론 데이터셋 (ORCA) CoT Prompt
  3. '사고'의 출현과 패러다임 전환 기존 방식 입력 X → 출력

    Y 단일의 복잡한 추론 과제 새로운 접근 X → 사고 1 → 사고 2 → Y 순차적 계산 스크래치패드 핵심 효과 복잡한 문제를 간단한 단계로 분해 인간 인지 과정 모방
  4. RLHF 지도 미세조정 (SFT) 고품질 인간 시연 데이터로 초기 모델

    적응 보상 모델 (RM) 훈련 인간 선호도 순위 데이터로 평가 모델 구축 RL 정책 최적화 PPO 알고리즘으로 보상 최대화하며 안전성 유지 보상 모델의 품질과 견고성이 전체 RLHF 파이프라인 성공의 핵심
  5. 결과 vs 과정 보상: 추론의 새로운 패러다임 1 결과 보상

    모델 (ORM) 긴 추론 연쇄의 끝에서 단일 보상 제공 (+1/-0) 희소 보상으로 인한 공로 할당 문제 → RLVR 2 과정 보상 모델 (PRM) 추론 과정의 각 중간 단계별 보상 조밀한 피드백으로 효율적 학습 → RLGRM
  6. Reinforcement Learning with Verifiable Reward (RLVR) RLVR은 계산기, 코드 수행

    결과 등 검증 가능한 결과를 이용하여 제대로 추론을 수행하였는지 확인하며 강화학 습하는 방식입니다.
  7. High-entropy tokens as "forks" 대형언어모델이 확신을 가지지 못하는 경우에는 confidence가

    낮아지기 때문에 이를 이용하여 confidence가 낮 아지는 곳 (fork)를 기준으로 학습할 수 있습니다.
  8. RLAIF에서 자기 보상까지 RLHF 인간 평가자 기반 높은 비용과 시간

    RLAIF AI 평가자 (GPT-4, Claude) 확장 가능한 해결책 자기 보상 모델이 자신의 교사 재귀적 자기 개선