Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
Agentic AI를 위한 MCP Sidecar sLM 학습(시도)기
Search
Lablup Inc.
PRO
November 03, 2025
0
0
Agentic AI를 위한 MCP Sidecar sLM 학습(시도)기
Track 3_1730_Lablup Conf 2025_이준범
Lablup Inc.
PRO
November 03, 2025
Tweet
Share
More Decks by Lablup Inc.
See All by Lablup Inc.
Tokens/$ 극대화를 위한 소프트웨어 기술
lablup
PRO
0
0
Backend.AI Continuum을 이용한 AI Product 개발하기
lablup
PRO
1
0
Making Sense of HS Codes: HSense AI System for Automated Tariff Classfication
lablup
PRO
0
0
LLM을 통한 합성 데이터 생성
lablup
PRO
0
0
당신의 기업, AI 전환이 안되는 3가지 이유
lablup
PRO
0
0
[Keynote] Composable AI, Composable Software
lablup
PRO
0
0
[Keynote] AAA: Agentic, Autonomous, Adaptive Intelligence
lablup
PRO
0
1
Take the FastTrack 3: A Backend.AI approach to LLMOps
lablup
PRO
0
1
우리 서비스의 Redis는 왜 매일 장애가 날까?
lablup
PRO
0
0
Featured
See All Featured
How GitHub (no longer) Works
holman
315
140k
Understanding Cognitive Biases in Performance Measurement
bluesmoon
31
2.7k
The World Runs on Bad Software
bkeepers
PRO
72
11k
GitHub's CSS Performance
jonrohan
1032
470k
Done Done
chrislema
186
16k
The Power of CSS Pseudo Elements
geoffreycrofte
80
6k
Responsive Adventures: Dirty Tricks From The Dark Corners of Front-End
smashingmag
253
22k
No one is an island. Learnings from fostering a developers community.
thoeni
21
3.5k
A Tale of Four Properties
chriscoyier
161
23k
Into the Great Unknown - MozCon
thekraken
40
2.1k
Code Reviewing Like a Champion
maltzj
526
40k
Practical Orchestrator
shlominoach
190
11k
Transcript
None
Agentic AI를 위한 MCP Sidecar sLM 학습(시도) 기 이준범 (래블업)
[email protected]
발표자 소개 이준범 (aka Beomi) - 래블업 Researcher - AI/ML
GDE - 한국어 언어모델 연구하다 스마트스팸필터 앱도 만들다 가 - 작년 발표는 온디바이스 모 델 - 올해 발표도 온디바이스(?) 모델
대-Agent 시대
Anthropic에서 제안한 MCP
OpenAI도 도입하는 MCP
MCP vs Tool Calling?
MCP vs Tool Calling MCP = 1) List(gather) functions 2)
Choose MCP:function 3) User Request (>>AutoAccept) 4) Tool call 5) Generate Img src: https://www.linkedin.com/feed/update/urn:li:activity:7319639412240261120/
MCP vs Tool Calling MCP = 1) List(gather) functions 2)
Choose MCP:function 3) User Request (>>AutoAccept) 4) Tool call 5) Generate Img src: https://www.linkedin.com/feed/update/urn:li:activity:7319639412240261120/
모델이 ‘MCP’를 알고 있을까?
MCP를 알고 있는 서포트 모델: MCP Sidecar 필요한 것 -
User prompt - MCP Servers - Base LLM Output - Evaluator - JSON - MCP Schema - Tool validation - LLM as Judge - … Gemma-3-27b Llama-3.1-8B Qwen3-14B
MCP 쓰는 모델 성능 측정? MCP-Bench Img src: https://github.com/Accenture/mcp-bench 28
MCP Servers
MCP-Bench
MCP 쓰는 모델 성능 측정? MCP-Bench
MCP 쓰는 모델 성능 측정? MCP-Bench
1차 목표: Schema 잘 구성 하기 MCP 쓰는 모델 성능
측정? MCP-Bench
2차 목표: 문맥 이해 높이기 MCP 쓰는 모델 성능 측정?
MCP-Bench
MCP-Bench는 Evaluation Kit
학습 데이터는 어디서? 1) 가상 Task 만들고 2) Trajectory 모으고
3) Revise or Verify
Train Set = (가상) User Prompt 시나리오 • MCP-bench는 Eval
Set Only • 독립된 Train Set 필요 • MCP 서버들 정보 기반 → 신규 User Query 생성 • GPT-5, GPT-5-mini 이용
Train Set = (가상) User Prompt 시나리오 User Query 생성
• MCP 서버 목록 + Tool 목록 • GPT-5/mini로 • Task Goal 설정하기 • Fuzzy Description (= 사용자 프롬프트) • 실제 사용할 함수 /Parameter (→ 이후 Verifier 사용)
Train Set = (가상) User Prompt 시나리오
Revise 모델 학습은 어떻게?
가장 간단한 접근법: 작은 모델 → 큰 모델 Revise SFT
SFT로 가능한가?
SFT로 가능한가?
RLVR + RLH(AI)F
Rewards? Eval Pass = Reward++
MCP/Tool Call은 Parser와의 싸움
MCP/Tool Call은 Parser와의 싸움
Parser를 학습?
RL 학습 어떻게?
Agentic AI = 엄청 많은 토큰 사용! - Qwen3-0.6B는 최대
40k - 현재 입력 평균 57k+, 최대 128k
Agentic AI = 엄청 많은 토큰 사용! RoPE Scaling으로 확장
- Qwen3-14B는 지원 - 작은 모델들은 비지원 - 성능이 확 감소…
Agentic AI = 엄청 많은 토큰 사용! Qwen3 4B Instruct
모델 --> Native context 256K
RLVR 학습 – TRL
RLVR 학습 – TRL + vLLM
RLVR 학습 – TRL + vLLM
RLVR 학습 – TRL + vLLM
모델 성능 측정은 동일하게
모델 성능 목표 Llama 3.1 8B Inst 기준 → Parser
이용시 해당 점수. RL 학습 전/후
Todo - ing
LLM as Judge, LLM이 주는 Reward
RLVR 학습 – VERL
RLVR 학습 – VERL: Agent Loop
Multiturn?
None