Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
Agentic AI를 위한 MCP Sidecar sLM 학습(시도)기
Search
Lablup Inc.
PRO
November 03, 2025
0
10
Agentic AI를 위한 MCP Sidecar sLM 학습(시도)기
Track 3_1730_Lablup Conf 2025_이준범
Lablup Inc.
PRO
November 03, 2025
Tweet
Share
More Decks by Lablup Inc.
See All by Lablup Inc.
효율적인 Agentic 아키텍처 구성을 위한 개발 Tip
lablup
PRO
0
3
Tokens/$ 극대화를 위한 소프트웨어 기술
lablup
PRO
0
8
Backend.AI Continuum을 이용한 AI Product 개발하기
lablup
PRO
1
3
Making Sense of HS Codes: HSense AI System for Automated Tariff Classfication
lablup
PRO
0
3
LLM을 통한 합성 데이터 생성
lablup
PRO
0
5
당신의 기업, AI 전환이 안되는 3가지 이유
lablup
PRO
0
6
[Keynote] Composable AI, Composable Software
lablup
PRO
0
10
[Keynote] AAA: Agentic, Autonomous, Adaptive Intelligence
lablup
PRO
0
13
Take the FastTrack 3: A Backend.AI approach to LLMOps
lablup
PRO
0
11
Featured
See All Featured
4 Signs Your Business is Dying
shpigford
186
22k
Distributed Sagas: A Protocol for Coordinating Microservices
caitiem20
333
22k
How STYLIGHT went responsive
nonsquared
100
5.9k
Templates, Plugins, & Blocks: Oh My! Creating the theme that thinks of everything
marktimemedia
31
2.6k
BBQ
matthewcrist
89
9.9k
Writing Fast Ruby
sferik
630
62k
Git: the NoSQL Database
bkeepers
PRO
432
66k
[RailsConf 2023] Rails as a piece of cake
palkan
57
6.1k
Chrome DevTools: State of the Union 2024 - Debugging React & Beyond
addyosmani
9
980
Let's Do A Bunch of Simple Stuff to Make Websites Faster
chriscoyier
508
140k
Site-Speed That Sticks
csswizardry
13
970
Dealing with People You Can't Stand - Big Design 2015
cassininazir
367
27k
Transcript
None
Agentic AI를 위한 MCP Sidecar sLM 학습(시도) 기 이준범 (래블업)
[email protected]
발표자 소개 이준범 (aka Beomi) - 래블업 Researcher - AI/ML
GDE - 한국어 언어모델 연구하다 스마트스팸필터 앱도 만들다 가 - 작년 발표는 온디바이스 모 델 - 올해 발표도 온디바이스(?) 모델
대-Agent 시대
Anthropic에서 제안한 MCP
OpenAI도 도입하는 MCP
MCP vs Tool Calling?
MCP vs Tool Calling MCP = 1) List(gather) functions 2)
Choose MCP:function 3) User Request (>>AutoAccept) 4) Tool call 5) Generate Img src: https://www.linkedin.com/feed/update/urn:li:activity:7319639412240261120/
MCP vs Tool Calling MCP = 1) List(gather) functions 2)
Choose MCP:function 3) User Request (>>AutoAccept) 4) Tool call 5) Generate Img src: https://www.linkedin.com/feed/update/urn:li:activity:7319639412240261120/
모델이 ‘MCP’를 알고 있을까?
MCP를 알고 있는 서포트 모델: MCP Sidecar 필요한 것 -
User prompt - MCP Servers - Base LLM Output - Evaluator - JSON - MCP Schema - Tool validation - LLM as Judge - … Gemma-3-27b Llama-3.1-8B Qwen3-14B
MCP 쓰는 모델 성능 측정? MCP-Bench Img src: https://github.com/Accenture/mcp-bench 28
MCP Servers
MCP-Bench
MCP 쓰는 모델 성능 측정? MCP-Bench
MCP 쓰는 모델 성능 측정? MCP-Bench
1차 목표: Schema 잘 구성 하기 MCP 쓰는 모델 성능
측정? MCP-Bench
2차 목표: 문맥 이해 높이기 MCP 쓰는 모델 성능 측정?
MCP-Bench
MCP-Bench는 Evaluation Kit
학습 데이터는 어디서? 1) 가상 Task 만들고 2) Trajectory 모으고
3) Revise or Verify
Train Set = (가상) User Prompt 시나리오 • MCP-bench는 Eval
Set Only • 독립된 Train Set 필요 • MCP 서버들 정보 기반 → 신규 User Query 생성 • GPT-5, GPT-5-mini 이용
Train Set = (가상) User Prompt 시나리오 User Query 생성
• MCP 서버 목록 + Tool 목록 • GPT-5/mini로 • Task Goal 설정하기 • Fuzzy Description (= 사용자 프롬프트) • 실제 사용할 함수 /Parameter (→ 이후 Verifier 사용)
Train Set = (가상) User Prompt 시나리오
Revise 모델 학습은 어떻게?
가장 간단한 접근법: 작은 모델 → 큰 모델 Revise SFT
SFT로 가능한가?
SFT로 가능한가?
RLVR + RLH(AI)F
Rewards? Eval Pass = Reward++
MCP/Tool Call은 Parser와의 싸움
MCP/Tool Call은 Parser와의 싸움
Parser를 학습?
RL 학습 어떻게?
Agentic AI = 엄청 많은 토큰 사용! - Qwen3-0.6B는 최대
40k - 현재 입력 평균 57k+, 최대 128k
Agentic AI = 엄청 많은 토큰 사용! RoPE Scaling으로 확장
- Qwen3-14B는 지원 - 작은 모델들은 비지원 - 성능이 확 감소…
Agentic AI = 엄청 많은 토큰 사용! Qwen3 4B Instruct
모델 --> Native context 256K
RLVR 학습 – TRL
RLVR 학습 – TRL + vLLM
RLVR 학습 – TRL + vLLM
RLVR 학습 – TRL + vLLM
모델 성능 측정은 동일하게
모델 성능 목표 Llama 3.1 8B Inst 기준 → Parser
이용시 해당 점수. RL 학습 전/후
Todo - ing
LLM as Judge, LLM이 주는 Reward
RLVR 학습 – VERL
RLVR 학습 – VERL: Agent Loop
Multiturn?
None