Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Agentic AI를 위한 MCP Sidecar sLM 학습(시도)기

Avatar for Lablup Inc. Lablup Inc. PRO
November 03, 2025
0

Agentic AI를 위한 MCP Sidecar sLM 학습(시도)기

Track 3_1730_Lablup Conf 2025_이준범

Avatar for Lablup Inc.

Lablup Inc. PRO

November 03, 2025
Tweet

Transcript

  1. 발표자 소개 이준범 (aka Beomi) - 래블업 Researcher - AI/ML

    GDE - 한국어 언어모델 연구하다 스마트스팸필터 앱도 만들다 가 - 작년 발표는 온디바이스 모 델 - 올해 발표도 온디바이스(?) 모델
  2. MCP vs Tool Calling MCP = 1) List(gather) functions 2)

    Choose MCP:function 3) User Request (>>AutoAccept) 4) Tool call 5) Generate Img src: https://www.linkedin.com/feed/update/urn:li:activity:7319639412240261120/
  3. MCP vs Tool Calling MCP = 1) List(gather) functions 2)

    Choose MCP:function 3) User Request (>>AutoAccept) 4) Tool call 5) Generate Img src: https://www.linkedin.com/feed/update/urn:li:activity:7319639412240261120/
  4. MCP를 알고 있는 서포트 모델: MCP Sidecar 필요한 것 -

    User prompt - MCP Servers - Base LLM Output - Evaluator - JSON - MCP Schema - Tool validation - LLM as Judge - … Gemma-3-27b Llama-3.1-8B Qwen3-14B
  5. Train Set = (가상) User Prompt 시나리오 • MCP-bench는 Eval

    Set Only • 독립된 Train Set 필요 • MCP 서버들 정보 기반 → 신규 User Query 생성 • GPT-5, GPT-5-mini 이용
  6. Train Set = (가상) User Prompt 시나리오 User Query 생성

    • MCP 서버 목록 + Tool 목록 • GPT-5/mini로 • Task Goal 설정하기 • Fuzzy Description (= 사용자 프롬프트) • 실제 사용할 함수 /Parameter (→ 이후 Verifier 사용)
  7. Agentic AI = 엄청 많은 토큰 사용! - Qwen3-0.6B는 최대

    40k - 현재 입력 평균 57k+, 최대 128k
  8. Agentic AI = 엄청 많은 토큰 사용! RoPE Scaling으로 확장

    - Qwen3-14B는 지원 - 작은 모델들은 비지원 - 성능이 확 감소…
  9. 모델 성능 목표 Llama 3.1 8B Inst 기준 → Parser

    이용시 해당 점수.  RL 학습 전/후