Upgrade to Pro — share decks privately, control downloads, hide ads and more …

BWAI 2026 GDG KR x MUG KR Session 1 Gemma4 소개 ᄇ...

BWAI 2026 GDG KR x MUG KR Session 1 Gemma4 소개 박제창

행사명: BWAI_2026_GDG_KR_x_MUG_KR_
Session_1_Gemma4 소개
박제창
일자: 2026년 5월 29일 금요일

Avatar for JaiChangPark

JaiChangPark

May 29, 2026

More Decks by JaiChangPark

Other Decks in Programming

Transcript

  1. GDG KR X MUG KR Agenda Gemma4 에대해 알아보고 핸즈온을

    위한 사전 준비 환경 설정과 오프라인 환경에서 직접 Gemma 4를 실행해봅니다. Gemma 4 Ollama Antigravity 2.0, Antigravity CLI Hands-on: Ollama 기본 2 Hands-on: Ollama Server (API) 활용
  2. Gemma 3 Gemma 3n Gemma 4 모델 크기 270M, 1B,

    4B, 12B, 27B E2B, E4B E2B, E4B, 26B A4B, 31B 입력 270M/1B: Text only 4B/12B/27B: Text + Image Text + Image + Video + Audio Text + Image + Video 전 모델 Audio는 E2B/E4B만 출력 Text only Text only Text only 컨텍스트 270M/1B: 32K 4B/12B/27B: 128K 32K E2B/E4B: 128K 26B A4B/31B: 256K 핵심 구조 Core dense 계열 VLM PLE caching + MatFormer + conditional loading Dense + MoE, PLE for E2B/E4B, hybrid attention 핵심 메시지 이미지 이해와 긴 컨텍스트를 갖춘 범용 Gemma On-Device 실행 긴 컨텍스트 , reasoning, agentic 기능 강화 GDG KR X MUG KR 4 * PLE: Per-Layer Embeddings (PLE)
  3. 6 GDG KR X MUG KR 항목 E2B E4B 26B

    A4B 31B 아키텍처 Dense Dense MoE Dense 파라미터 2.3B effective 5.1B incl. embeddings 4.5B effective 8B incl. embeddings 25.2B total 3.8B active 30.7B 레이어 35 42 30 60 Context 128K 128K 256K 256K Sliding window 512 512 1024 1024 입력 모달리티 Text, Image, Audio Text, Image, Audio Text, Image Text, Image Vision encoder ~150M ~150M ~550M ~550M Audio encoder ~300M ~300M 없음 없음 포지션 E2B/E4B는 mobile, edge devices 대상. 작은 모델은 laptops/mobile의 efficient local execution에 최적화 E2B와 같은 온디바이스 계열, 더 큰 effective params MoE, 25.2B total / 3.8B active. Dense 31B 대비 빠른 추론에 적합 30.7B Dense, consumer GPU/workstation 대상.
  4. 7 Core Capabilities Gemma 4 models handle a broad range

    of tasks across text, vision, and audio. Key capabilities include: • Thinking – Built-in reasoning mode that lets the model think step-by-step before answering. • Long Context – Context windows of up to 128K tokens (E2B/E4B) and 256K tokens (26B A4B/31B). • Image Understanding – Object detection, Document/PDF parsing, screen and UI understanding, chart comprehension, OCR (including multilingual), handwriting recognition, and pointing. Images can be processed at variable aspect ratios and resolutions. • Video Understanding – Analyze video by processing sequences of frames. • Interleaved Multimodal Input – Freely mix text and images in any order within a single prompt. • Function Calling – Native support for structured tool use, enabling agentic workflows. • Coding – Code generation, completion, and correction. • Multilingual – Out-of-the-box support for 35+ languages, pre-trained on 140+ languages. • Audio (E2B and E4B only) – Automatic speech recognition (ASR) and speech-to-translated-text translation across multiple languages GDG KR X MUG KR
  5. 11 • 2023년 8월 22일 : Ollama 오픈소스 최초 출시

    (macOS & Linux) • 2024년 1월 23일 : 공식 Python 및 JavaScript 라이브러리 출시 • 2024년 2월 8일 : OpenAI API 호환성 추가 • 2024년 2월 15일 : Windows 버전 출시 (Preview) • 2025년 7월 30일 : 새로운 데스크톱 애플리케이션 출시 (Ollama v0.10)
  6. 12

  7. 13

  8. 15

  9. 24

  10. 27

  11. 28

  12. 29