Upgrade to Pro — share decks privately, control downloads, hide ads and more …

音声言語モデル手法に関する発表の紹介

Sponsored · Your Podcast. Everywhere. Effortlessly. Share. Educate. Inspire. Entertain. You do you. We'll handle the rest.

 音声言語モデル手法に関する発表の紹介

NLP2026参加報告会での発表

Avatar for Kazuki Inamura

Kazuki Inamura

April 27, 2026

More Decks by Kazuki Inamura

Other Decks in Technology

Transcript

  1. 2 NLPの研究で修⼠課程を修了後、 CyberAgent->PKSHA Technology->MNTSQにて NLP/MLを活かしたAI SaaSプロダクトを開発。 2024年にIVRy⼊社。通話に関するデータの分析や 情報⽣成を中⼼に貢献、現在はIVRy Data Hubとい

    う新製品の AI Agent 開発を主導。 最近のブーム: Hermes Agent による作業⾃動化 Kazuki Inamura AI engineer / Technical Product Manager X @kzinmr ⾃⼰紹介
  2. 3 今⽇紹介する研究 - FT-LLM 2026:「合成データを使⽤した⽇本語⾳声LLMの開発」@ 第2回「⼤ 規模⾔語モデルのファインチューニング技術と評価」⾃由型タスク 堤 歩⽃, ⼤城

    治城 (都⽴⼤) => JaSpeechLLM-8B モデルとして公開 - C1-1: 「Llama-Mimi: 意味‧⾳響トークンを交互配置した ⾳声⾔語モデル」 杉浦 ⼀瑳 (京⼤/NII), 栗⽥ 修平, ⼩⽥ 悠介 (NII), 東中 ⻯⼀郎 (名⼤/NII) => Llama-Mimi-1.3B モデルとして公開
  3. 補足:Moshi (w/ mimi) by RQ-Transformer => Llama-mimi 2次元の依存関係(意味 →意味、意味→音響…_t )

    依存関係を1次元化 タスク: realtime & full-duplex (multistream) 会話 タスク: 単一 speech continuation