Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
Introduction to works of Data Scientist in LY C...
Search
Sponsored
·
Ship Features Fearlessly
Turn features on and off without deploys. Used by thousands of Ruby developers.
→
LINEヤフー株式会社 採用情報
November 24, 2024
Technology
340
0
Share
Embed
Copy iframe code
Copy JS code
Copy link
Start on current slide
Introduction to works of Data Scientist in LY Corporation
LINEヤフー株式会社 採用情報
November 24, 2024
More Decks by LINEヤフー株式会社 採用情報
See All by LINEヤフー株式会社 採用情報
コーポレートビジネスドメイン説明資料
lycorp_recruit_jp
0
1.7k
LINEドメイン説明資料
lycorp_recruit_jp
0
800
ショッピングSBU紹介資料
lycorp_recruit_jp
0
650
ソーシャルコマースSBU紹介資料
lycorp_recruit_jp
0
1.1k
Internship_2026_Engineer_JA.pdf
lycorp_recruit_jp
0
64k
Internship_2026_Engineer_en.pdf
lycorp_recruit_jp
0
2.3k
ソーシャルコマース統括本部 PdM,TPMのお仕事紹介
lycorp_recruit_jp
1
420
LINEヤフー デザイナー紹介資料/Introduction for Designer
lycorp_recruit_jp
0
740
LINEヤフー CISO管掌 組織説明資料
lycorp_recruit_jp
0
1.8k
Other Decks in Technology
See All in Technology
AIは、人間らしい仕事の夢を見るか?─ AI時代のtoB/toEプロダクトを再設計する
techtekt
PRO
0
160
AI時代における最適なQA組織の作り方
ymty
3
120
MySQL & MySQL HeatWave Report - June 2026
freshdaz
0
190
UIパーツの設計を「型」から読み解く 〜TSKaigiのセッションから得た学び〜
yud0uhu
0
100
From Prompt Engineering to Loop Engineering
shibuiwilliam
1
270
「軸足」は 固定しなくていい - 熱量と強みで描く、しなやかなキャリアの形
kakehashi
PRO
1
280
打造你的 AI 工作流:Agent Skill + MCP 實戰工作坊
appleboy
0
120
作る力から、見極める力へ — AI時代に広がるエンジニアの価値と役割
rince
0
360
AIチャットの改善から見えた、良いAI体験とは / What Constitutes a Good AI Experience: Insights from Improving AI Chat
kubode
0
120
データレイクの「見えない問題」を可視化する
sansantech
PRO
1
220
水を運ぶ人としてのリーダーシップ
izumii19
4
1.1k
AI時代のコスト管理を考えよう〜明日から使える実践AWSノウハウ~
yoshimi0227
0
930
Featured
See All Featured
How to Talk to Developers About Accessibility
jct
2
260
Sharpening the Axe: The Primacy of Toolmaking
bcantrill
46
2.9k
Building Adaptive Systems
keathley
44
3.1k
コードの90%をAIが書く世界で何が待っているのか / What awaits us in a world where 90% of the code is written by AI
rkaga
62
44k
From π to Pie charts
rasagy
0
220
sira's awesome portfolio website redesign presentation
elsirapls
0
290
Build your cross-platform service in a week with App Engine
jlugia
234
18k
Hiding What from Whom? A Critical Review of the History of Programming languages for Music
tomoyanonymous
2
870
Pawsitive SEO: Lessons from My Dog (and Many Mistakes) on Thriving as a Consultant in the Age of AI
davidcarrasco
0
170
Scaling GitHub
holman
464
140k
Joys of Absence: A Defence of Solitary Play
codingconduct
1
400
Improving Core Web Vitals using Speculation Rules API
sergeychernyshev
21
1.5k
Transcript
© LY Corporation Introduction to works of Date Scientist in
LY Corporation DS統括本部 4本部 宗像 北斗 / Munakata Hokuto 1
© LY Corporation 宗像 北斗 (Munakata Hokuto) ~2023 : 大阪大学
工学研究科 駒谷研究室 - 音源分離の研究 2023~ : LINE株式会社 ASPチーム - 音楽情報処理の研究開発 2023/10~ : LINEヤフー株式会社 4本部 - 動画解析 / 音楽情報処理の研究開発 普段京都オフィスにいます 趣味: ・ギター,ライブ鑑賞 (ロック,パンク,メタル,シューゲイザー…) ・飲み会 (あんまり飲めない) ・良い紅茶 2 自己紹介 DCASE 2024(品川)にて
© LY Corporation 所属チームでの仕事 音楽情報処理 / 動画解析にまつわる研究開発 音楽情報処理:LINE MUSICなどの楽曲を扱うコンテンツのUX改善 ・歌唱者ダイアライゼーション
・動画を入力とした楽曲推薦 ・楽曲タギング 動画解析:スポーツナビなどの動画コンテンツの検索システムや動画広告の審査自動化 ・テキストクエリを用いたオーディオクリップ検索 ・テキストクエリを用いたオーディオの区間検索 ・マルチモーダル (Text, Image, Video, Audio) 基盤モデル 研究・開発どちらもやってます! 国際会議/論文誌投稿,OSSライブラリ開発,サービス向けツール開発
© LY Corporation 歌唱者ダイアライゼーション 複数人歌唱楽曲でどのタイミングで誰が歌っているか予測 応用先:LINE MUSICのUX向上 (歌詞表示,カラオケ機能) 従来:ボーカル抽出技術と話者(=対話音声)ダイアライゼーション技術の組み合わせ 課題:歌唱者ダイアライゼーションの学習データのアノテーションは高コスト
提案:大規模な楽曲データと音声変換モデルを組み合わせた合成データ生成法を提案! ☺ 企業ならではの大規模データ,音声合成チームとの連携 結果:大幅な性能改善 (ダイアライゼーション誤り率: 38.2% → 23.4%),国際会議採択! Diarization model Vocal extraction Singer labels Singer B A Time ♡~~~~~ ♧~~~~~
© LY Corporation テキストクエリを用いたオーディオの区間検索 長いオーディオから特定のイベントが含まれる区間を検索したい 応用先:スポーツ動画の自動ハイライト集生成,広告の自動審査 従来:事前に短く分割されたオーディオクリップの検索システムしかない 提案:コンピュータビジョンで扱われる動画に対する区間検索を応用,タスク整備 ☺ CVをバックグラウンドに持つメンバーと協力して新データセット,モデル提案
結果:単純なベースラインに比べて性能改善 (avg.mAP: 57.0→67.8),国際会議投稿中! Input long audio Input text query Freq.[kHz] 0 16 0 10 20 30 50 40 60 Time [second] 44s 16s Output audio moment Audio moment retrieval ”Spectators watch sports and cheer.” [16s, 44s]
© LY Corporation マルチモーダル基盤モデルの開発 日本語版Text-Image基盤モデルの拡張 目標:現状の基盤モデルに新たなモーダル(Video/Audioなど)を追加 (https://techblog.lycorp.co.jp/ja/20240514bにてText-image基盤モデルの詳細公開中!) 応用先:動画クリップに対する検索,自動タギング 現在進行中! ・日本語版の学習
/ 評価データ収集中 ・大規模学習に向けた環境構築 マルチモーダルなユーザクエリ マルチモーダルな出力 Audio Video Text Audio Video Text
© LY Corporation 1日の流れ ケース1 10:00-11:00 ミーティング 研究の進捗報告,アイデア出し 11:00-14:00 論文読み/資料作成/雑務
合間にお昼ご飯 14:00-15:00 全体定例 事業部との連携や 全社的な動きについて周知 15:00-18:45 論文読み/実験・実装/資料作成 日によってさまざま ミーティングが少ない夕方の方が コーディングに集中できる ケース2 10:00-15:00 論文執筆 締切前はとにかく書く 15:00-16:00 研究について1on1 行き詰まったらメンバーに相談 16:00-20:00 実験 論文を補強するための実験 集中モード
© LY Corporation