Upgrade to Pro — share decks privately, control downloads, hide ads and more …

ゲームシーンからそれに適したBGMの音響特徴を予測する

Kitahara Lab.
February 07, 2023
62

 ゲームシーンからそれに適したBGMの音響特徴を予測する

2022年度卒業研究発表 林龍星

Kitahara Lab.

February 07, 2023
Tweet

More Decks by Kitahara Lab.

Transcript

  1. • プレイヤーが盛り上がるようにテンポが速くて激しいBGMが流れる 戦闘シーンをプレイする場面 はじめに > 背景 > 戦闘シーンをプレイする場面 Omori: “Tussle

    Among Trees”, OMORI, 2020 伊藤賢治: “バトル1”, ロマンシング サ・ガ3, 1995 うおぉぉぉぉー!! タイガーブレイク!!
  2. 会話シーンをプレイする場面 • プレイヤーが会話に集中するようにテンポが遅くて穏やかなBGMが流れる はじめに > 背景 > 会話シーンをプレイする場面 Omori: “By

    Your side.”, OMORI, 2020 伊藤賢治: “きょ・う・じゅ♥のテーマ”, ロマンシング サ・ガ3, 1995 か゛わ゛い゛い゛な゛〜 ケ゛ル゛く゛ん゛❤
  3. 関連研究 • Nicolas Mauthes: “RNNを用いたビデオゲーム音楽生成”, 2018 ◦ ゲーム音楽のMIDIをLSTMで学習してそれらを模倣した音楽を生成する ◦ 楽曲を出力することはできるが映像を入力することはできない

    • Gunjan Aggarwal, Devi Parikh: “ダンス主導の音楽自動生成”, 2021 ◦ 既存のダンス映像とリアルタイムのダンス映像から音楽を生成する ◦ 映像を入力して楽曲を出力するとはできるが学習の対象はゲームではない はじめに > 関連研究
  4. 関連研究 • 山内拓真, 他9名: “ゲームシナリオと感情状態に合わせてBGMを選曲するシステム”, 2020. • 星雄輝, 他3名: “CycleGANを用いたゲーム音楽のシーン別変換”,

    2020. • Chris Donahue, 他2名: “The NES Music Database: A Multi-Instrumental Dataset with Expressive Performance Attributes”, 2018. • Chuang Gan, 他4名: “Foley Music: Learning to Generate Music from Videos”, 2020. • 根本さくら, 他10名: “物語のシーンにおける登場人物の感情状態とBGMの関係性抽出”, 2020. • 藤原優花, 他3名: “眼鏡型計測端末を用いたゲームプレイにおける重要なシーン抽出手法の検討”, 2019. • 獅々堀正幹, 他3名: “Earth Mover’s Distanceを用いたハミングによる類似音楽検索手法”, 2007. • Ali C. Gedik, Barış Bozkurt: “Pitch-frequency histogram-based music information retrieval for Turkish music”, Signal Processing, 2010. • Nivethitha Somu, 他2名: “A deep learning framework for building energy consumption forecast”, 2021. • Rial A. Rajagukguk, 他2名: “A Review on Deep Learning Models for Forecasting Time Series Data of Solar Irradiance and Photovoltaic Power”, 2019. • Y. Lecun, L. Bottou, Y. Bengio, P. Haffner: “Gradient-based learning applied to document recognition”, 1998. • Sepp Hochreiter, Jürgen Schmidhuber: “Short-Term Memory”, 1997. • Diederik P. Kingma, Jimmy Ba: “Adam: A Method for Stochastic Optimization”, 2015. • Sashank J. Reddi, 他2名: “On the Convergence of Adam and Beyond”, 2018. はじめに > 関連研究
  5. 学習済みモデル 提案手法 • 入力 ◦ ゲーム名を入力して対応する学習済みモデルを指定 ◦ 映像を学習済みモデルに入力してシーンを指定 • 処理

    ◦ CNNで1フレームごとに画像をベクトルに変換 ◦ LSTMで1フレームごとにベクトルを音響特徴に変換 ◦ 予測した音響特徴とフリー音源の距離を計算 ◦ 距離を基準にフリー音源集を昇順ソート • 出力 ◦ フリー音源集を出力 CNN 画像 画像 画像 CNN CNN CNN L S T M 音響特徴 フリー音源 映像 … 提案手法
  6. 出力データの前処理 • ゲームの音声をWAV形式で保存 • 音声を12秒ごとに分割 • 音声を表の音響特徴に変換 音響特徴 01 stft

    02 cqt 03 iirt 04 salience 05 chroma_stft 06 chroma_cqt 07 chroma_cens 08 melspectrogram 09 mfcc 10 delta 11 nmf 提案手法 > データの前処理 > 出力データの前処理
  7. モデルの構成 • CNN ◦ 画像を1次元のベクトルに変換する ◦ LSTMは映像のような3次元データを入力できない • LSTM ◦

    二次元配列の行を時系列として機械学習する ◦ CNNは映像のような時系列データを扱えない CNN CNN CNN CNN L S T M 提案手法 > モデルの構成
  8. 評価実験 • データセットを作成 • 学習するゲームを決定 ◦ Undertale ◦ クロノ・トリガー •

    学習するゲームに類似した既存のゲームを計算 ◦ ユーザが自作ゲームに類似したゲームを学習したモデルを選択する状況を再現 • 予測した音響特徴の妥当性を評価 • 出力されたフリー音源の妥当性を評価 評価実験
  9. データセットを作成 • ゲーム集 ◦ YouTube上に投稿されている speedrun動画を保存 ◦ 表のゲームから戦闘 , 探索,

    会話シーンを2個ずつ抽出 • フリー音源集 ◦ 表のサイトから約170個のフリー音源を保存 ◦ フリー音源に曲名, 作曲者, URLの情報を追加 ◦ ランダムに50個の評価実験に使用するフリー音源を抽出 評価実験 > データセットを作成 サイト 01 bensound 02 DOVA-SYNDROME 03 魔王魂 ゲーム 01 Ghost of Tsushima 02 OFF 03 OMORI 04 Undertale 05 クロノ・トリガー 06 すばらしきこのせかい 07 ニーア オートマタ 08 ペルソナ5 09 モンスターハンター ストーリーズ 10 ロマンシング サ・ガ3 11 ワイルドアームズ 12 大神
  10. 学習するゲームに類似した既存のゲームを計算 • 方法:ゲームの類似度 = 画像のハッシュ値の差 • 結果 ◦ Undertaleに類似したゲームは OMORI(左図)

    ◦ クロノ・トリガーに類似したゲームはロマンシング サ・ガ3(右図) 評価実験 > 学習するゲームに類似した既存のゲームを計算
  11. • 結果:chroma_stftで学習したモデルの結果が最も散らばる • 考察 ◦ 戦闘シーンを入力すると Shall we meet?とTake a

    Chance !が出力された ◦ 探索シーンを入力すると Dewが出力された ◦ 会話シーンを入力するとオーケストラ 24とDowntownが出力された クロノ・トリガー 評価実験 > 出力されたフリー音源の妥当性を評価 > クロノ・トリガー
  12. • 評価 ◦ Take a Chance !:戦闘シーンに適切,速いテンポと電子音の音色で緊張した雰囲気 ◦ Shall we

    meet?:戦闘シーンに不適切,遅いテンポとシンプルな構成でさわやかな雰囲気 ◦ Dew:探索シーンに適切,速いテンポと繰り返しの多いメロディで軽快な雰囲気 ◦ Downtown:会話シーンに適切,遅いテンポとジャズの曲調で落ち着いた雰囲気 ◦ オーケストラ24:一部の会話シーンに適切,速いテンポとコーラスで緊張した雰囲気 クロノ・トリガー 評価実験 > 出力されたフリー音源の妥当性を評価 > クロノ・トリガー MATSU: “Take a Chance !”, DOVA-SYNDROME, 2016 MATSU: “Dew”, DOVA-SYNDROME, 2015 Benjamin Tisso: “Downtown”, bensound, 2017
  13. おわりに • 提案手法 ◦ 模倣したいゲームを学習したモデルを選ぶ ◦ BGMを付与するシーンを入力して音響特徴を予測 ◦ 予測した音響特徴に最も近い音響特徴を持つフリー音源を探索 •

    評価実験 ◦ ゲームの類似度を計算 ◦ 予測した音響特徴の妥当性を評価 ◦ 出力されたフリー音源の妥当性を評価 おわりに
  14. おわりに • 結果 ◦ クロノ・トリガーをchroma_stftで学習したモデルにロマンシング サ・ガ3を入力した結果 は適切 ◦ Undertaleをmelspectrogramで学習したモデルに OMORIを入力した結果は不適切

    • 今後 ◦ 1つの映像に複数のシーンが含まれないように映像を抽出 ◦ 機械学習の処理内容の妥当性を評価 ◦ 著作権問題を完全に回避するために楽曲生成も検討 おわりに