Upgrade to Pro — share decks privately, control downloads, hide ads and more …

モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Musicを例に~

モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Musicを例に~

機械学習の社会実装勉強会第34回
2024/04/27(土) 10:00 〜 11:30
https://machine-learning-workshop.connpass.com/event/316112/
太田 博三(X:usagisan2020)

太田 博三

April 26, 2024
Tweet

More Decks by 太田 博三

Other Decks in Technology

Transcript

  1. 自己紹介 太田 博三(usagisan2020) 2008 年上智大学大学院 地球環境学研究科後期博士課程単位修得修了. インターネットの会社勤務を経て,サントリーコンシェルジュサービス (株)にて,コンタクトセンターのデータマーケティング業務に従事 『Julia データサイエンス(2017

    年翻訳)』などがある. 最近では,特集号記事 人工知能学会誌 Vol.39 No.2 (2024年3月号) 「解釈 可能性を高めて信頼し得るエージェントを実現するための脳型認知モデ ル」https://amzn.asia/d/9clIfMC がある.
  2. 発表の目次 1. (実装に向けた背景)モチベーション 2. (実装に向けた背景) Multimodal AI(AnyGPT)とは 3. (実装に向けた目的) モーダル変換の一貫性

    4. (実装に向けた実験)モーダル変換後の一貫性 5. (実装に向けた工夫)ジャンル表による解釈の試み 6. (実装に向けた工夫)オントロジーによる解釈の試み 7. まとめ・課題
  3. 4. (実装に向けた実験)モーダル変換後の一貫性(Gemini) Prompt: Can you show me rock music? Prompt:

    Can you create an image similar to music above? Prompt: Can you create an image? Prompt: Can you show me music based on the picture above? 皮の服とレ コード盤か らRock Classic Rock Hard Rock Alternative Rock
  4. 4. (実装に向けた実験)モーダル変換後の一貫性 ① GeminiでText-to-Image, ② huggingface.co/spacesでImage-to-Music Inspired Musical Prompt: "A

    mellow acoustic guitar melody with gentle percussion and soft strings, evoking a peaceful and contemplative mood, reflecting the tranquility of the sunset scene"
  5. 4. (実装に向けた実験)モーダル変換後の一貫性 ③ ②で生成されたプロンプトを用いて、UdioでText-to-Music, ④ ②で生成されたMusicと③で生成されたMusicが近いかを検討 "A mellow acoustic guitar

    melody with gentle percussion and soft strings, evoking a peaceful and contemplative mood, reflecting the tranquility of the sunset scene" 「穏やかなパーカッションと柔 らかい弦楽器を備えたまろやか なアコースティックギターのメ ロディーは、夕日の静けさを反 映し、平和で瞑想的な気分を呼 び起こします。」
  6. 5. (実装に向けた工夫)ジャンル表による解釈の試み ユーザーの嗜好に見合うジャンル表の生成(Music→Image, Image→Music) Prompt:上記の表で、画像を起 点に、音楽のジャンルを表形 式でまとめてください。 音楽のジャンル 画像のジャンル ポップ

    自然風景 クラシック アート ロック 都市風景 ジャズ アニメ 画像のジャンル 音楽のジャンル 自然風景 ポップ アート クラシック 都市風景 ロック アニメ ジャズ Prompt:上記の表で、画像を起点に、音 楽のジャンルを表形式でまとめてくださ い。 ・音楽と画像のジャンルが1対1の関係になっていることが重要!
  7. 5. (実装に向けた工夫)ジャンル表による解釈の試み ユーザーの嗜好に見合うジャンル表の生成(Music→Image, Image→Music) Prompt:上記の表で、画像を起 点に、音楽のジャンルを表形式 でまとめてください。 音楽のジャンル 画像のジャンル ポップ

    自然風景 クラシック アート ロック 都市風景 ジャズ アニメ Prompt:上記の表で、画像を起点に、音楽 のジャンルを表形式でまとめてください。 ・音楽→画像のモーダル変換のジャンルは1対1だが、 画像→音楽の変換のジャンルが1対多の関係になってしまっている!ことに注目 画像ジャンル 音楽ジャンル 抽象画 ロック、エレクトロニック 風景画 ポップ、クラシック 都市風景 ジャズ、ヒップホップ 人物画 クラシック、ポップ ストリートアート ヒップホップ、ロック
  8. 6. (実装に向けた工夫)オントロジーによる解釈の試み ユーザーの嗜好に見合うジャンル表の生成(Music→Image, Image→Music) ・音楽→画像のモーダル変換のジャンルは1対1だが、 画像→音楽の変換のジャンルが1対多の関係になってしまっている!ことに注目 ・オントロジー(上位概念と下位概念によるジャンル表の再構成)を行う。 Prompt:上記の表をオントロジーを使って、再構成してください. 大分類(画像ジ ャンル)

    中分類(関連するジャンル) 小分類 プロンプト 抽象画 音楽:アバンギャルド or エレクトロ ニック 音楽転写 「抽象画の創造的なエネルギーを音楽に変換 してください。」 抽象画 動画:アート展示の紹介 展示紹介映像 「抽象画の展示を紹介するアート展示の映像 を制作してください。」 抽象画 テキスト:抽象的な概念を探求す る評論 抽象概念評論 「抽象画に触発された抽象的な概念やアイデ アに関する評論を執筆してください。」
  9. 参考URL一覧 1. AnyGPT: Unified Multimodal LLM with Discrete Sequence Modeling

    https://arxiv.org/html/2402.12226v3 2. AnyGPT https://junzhan2000.github.io/AnyGPT.github.io/ 3. 【53種一覧】わからない音楽ジャンル解決!30秒でわかる!【音源あり】 - ギタカメとおんがく https://www.gitacame.com/entry/music_janru_matome#google_vignette 4. Udio | AI Music Generator – Official Website https://www.udio.com/my-creations 5. Thriller (2003 Edit) – マイケル・ジャクソンの曲 – Apple Music https://music.apple.com/jp/album/thriller-2003-edit/273598907?i=273598917 6. 【完全解説】絵画の種類や技法・画派のジャンルを分類 - ブログ https://www.baku-art.co.jp/businessblog/otaku/20210114115.html 7. Image to Music v2 - a Hugging Face Space by fffiloni https://huggingface.co/spaces/fffiloni/image-to-music-v2 8.マルチモーダル基盤におけるマイナーなモーダル間のについて解釈可能性の検討 https://www.jstage.jst.go.jp/article/jsaisigtwo/2023/SWO- 062/2023_10/_pdf
  10. 画像・絵画のジャンルについて 【完全解説】絵画の種類や技法・画派のジャンルを分 類 - ブログ https://www.baku- art.co.jp/businessblog/otaku/20210114115.html ・風景画:自然の風景を対象にした絵画作品 ・静物画:静止して動かない人工物や自然物を対象に した絵画作品

    ・肖像画:特定の人物を描いた作品 ・博物画:動物や植物を対象にした絵画作品 ・宗教画:宗教の目的のために宗教関連の内容が描か れた作品 ・歴史画:歴史的事件や物語、神話などを描いた絵画 作品 ・風俗画:庶民の日常生活をモチーフにした作品 画像のジャンル 風景画 ストリートアート 抽象画 ポップアート グラフィティアート デジタルアート
  11. ユーザーの嗜好に見合うプロンプトを生成(マルチモーダル) Prompt:上記の表に、動画とテキスト生成を加えて完成させてく ださい 音楽のジャン ル 関連する画像の ジャンル 関連する動画 のジャンル 関連するテキス

    ト生成 クラシック 古典的な風景画 歴史的ドキュメ ンタリー 歴史的な物語 や詩 ジャズ アーバン・ストリー トアート ジャズクラブの ライブ演奏 都会の夜の描 写 ロック エネルギッシュな 抽象画 コンサートのラ イブ映像 反逆的なストー リーや歌詞 ポップ 明るくカラフルな ポップアート ミュージックビ デオ ポップカルチャ ーに関する記 事 ヒップホップ グラフィティアート ストリートダン スのバトル ラップバトルの 歌詞 エレクトロニッ ク フューチャリスティ ックなデジタルア ート SF映画のトレ ーラー テクノロジーに 関するエッセイ Prompt:今度は、画像のジャンルを起点にして、表を作成してく ださい 画像のジャンル 関連する音楽 のジャンル 関連する動画 のジャンル 関連するテキス ト生成 風景画 クラシック or ア ンビエント 自然ドキュメン タリー 自然に関する詩 や物語 ストリートアート ヒップホップ or ジャズ ストリートカルチ ャーのドキュメ ンタリー 都市生活に関 するエッセイ 抽象画 アバンギャルド or エレクトロニ ック アート展示の紹 介 抽象的な概念を 探求する評論 ポップアート ポップ or ダンス ファッションショ ーのハイライト ポップカルチャ ーの分析 グラフィティアー ト ヒップホップ or パンク アーバンエクス プロレーション ストリートアート の歴史 デジタルアート エレクトロニック or IDM テクノロジー関 連のニュース サイバーパンク の短編小説
  12. ユーザーの嗜好に見合うプロンプトを生成(マルチモーダル) Prompt:上記の表に、動画とテキスト生成を加えて完 成させてください 音楽のジャン ル 関連する画像の ジャンル 関連する動画 のジャンル 関連するテキス

    ト生成 クラシック 古典的な風景画 歴史的ドキュメ ンタリー 歴史的な物語 や詩 ジャズ アーバン・ストリー トアート ジャズクラブの ライブ演奏 都会の夜の描 写 ロック エネルギッシュな 抽象画 コンサートのラ イブ映像 反逆的なストー リーや歌詞 ポップ 明るくカラフルな ポップアート ミュージックビ デオ ポップカルチャ ーに関する記 事 ヒップホップ グラフィティアート ストリートダン スのバトル ラップバトルの 歌詞 エレクトロニッ ク フューチャリスティ ックなデジタルア ート SF映画のトレ ーラー テクノロジーに 関するエッセイ Prompt:今度は、画像のジャンルを起点にして、表を作 成してください 画像のジャン ル 関連する音楽 のジャンル 関連する動画 のジャンル 関連するテキ スト生成 風景画 クラシック or ア ンビエント 自然ドキュメン タリー 自然に関する 詩や物語 ストリートアート ヒップホップ or ジャズ ストリートカル チャーのドキュ メンタリー 都市生活に関 するエッセイ 抽象画 アバンギャルド or エレクトロニ ック アート展示の紹 介 抽象的な概念 を探求する評 論 ポップアート ポップ or ダン ス ファッションショ ーのハイライト ポップカルチャ ーの分析 グラフィティア ート ヒップホップ or パンク アーバンエクス プロレーション ストリートアート の歴史 デジタルアート エレクトロニック or IDM テクノロジー関 連のニュース サイバーパンク の短編小説
  13. オントロジーによる音楽ジャンルと画像ジャンル 大分類(音楽ジ ャンル) 中分類(関連するジャンル) 小分類 プロンプト ロック 画像:エネルギッシュな抽象画 抽象表現 「ロック音楽の生のエネルギーを感じる抽象画

    を制作してください。」 ロック 動画:コンサートのライブ映像 コンサート映像 「ロックコンサートの興奮と情熱を伝えるライブ 映像を制作してください。」 ロック テキスト:反逆的なストーリーや 歌詞 反逆の物語 「ロック音楽の反抗的な精神を表す物語や歌 詞を書いてください。」 大分類(音楽ジ ャンル) 中分類(関連するジャンル) 小分類 プロンプト 抽象画 音楽:アバンギャルド or エレクト ロニック 音楽転写 「抽象画の創造的なエネルギーを音楽に変換 してください。」 抽象画 動画:アート展示の紹介 展示紹介映像 「抽象画の展示を紹介するアート展示の映像 を制作してください。」 抽象画 テキスト:抽象的な概念を探求す る評論 抽象概念評論 「抽象画に触発された抽象的な概念やアイデ アに関する評論を執筆してください。」
  14. 参考資料:音楽を起点としたマルチモーダルジャンル 音楽のジャンル 関連する画像のジャンル 関連する動画のジャンル 関連するテキスト生成 クラシック 古典的な風景画 歴史的ドキュメンタリー 歴史的な物語や詩 ジャズ

    アーバン・ストリートアート ジャズクラブのライブ演奏 都会の夜の描写 ロック エネルギッシュな抽象画 コンサートのライブ映像 反逆的なストーリーや歌 詞 ポップ 明るくカラフルなポップア ート ミュージックビデオ ポップカルチャーに関す る記事 ヒップホップ グラフィティアート ストリートダンスのバトル ラップバトルの歌詞 エレクトロニック フューチャリスティックなデ ジタルアート SF映画のトレーラー テクノロジーに関するエ ッセイ
  15. 参考資料: :オントロジーによる音楽ジャンル 大分類(音楽ジャン ル) 中分類(関連するジャンル) 小分類 プロンプト クラシック 画像:古典的な風景画 風景描写

    「クラシック音楽が奏でる穏やかさを映す風景を描いてください。」 クラシック 動画:歴史的ドキュメンタリー 歴史的場面 「クラシック音楽に合わせた歴史的場面を撮影してください。」 クラシック テキスト:歴史的な物語や詩 物語・詩作成 「クラシック音楽の感性を表す物語や詩を書いてください。」 ジャズ 画像:アーバン・ストリートアート 都市風景 「ジャズのエッセンスを表現するストリートアートを制作してください。」 ジャズ 動画:ジャズクラブのライブ演奏 ライブ演奏 「ジャズの生演奏を捉えたライブシーンを作成してください。」 ジャズ テキスト:都会の夜の描写 都市の夜 「ジャズからインスピレーションを得た都会の夜を記述してください。」 ロック 画像:エネルギッシュな抽象画 抽象表現 「ロック音楽の生のエネルギーを感じる抽象画を制作してください。」 ロック 動画:コンサートのライブ映像 コンサート映像 「ロックコンサートの興奮と情熱を伝えるライブ映像を制作してください。」 ロック テキスト:反逆的なストーリーや歌 詞 反逆の物語 「ロック音楽の反抗的な精神を表す物語や歌詞を書いてください。」 ポップ 画像:明るくカラフルなポップアー ト ポップアート作成 「ポップ音楽の楽しい雰囲気を映し出すポップアートをデザインしてください。」 ポップ 動画:ミュージックビデオ MV企画 「ポップ曲に合わせたミュージックビデオのコンセプトを考えてください。」 ポップ テキスト:ポップカルチャーに関す る記事 ポップカルチャー分析 「ポップ音楽の影響を受けたポップカルチャーの現象について分析する記事を書いてください。」
  16. 参考資料画像を起点としたマルチモーダルジャンル 画像のジャンル 関連する音楽のジャン ル 関連する動画のジャン ル 関連するテキスト生成 風景画 クラシック or

    アンビエン ト 自然ドキュメンタリー 自然に関する詩や物語 ストリートアート ヒップホップ or ジャズ ストリートカルチャーの ドキュメンタリー 都市生活に関するエッ セイ 抽象画 アバンギャルド or エレ クトロニック アート展示の紹介 抽象的な概念を探求す る評論 ポップアート ポップ or ダンス ファッションショーのハ イライト ポップカルチャーの分 析 グラフィティアート ヒップホップ or パンク アーバンエクスプロレー ション ストリートアートの歴史 デジタルアート エレクトロニック or IDM テクノロジー関連のニュ ース サイバーパンクの短編 小説
  17. 参考資料:オントロジーによる画像ジャンル 大分類(音楽ジ ャンル) 中分類(関連するジャンル) 小分類 プロンプト クラシック 画像:古典的な風景画 風景描写 「クラシック音楽が奏でる穏やかさを映す風景を描いてください。」

    クラシック 動画:歴史的ドキュメンタリー 歴史的場面 「クラシック音楽に合わせた歴史的場面を撮影してください。」 クラシック テキスト:歴史的な物語や詩 物語・詩作成 「クラシック音楽の感性を表す物語や詩を書いてください。」 ジャズ 画像:アーバン・ストリートアート 都市風景 「ジャズのエッセンスを表現するストリートアートを制作してください。」 ジャズ 動画:ジャズクラブのライブ演奏 ライブ演奏 「ジャズの生演奏を捉えたライブシーンを作成してください。」 ジャズ テキスト:都会の夜の描写 都市の夜 「ジャズからインスピレーションを得た都会の夜を記述してください。」 ロック 画像:エネルギッシュな抽象画 抽象表現 「ロック音楽の生のエネルギーを感じる抽象画を制作してください。」 ロック 動画:コンサートのライブ映像 コンサート映像 「ロックコンサートの興奮と情熱を伝えるライブ映像を制作してください。」 ロック テキスト:反逆的なストーリーや歌詞 反逆の物語 「ロック音楽の反抗的な精神を表す物語や歌詞を書いてください。」 ポップ 画像:明るくカラフルなポップアート ポップアート作成 「ポップ音楽の楽しい雰囲気を映し出すポップアートをデザインしてください。」 ポップ 動画:ミュージックビデオ MV企画 「ポップ曲に合わせたミュージックビデオのコンセプトを考えてください。」 ポップ テキスト:ポップカルチャーに関する記事 ポップカルチャー分析 「ポップ音楽の影響を受けたポップカルチャーの現象について分析する記事 を書いてください。」