Slide 1

Slide 1 text

モーダル間の変換後の一致性とジャンル表を 用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music を例に~ 機械学習の社会実装勉強会第34回 2024/04/27(土) 10:00 〜 11:30 太田 博三(X:usagisan2020)

Slide 2

Slide 2 text

自己紹介 太田 博三(usagisan2020) 2008 年上智大学大学院 地球環境学研究科後期博士課程単位修得修了. インターネットの会社勤務を経て,サントリーコンシェルジュサービス (株)にて,コンタクトセンターのデータマーケティング業務に従事 『Julia データサイエンス(2017 年翻訳)』などがある. 最近では,特集号記事 人工知能学会誌 Vol.39 No.2 (2024年3月号) 「解釈 可能性を高めて信頼し得るエージェントを実現するための脳型認知モデ ル」https://amzn.asia/d/9clIfMC がある.

Slide 3

Slide 3 text

発表の目次 1. (実装に向けた背景)モチベーション 2. (実装に向けた背景) Multimodal AI(AnyGPT)とは 3. (実装に向けた目的) モーダル変換の一貫性 4. (実装に向けた実験)モーダル変換後の一貫性 5. (実装に向けた工夫)ジャンル表による解釈の試み 6. (実装に向けた工夫)オントロジーによる解釈の試み 7. まとめ・課題

Slide 4

Slide 4 text

1. モチベーション:Any-to-AnyのMultimodal AIを作りたい

Slide 5

Slide 5 text

2. Multimodal AI とは? ・2つ以上の2つ以上の異なるモダリティ(データの種類)から 情報を収集し,それらを統合して処理する人工知能(AI)シス テムのこと. →OpenAIのChatGPTやGeminiなど ・3つ以上の異なるモダリティ(データの種類)を扱うのを Any-to-Anyという. →本発表ではこちらをMultimodal AI とする. ※モダリティとは,テキスト,音声,画像,動画,センサ情報 などを指す.

Slide 6

Slide 6 text

2. (実装に向けた背景) AnyGPT)とは AnyGPTはLLaMA2をベースモデルとしている(テキスト理解している)。 ここに、テキスト以外の画像や音楽のデータはtokenizer/detokenizerでデータ変換している。 画像データは、SEED(ViTで画像をTokenizeし、StableDiffusionでDe-Tokenize)している。 音声データは、SpeechTokenizerを使用して、音声データを1秒ごとに区切ってそれを50hzでサ ンプリングし、波形を主に畳み込みで構成されるエンコーダーを使って変換する。RVQで意味 的特徴と音質的な特徴に分離している。 モデルの学習2つ: 1.テキストとそれ以外のモダリティのデータ1種類で学習 2.3つ以上のモダリティを組み合わせたデータで学習 テキストから各モダリティのデータを生成する 各モダリティのデータからテキストのキャプションを作成するといった双方向で学習されてい る。

Slide 7

Slide 7 text

2. (実装に向けた背景) AnyGPT)とは 3つ以上のモダリティを組み合わせた学習と学習用データの作成方法: 3つ以上のモダリティのデータを生成している。→生成された出力を学習データとして使用している。 先ほどの画面の世界観の音楽を作ってというプロンプトを実行し、音楽が生成されている。 テキスト以外のモダリティのキャプションは画像や音楽の実際のデータに置き換えられている。 画像生成はDALL-E3、音声生成はAzureのtext-to-speechのAPIが使用されている。音楽生成はMusicGenが使 用されている。 はじめにChatGPTで2万種類のトピックを生成し、シナリオを作成している。最終的に10万個のデータを生成 している。

Slide 8

Slide 8 text

3. (実装に向けた目的) モーダル変換の一貫性や評価 ・例えば、Text-to-Image(画像生成)で、思うような結果が得ら れないと、がっかりしてしまう。 ・Text-to-ImageとImage-to-Textの双方向で一貫性のある説明や 解釈がないと、ユーザーは不信感を抱き使わなくなってしまう。 ・3つ以上のモーダル変換には特に必要になる。

Slide 9

Slide 9 text

4. (実装に向けた実験)モーダル変換後の一貫性(Gemini) Prompt: Can you show me rock music? Prompt: Can you create an image similar to music above? Prompt: Can you create an image? Prompt: Can you show me music based on the picture above? 皮の服とレ コード盤か らRock Classic Rock Hard Rock Alternative Rock

Slide 10

Slide 10 text

4. (実装に向けた実験)モーダル変換後の一貫性 ① GeminiでText-to-Image, ② huggingface.co/spacesでImage-to-Music, ③ ②で生成されたプロンプトを用いて、udioでText- to-Music ④ ②で生成されたMusicと③で生成されたMusicが近 いかを検討 →近いなら一貫性があると言える。

Slide 11

Slide 11 text

4. (実装に向けた実験)モーダル変換後の一貫性 ① GeminiでText-to-Image, ② huggingface.co/spacesでImage-to-Music Inspired Musical Prompt: "A mellow acoustic guitar melody with gentle percussion and soft strings, evoking a peaceful and contemplative mood, reflecting the tranquility of the sunset scene"

Slide 12

Slide 12 text

4. (実装に向けた実験)モーダル変換後の一貫性 ③ ②で生成されたプロンプトを用いて、UdioでText-to-Music, ④ ②で生成されたMusicと③で生成されたMusicが近いかを検討 "A mellow acoustic guitar melody with gentle percussion and soft strings, evoking a peaceful and contemplative mood, reflecting the tranquility of the sunset scene" 「穏やかなパーカッションと柔 らかい弦楽器を備えたまろやか なアコースティックギターのメ ロディーは、夕日の静けさを反 映し、平和で瞑想的な気分を呼 び起こします。」

Slide 13

Slide 13 text

5. (実装に向けた工夫)ジャンル表による解釈の試み ユーザーの嗜好に見合うジャンル表の生成(Music→Image, Image→Music) Prompt:上記の表で、画像を起 点に、音楽のジャンルを表形 式でまとめてください。 音楽のジャンル 画像のジャンル ポップ 自然風景 クラシック アート ロック 都市風景 ジャズ アニメ 画像のジャンル 音楽のジャンル 自然風景 ポップ アート クラシック 都市風景 ロック アニメ ジャズ Prompt:上記の表で、画像を起点に、音 楽のジャンルを表形式でまとめてくださ い。 ・音楽と画像のジャンルが1対1の関係になっていることが重要!

Slide 14

Slide 14 text

5. (実装に向けた工夫)ジャンル表による解釈の試み ユーザーの嗜好に見合うジャンル表の生成(Music→Image, Image→Music) Prompt:上記の表で、画像を起 点に、音楽のジャンルを表形式 でまとめてください。 音楽のジャンル 画像のジャンル ポップ 自然風景 クラシック アート ロック 都市風景 ジャズ アニメ Prompt:上記の表で、画像を起点に、音楽 のジャンルを表形式でまとめてください。 ・音楽→画像のモーダル変換のジャンルは1対1だが、 画像→音楽の変換のジャンルが1対多の関係になってしまっている!ことに注目 画像ジャンル 音楽ジャンル 抽象画 ロック、エレクトロニック 風景画 ポップ、クラシック 都市風景 ジャズ、ヒップホップ 人物画 クラシック、ポップ ストリートアート ヒップホップ、ロック

Slide 15

Slide 15 text

6. (実装に向けた工夫)オントロジーによる解釈の試み ユーザーの嗜好に見合うジャンル表の生成(Music→Image, Image→Music) ・音楽→画像のモーダル変換のジャンルは1対1だが、 画像→音楽の変換のジャンルが1対多の関係になってしまっている!ことに注目 ・オントロジー(上位概念と下位概念によるジャンル表の再構成)を行う。 Prompt:上記の表をオントロジーを使って、再構成してください. 大分類(画像ジ ャンル) 中分類(関連するジャンル) 小分類 プロンプト 抽象画 音楽:アバンギャルド or エレクトロ ニック 音楽転写 「抽象画の創造的なエネルギーを音楽に変換 してください。」 抽象画 動画:アート展示の紹介 展示紹介映像 「抽象画の展示を紹介するアート展示の映像 を制作してください。」 抽象画 テキスト:抽象的な概念を探求す る評論 抽象概念評論 「抽象画に触発された抽象的な概念やアイデ アに関する評論を執筆してください。」

Slide 16

Slide 16 text

7. まとめ・課題 1)Any-to-AnyのMultimodal AIの実装に向けて、Text-to-ImageであればGeminiを使って、 Image-to-MusicならUdioやMusicGenを使うなど、つぎはぎで実装できる見込みが立てられ た。 2)生成された曲(HuggingfaceのMusicGenとUdio)と比べると、かなり似ている曲であった。 3)一貫性はテキストのプロンプトで担保されているようだった。 →AnyGPTの仕様も同じ 4)今後、解釈として、画像や音楽のジャンルを用いると一貫性があるなどの説明ができそ うだ。 →画像⇒音楽、音楽⇒画像のジャンルは必ずしも1対1対応ではない。 →オントロジーを用いて、1対1対応にすることで多少は解消が期待される。 5)ECのレコメンドなどに応用が見込まれ、より感性的な購買促進が実現できる。

Slide 17

Slide 17 text

ご清聴ありがとうございました。

Slide 18

Slide 18 text

参考URL一覧 1. AnyGPT: Unified Multimodal LLM with Discrete Sequence Modeling https://arxiv.org/html/2402.12226v3 2. AnyGPT https://junzhan2000.github.io/AnyGPT.github.io/ 3. 【53種一覧】わからない音楽ジャンル解決!30秒でわかる!【音源あり】 - ギタカメとおんがく https://www.gitacame.com/entry/music_janru_matome#google_vignette 4. Udio | AI Music Generator – Official Website https://www.udio.com/my-creations 5. Thriller (2003 Edit) – マイケル・ジャクソンの曲 – Apple Music https://music.apple.com/jp/album/thriller-2003-edit/273598907?i=273598917 6. 【完全解説】絵画の種類や技法・画派のジャンルを分類 - ブログ https://www.baku-art.co.jp/businessblog/otaku/20210114115.html 7. Image to Music v2 - a Hugging Face Space by fffiloni https://huggingface.co/spaces/fffiloni/image-to-music-v2 8.マルチモーダル基盤におけるマイナーなモーダル間のについて解釈可能性の検討 https://www.jstage.jst.go.jp/article/jsaisigtwo/2023/SWO- 062/2023_10/_pdf

Slide 19

Slide 19 text

付録:ジャンルとジャンル表

Slide 20

Slide 20 text

音楽のジャンルについて 音楽の各ジャンルの代表的な音源 【53種一覧】わからない音楽ジャンル解決!30秒でわかる!【音源あり】 - ギタ カメとおんがくhttps://www.gitacame.com/entry/music_janru_matome 音楽のジャンル クラシック ジャズ ロック ポップ ヒップホップ エレクトロニック

Slide 21

Slide 21 text

画像・絵画のジャンルについて 【完全解説】絵画の種類や技法・画派のジャンルを分 類 - ブログ https://www.baku- art.co.jp/businessblog/otaku/20210114115.html ・風景画:自然の風景を対象にした絵画作品 ・静物画:静止して動かない人工物や自然物を対象に した絵画作品 ・肖像画:特定の人物を描いた作品 ・博物画:動物や植物を対象にした絵画作品 ・宗教画:宗教の目的のために宗教関連の内容が描か れた作品 ・歴史画:歴史的事件や物語、神話などを描いた絵画 作品 ・風俗画:庶民の日常生活をモチーフにした作品 画像のジャンル 風景画 ストリートアート 抽象画 ポップアート グラフィティアート デジタルアート

Slide 22

Slide 22 text

ユーザーの嗜好に見合うプロンプトを生成(マルチモーダル) Prompt:上記の表に、動画とテキスト生成を加えて完成させてく ださい 音楽のジャン ル 関連する画像の ジャンル 関連する動画 のジャンル 関連するテキス ト生成 クラシック 古典的な風景画 歴史的ドキュメ ンタリー 歴史的な物語 や詩 ジャズ アーバン・ストリー トアート ジャズクラブの ライブ演奏 都会の夜の描 写 ロック エネルギッシュな 抽象画 コンサートのラ イブ映像 反逆的なストー リーや歌詞 ポップ 明るくカラフルな ポップアート ミュージックビ デオ ポップカルチャ ーに関する記 事 ヒップホップ グラフィティアート ストリートダン スのバトル ラップバトルの 歌詞 エレクトロニッ ク フューチャリスティ ックなデジタルア ート SF映画のトレ ーラー テクノロジーに 関するエッセイ Prompt:今度は、画像のジャンルを起点にして、表を作成してく ださい 画像のジャンル 関連する音楽 のジャンル 関連する動画 のジャンル 関連するテキス ト生成 風景画 クラシック or ア ンビエント 自然ドキュメン タリー 自然に関する詩 や物語 ストリートアート ヒップホップ or ジャズ ストリートカルチ ャーのドキュメ ンタリー 都市生活に関 するエッセイ 抽象画 アバンギャルド or エレクトロニ ック アート展示の紹 介 抽象的な概念を 探求する評論 ポップアート ポップ or ダンス ファッションショ ーのハイライト ポップカルチャ ーの分析 グラフィティアー ト ヒップホップ or パンク アーバンエクス プロレーション ストリートアート の歴史 デジタルアート エレクトロニック or IDM テクノロジー関 連のニュース サイバーパンク の短編小説

Slide 23

Slide 23 text

ユーザーの嗜好に見合うプロンプトを生成(マルチモーダル) Prompt:上記の表に、動画とテキスト生成を加えて完 成させてください 音楽のジャン ル 関連する画像の ジャンル 関連する動画 のジャンル 関連するテキス ト生成 クラシック 古典的な風景画 歴史的ドキュメ ンタリー 歴史的な物語 や詩 ジャズ アーバン・ストリー トアート ジャズクラブの ライブ演奏 都会の夜の描 写 ロック エネルギッシュな 抽象画 コンサートのラ イブ映像 反逆的なストー リーや歌詞 ポップ 明るくカラフルな ポップアート ミュージックビ デオ ポップカルチャ ーに関する記 事 ヒップホップ グラフィティアート ストリートダン スのバトル ラップバトルの 歌詞 エレクトロニッ ク フューチャリスティ ックなデジタルア ート SF映画のトレ ーラー テクノロジーに 関するエッセイ Prompt:今度は、画像のジャンルを起点にして、表を作 成してください 画像のジャン ル 関連する音楽 のジャンル 関連する動画 のジャンル 関連するテキ スト生成 風景画 クラシック or ア ンビエント 自然ドキュメン タリー 自然に関する 詩や物語 ストリートアート ヒップホップ or ジャズ ストリートカル チャーのドキュ メンタリー 都市生活に関 するエッセイ 抽象画 アバンギャルド or エレクトロニ ック アート展示の紹 介 抽象的な概念 を探求する評 論 ポップアート ポップ or ダン ス ファッションショ ーのハイライト ポップカルチャ ーの分析 グラフィティア ート ヒップホップ or パンク アーバンエクス プロレーション ストリートアート の歴史 デジタルアート エレクトロニック or IDM テクノロジー関 連のニュース サイバーパンク の短編小説

Slide 24

Slide 24 text

オントロジーによる音楽ジャンルと画像ジャンル 大分類(音楽ジ ャンル) 中分類(関連するジャンル) 小分類 プロンプト ロック 画像:エネルギッシュな抽象画 抽象表現 「ロック音楽の生のエネルギーを感じる抽象画 を制作してください。」 ロック 動画:コンサートのライブ映像 コンサート映像 「ロックコンサートの興奮と情熱を伝えるライブ 映像を制作してください。」 ロック テキスト:反逆的なストーリーや 歌詞 反逆の物語 「ロック音楽の反抗的な精神を表す物語や歌 詞を書いてください。」 大分類(音楽ジ ャンル) 中分類(関連するジャンル) 小分類 プロンプト 抽象画 音楽:アバンギャルド or エレクト ロニック 音楽転写 「抽象画の創造的なエネルギーを音楽に変換 してください。」 抽象画 動画:アート展示の紹介 展示紹介映像 「抽象画の展示を紹介するアート展示の映像 を制作してください。」 抽象画 テキスト:抽象的な概念を探求す る評論 抽象概念評論 「抽象画に触発された抽象的な概念やアイデ アに関する評論を執筆してください。」

Slide 25

Slide 25 text

参考資料:音楽を起点としたマルチモーダルジャンル 音楽のジャンル 関連する画像のジャンル 関連する動画のジャンル 関連するテキスト生成 クラシック 古典的な風景画 歴史的ドキュメンタリー 歴史的な物語や詩 ジャズ アーバン・ストリートアート ジャズクラブのライブ演奏 都会の夜の描写 ロック エネルギッシュな抽象画 コンサートのライブ映像 反逆的なストーリーや歌 詞 ポップ 明るくカラフルなポップア ート ミュージックビデオ ポップカルチャーに関す る記事 ヒップホップ グラフィティアート ストリートダンスのバトル ラップバトルの歌詞 エレクトロニック フューチャリスティックなデ ジタルアート SF映画のトレーラー テクノロジーに関するエ ッセイ

Slide 26

Slide 26 text

参考資料: :オントロジーによる音楽ジャンル 大分類(音楽ジャン ル) 中分類(関連するジャンル) 小分類 プロンプト クラシック 画像:古典的な風景画 風景描写 「クラシック音楽が奏でる穏やかさを映す風景を描いてください。」 クラシック 動画:歴史的ドキュメンタリー 歴史的場面 「クラシック音楽に合わせた歴史的場面を撮影してください。」 クラシック テキスト:歴史的な物語や詩 物語・詩作成 「クラシック音楽の感性を表す物語や詩を書いてください。」 ジャズ 画像:アーバン・ストリートアート 都市風景 「ジャズのエッセンスを表現するストリートアートを制作してください。」 ジャズ 動画:ジャズクラブのライブ演奏 ライブ演奏 「ジャズの生演奏を捉えたライブシーンを作成してください。」 ジャズ テキスト:都会の夜の描写 都市の夜 「ジャズからインスピレーションを得た都会の夜を記述してください。」 ロック 画像:エネルギッシュな抽象画 抽象表現 「ロック音楽の生のエネルギーを感じる抽象画を制作してください。」 ロック 動画:コンサートのライブ映像 コンサート映像 「ロックコンサートの興奮と情熱を伝えるライブ映像を制作してください。」 ロック テキスト:反逆的なストーリーや歌 詞 反逆の物語 「ロック音楽の反抗的な精神を表す物語や歌詞を書いてください。」 ポップ 画像:明るくカラフルなポップアー ト ポップアート作成 「ポップ音楽の楽しい雰囲気を映し出すポップアートをデザインしてください。」 ポップ 動画:ミュージックビデオ MV企画 「ポップ曲に合わせたミュージックビデオのコンセプトを考えてください。」 ポップ テキスト:ポップカルチャーに関す る記事 ポップカルチャー分析 「ポップ音楽の影響を受けたポップカルチャーの現象について分析する記事を書いてください。」

Slide 27

Slide 27 text

参考資料画像を起点としたマルチモーダルジャンル 画像のジャンル 関連する音楽のジャン ル 関連する動画のジャン ル 関連するテキスト生成 風景画 クラシック or アンビエン ト 自然ドキュメンタリー 自然に関する詩や物語 ストリートアート ヒップホップ or ジャズ ストリートカルチャーの ドキュメンタリー 都市生活に関するエッ セイ 抽象画 アバンギャルド or エレ クトロニック アート展示の紹介 抽象的な概念を探求す る評論 ポップアート ポップ or ダンス ファッションショーのハ イライト ポップカルチャーの分 析 グラフィティアート ヒップホップ or パンク アーバンエクスプロレー ション ストリートアートの歴史 デジタルアート エレクトロニック or IDM テクノロジー関連のニュ ース サイバーパンクの短編 小説

Slide 28

Slide 28 text

参考資料:オントロジーによる画像ジャンル 大分類(音楽ジ ャンル) 中分類(関連するジャンル) 小分類 プロンプト クラシック 画像:古典的な風景画 風景描写 「クラシック音楽が奏でる穏やかさを映す風景を描いてください。」 クラシック 動画:歴史的ドキュメンタリー 歴史的場面 「クラシック音楽に合わせた歴史的場面を撮影してください。」 クラシック テキスト:歴史的な物語や詩 物語・詩作成 「クラシック音楽の感性を表す物語や詩を書いてください。」 ジャズ 画像:アーバン・ストリートアート 都市風景 「ジャズのエッセンスを表現するストリートアートを制作してください。」 ジャズ 動画:ジャズクラブのライブ演奏 ライブ演奏 「ジャズの生演奏を捉えたライブシーンを作成してください。」 ジャズ テキスト:都会の夜の描写 都市の夜 「ジャズからインスピレーションを得た都会の夜を記述してください。」 ロック 画像:エネルギッシュな抽象画 抽象表現 「ロック音楽の生のエネルギーを感じる抽象画を制作してください。」 ロック 動画:コンサートのライブ映像 コンサート映像 「ロックコンサートの興奮と情熱を伝えるライブ映像を制作してください。」 ロック テキスト:反逆的なストーリーや歌詞 反逆の物語 「ロック音楽の反抗的な精神を表す物語や歌詞を書いてください。」 ポップ 画像:明るくカラフルなポップアート ポップアート作成 「ポップ音楽の楽しい雰囲気を映し出すポップアートをデザインしてください。」 ポップ 動画:ミュージックビデオ MV企画 「ポップ曲に合わせたミュージックビデオのコンセプトを考えてください。」 ポップ テキスト:ポップカルチャーに関する記事 ポップカルチャー分析 「ポップ音楽の影響を受けたポップカルチャーの現象について分析する記事 を書いてください。」