Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
第2回saysayオフ会LT_清水れみお
Search
Lemio
November 25, 2023
0
160
第2回saysayオフ会LT_清水れみお
動画と音声の時間同期はすごい!
Lemio
November 25, 2023
Tweet
Share
More Decks by Lemio
See All by Lemio
0からDifyを学ぶには_Dify Meetup Tokyo #4
lemio
0
1.3k
生成AIの社内導入やってみて_SaySyaMeetUpVol3
lemio
0
72
清水宏太_ポートフォリオ資料_2023年11月時点
lemio
0
85
開発した生成AI活用アプリ
lemio
0
150
遅刻しなAI_LT資料
lemio
0
92
Featured
See All Featured
jQuery: Nuts, Bolts and Bling
dougneiner
63
7.7k
How to Create Impact in a Changing Tech Landscape [PerfNow 2023]
tammyeverts
49
2.3k
A better future with KSS
kneath
238
17k
Building Better People: How to give real-time feedback that sticks.
wjessup
367
19k
Learning to Love Humans: Emotional Interface Design
aarron
273
40k
Measuring & Analyzing Core Web Vitals
bluesmoon
6
260
Building Applications with DynamoDB
mza
93
6.2k
Being A Developer After 40
akosma
89
590k
A designer walks into a library…
pauljervisheath
205
24k
The Success of Rails: Ensuring Growth for the Next 100 Years
eileencodes
44
7.1k
The World Runs on Bad Software
bkeepers
PRO
67
11k
Code Reviewing Like a Champion
maltzj
521
39k
Transcript
今まで作ったもの と すごい発見 清水れみお 2023/11/24 SaySayオフ会
自己紹介 2 清水れみお @LLM無職でした @lemilemilemio ・非エンジニア(開発歴4か月) ・元通信建設業
AIは 考える×作る×聞く×話す×見る =無限∞のアイデア そして私はアイデアマンです。
アイデアに価値はない 形にできなければそれは寝言と同じだ。 by 清水 亮 出典
5 遅刻しなAI アプリ紹介 自然言語からスケジュール登録と 移動スケジュールも同時に登録 LINE友達登録URL WEB簡易版
スケジュールURL生成 アーキテクチャ図 6 GPT-3.5-turbo-instruct スケジュール情報 Googleカレンダー 登録URL プロンプトにて 日付/時間/場所/イベント 名/イベント内容を分類
URLをZero Shotで生成 https://www.google.com/calendar/event?action=TEMPLATE&text=LLM+Application+Meetup+vol.99&dates =20231212T100000Z/20231212T120000Z&details=https://llm-app.connpass.com/event/297732/&location= 品川グランドセントラルタワー+日本マイクロソフト品川本社+31F+セミナールーム+A&trp=false <URL生成例> Olemi-llm-apprentice/Dont_be_late_AI: 遅刻しなAI (github.com)
乗換経路生成 アーキテクチャ図 7 GPT-3.5-turbo-instruct スケジュール情報 + 出発地 出発地 目的地 緯度経度
到着時刻 (日本標準時) URL合成 https://www.google.com/maps/dir/35.6896067,139.7005713/35.6267695,139.7404376/am=t/ data=!4m9!4m8!1m1!4e1!1m0!2m3!6e1!7e2!8j1702407000!3e3?entry=ttu <URL生成例>
動画→議事録化AIエージェント(11月末無料公開目標) Web会議 録画 レポート 議事録 現場打合せ 録音 様々な動画や音声データ
動画→議事録化AI アーキテクチャ図 9 GPT-3.5-turbo 動画 .mp4 音声 .mp3 文字起こし 全文
テキスト 分割 テキスト 要約 要約 テキスト 合成 合成 テキスト マークダウン 記事化 議事録化 全体要約 テキスト 分割 テキスト 分割 テキスト 分割 テキスト 要約 テキスト 要約 テキスト 要約 ffmpeg GPT-3.5-turbo Olemi-llm-apprentice/-whisper_test- (github.com)
生成例
動画に一語一語字幕(形態素解析) カラオケのように字幕が単語ごとに強調 (形態素解析したものは日本初?) 出展:https://www.youtube.com/watch?v=Gh0xzbgCIgg&pp=ygUc44K944OV44OI44OQ44Oz44KvIOWtq-ato-e-qQ%3D%3D
一語一語字幕 アーキテクチャ図 動画 .mp4 文字 起こし .json フォント 付字幕 .ass
ffmpeg WhisperX 単語から 形態素解析 .json janome 字幕付き 動画 .mp4
二つを合成して目指す最終系 M365 CopilotのTeams会議議事録機能 <機能> ・動画記録 ・議事録、タスク化 ・話者認識 ・会議内容をRAGでAI チャット ・議事録から動画の再生
場面へジャンプ ・ネガポジ発言探知
14 フレーム 画像 Base64 エンコード 動画 .mp4 Base64 文字列 説明
テキスト 読み上げ 音声 .mp3 GPT4 VISION TTS https://openai-visionapi-cookbook.streamlit.app/ OpenAI CookBookのVision&TTSのやつ 恐らく日本最速で作りました 11/7 12:02 Streamlit+GPT4-Vision+TTSで動画ナレーション 自動生成ツールをつくった(Zenn)
Vision&TTS&Whisper&Janome&FFmpeg GPT4-VISIONのプロンプト に論文のAbstructと説明 ぺージのテキストをぶっ こんでみた https://x.com/lemilemilemio/status/1724474654465929363?s=20
StereamlitでWebカメラ VisionAPI https://x.com/lemilemilemio/status/1722136792466694189?s=20
んなことは どうでもよくて
https://www.youtube.com/watch?v=JPY62bzT-rc
このお笑いを LLMに理解させる
Whisper文字起こしのみ
VisionAPIのみ
Whisper+GPT4-Vision(時間同期)
Whisper+GPT4-Vision(時間同期)
動画(画像)と音声のタイムスタンプを 同期することで すさまじい範囲のことに応用できる と 考えています
https://hu.ma.ne/aipin 常に動画と音声を録音す るデバイスが 常備されるようになった ら・・・
打合せ後議事録作成中 ・・・あの名刺切らしててもらえな かった女性の人の名前なんだっけ? →画像:女性の人との会話時間を抽出 →音声:上記会話時間の会話内容から 名前を推測
・・・2週間後 上司「そういえばあの商談で見積価格 を伝えたときの反応どうだった?」 議事録上だと「300万円かー」という コメント 実際にはだいぶ渋った顔で「300万円 かー」というコメント
音声と動作で 「ここをもっと丁寧にして」など 抽象語で指示ができるようになり、 幅広い人たちがLLMを使いやすくなる
想像もつかない もっとすごいのが 今後いっぱい出てくるはず
考える×作る×聞く×話す×見る AIで 日本の生産性を革命的に向上させる プロダクトを作りたい