Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
第2回saysayオフ会LT_清水れみお
Search
Lemio
November 25, 2023
0
210
第2回saysayオフ会LT_清水れみお
動画と音声の時間同期はすごい!
Lemio
November 25, 2023
Tweet
Share
More Decks by Lemio
See All by Lemio
20250520_Dify_Meetup_Tokyo__5_LT資料_アプリケーションが動かなくなったらバージョンを見よう_.pdf
lemio
1
1k
0からDifyを学ぶには_Dify Meetup Tokyo #4
lemio
0
1.9k
生成AIの社内導入やってみて_SaySyaMeetUpVol3
lemio
0
89
清水宏太_ポートフォリオ資料_2023年11月時点
lemio
0
100
開発した生成AI活用アプリ
lemio
0
180
遅刻しなAI_LT資料
lemio
0
110
Featured
See All Featured
Become a Pro
speakerdeck
PRO
29
5.6k
A designer walks into a library…
pauljervisheath
209
24k
For a Future-Friendly Web
brad_frost
180
10k
Typedesign – Prime Four
hannesfritz
42
2.8k
Build your cross-platform service in a week with App Engine
jlugia
232
18k
Responsive Adventures: Dirty Tricks From The Dark Corners of Front-End
smashingmag
253
22k
Raft: Consensus for Rubyists
vanstee
140
7.2k
Chrome DevTools: State of the Union 2024 - Debugging React & Beyond
addyosmani
9
930
Building Applications with DynamoDB
mza
96
6.7k
How To Stay Up To Date on Web Technology
chriscoyier
791
250k
CSS Pre-Processors: Stylus, Less & Sass
bermonpainter
359
30k
How to train your dragon (web standard)
notwaldorf
97
6.3k
Transcript
今まで作ったもの と すごい発見 清水れみお 2023/11/24 SaySayオフ会
自己紹介 2 清水れみお @LLM無職でした @lemilemilemio ・非エンジニア(開発歴4か月) ・元通信建設業
AIは 考える×作る×聞く×話す×見る =無限∞のアイデア そして私はアイデアマンです。
アイデアに価値はない 形にできなければそれは寝言と同じだ。 by 清水 亮 出典
5 遅刻しなAI アプリ紹介 自然言語からスケジュール登録と 移動スケジュールも同時に登録 LINE友達登録URL WEB簡易版
スケジュールURL生成 アーキテクチャ図 6 GPT-3.5-turbo-instruct スケジュール情報 Googleカレンダー 登録URL プロンプトにて 日付/時間/場所/イベント 名/イベント内容を分類
URLをZero Shotで生成 https://www.google.com/calendar/event?action=TEMPLATE&text=LLM+Application+Meetup+vol.99&dates =20231212T100000Z/20231212T120000Z&details=https://llm-app.connpass.com/event/297732/&location= 品川グランドセントラルタワー+日本マイクロソフト品川本社+31F+セミナールーム+A&trp=false <URL生成例> Olemi-llm-apprentice/Dont_be_late_AI: 遅刻しなAI (github.com)
乗換経路生成 アーキテクチャ図 7 GPT-3.5-turbo-instruct スケジュール情報 + 出発地 出発地 目的地 緯度経度
到着時刻 (日本標準時) URL合成 https://www.google.com/maps/dir/35.6896067,139.7005713/35.6267695,139.7404376/am=t/ data=!4m9!4m8!1m1!4e1!1m0!2m3!6e1!7e2!8j1702407000!3e3?entry=ttu <URL生成例>
動画→議事録化AIエージェント(11月末無料公開目標) Web会議 録画 レポート 議事録 現場打合せ 録音 様々な動画や音声データ
動画→議事録化AI アーキテクチャ図 9 GPT-3.5-turbo 動画 .mp4 音声 .mp3 文字起こし 全文
テキスト 分割 テキスト 要約 要約 テキスト 合成 合成 テキスト マークダウン 記事化 議事録化 全体要約 テキスト 分割 テキスト 分割 テキスト 分割 テキスト 要約 テキスト 要約 テキスト 要約 ffmpeg GPT-3.5-turbo Olemi-llm-apprentice/-whisper_test- (github.com)
生成例
動画に一語一語字幕(形態素解析) カラオケのように字幕が単語ごとに強調 (形態素解析したものは日本初?) 出展:https://www.youtube.com/watch?v=Gh0xzbgCIgg&pp=ygUc44K944OV44OI44OQ44Oz44KvIOWtq-ato-e-qQ%3D%3D
一語一語字幕 アーキテクチャ図 動画 .mp4 文字 起こし .json フォント 付字幕 .ass
ffmpeg WhisperX 単語から 形態素解析 .json janome 字幕付き 動画 .mp4
二つを合成して目指す最終系 M365 CopilotのTeams会議議事録機能 <機能> ・動画記録 ・議事録、タスク化 ・話者認識 ・会議内容をRAGでAI チャット ・議事録から動画の再生
場面へジャンプ ・ネガポジ発言探知
14 フレーム 画像 Base64 エンコード 動画 .mp4 Base64 文字列 説明
テキスト 読み上げ 音声 .mp3 GPT4 VISION TTS https://openai-visionapi-cookbook.streamlit.app/ OpenAI CookBookのVision&TTSのやつ 恐らく日本最速で作りました 11/7 12:02 Streamlit+GPT4-Vision+TTSで動画ナレーション 自動生成ツールをつくった(Zenn)
Vision&TTS&Whisper&Janome&FFmpeg GPT4-VISIONのプロンプト に論文のAbstructと説明 ぺージのテキストをぶっ こんでみた https://x.com/lemilemilemio/status/1724474654465929363?s=20
StereamlitでWebカメラ VisionAPI https://x.com/lemilemilemio/status/1722136792466694189?s=20
んなことは どうでもよくて
https://www.youtube.com/watch?v=JPY62bzT-rc
このお笑いを LLMに理解させる
Whisper文字起こしのみ
VisionAPIのみ
Whisper+GPT4-Vision(時間同期)
Whisper+GPT4-Vision(時間同期)
動画(画像)と音声のタイムスタンプを 同期することで すさまじい範囲のことに応用できる と 考えています
https://hu.ma.ne/aipin 常に動画と音声を録音す るデバイスが 常備されるようになった ら・・・
打合せ後議事録作成中 ・・・あの名刺切らしててもらえな かった女性の人の名前なんだっけ? →画像:女性の人との会話時間を抽出 →音声:上記会話時間の会話内容から 名前を推測
・・・2週間後 上司「そういえばあの商談で見積価格 を伝えたときの反応どうだった?」 議事録上だと「300万円かー」という コメント 実際にはだいぶ渋った顔で「300万円 かー」というコメント
音声と動作で 「ここをもっと丁寧にして」など 抽象語で指示ができるようになり、 幅広い人たちがLLMを使いやすくなる
想像もつかない もっとすごいのが 今後いっぱい出てくるはず
考える×作る×聞く×話す×見る AIで 日本の生産性を革命的に向上させる プロダクトを作りたい