Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
バカが取ったバイキングの皿を持ってきたよ!!
Search
Hayato Tsukagoshi
June 01, 2020
Programming
0
1.6k
バカが取ったバイキングの皿を持ってきたよ!!
This slide describe Twitter bot 'ujimaru', which says words like uzimaru.
Hayato Tsukagoshi
June 01, 2020
Tweet
Share
More Decks by Hayato Tsukagoshi
See All by Hayato Tsukagoshi
[輪講資料] Text Embeddings by Weakly-Supervised Contrastive Pre-training
hpprc
3
400
[輪講資料] One Embedder, Any Task: Instruction-Finetuned Text Embeddings
hpprc
1
590
WhitenedCSE: Whitening-based Contrastive Learning of Sentence Embeddings
hpprc
3
580
Hyena Hierarchy: Towards Larger Convolutional Language Models
hpprc
4
1.7k
[輪講資料] LoRA: Low-Rank Adaptation of Large Language Models
hpprc
43
53k
資源として見る実験プログラム
hpprc
13
3.1k
[輪講資料] Optimus: Organizing Sentences via Pre-trained Modeling of a Latent Space
hpprc
0
1.3k
[輪講資料] Language-agnostic BERT Sentence Embedding
hpprc
6
1.9k
[輪講資料] SimCSE: Simple Contrastive Learning of Sentence Embeddings
hpprc
9
4.7k
Other Decks in Programming
See All in Programming
GitLab CI/CD で C#/WPFアプリケーションのテストとインストーラーのビルド・デプロイを自動化する
hacarus
0
510
効率化に挑戦してみたらモバイル開発が少し快適になった話
ryunakayama
0
140
Direct Style Effect Systems The Print[A] ExampleA Comprehension Aid
philipschwarz
PRO
0
320
業務ツールとして使うPostman
msys75
0
120
Amazon SQSコンシューマー疎結合への旅 - 出張! #DevelopersIO IT技術ブログの中の人が語る勉強会 #3
quiver
0
350
AWS CDKコントリビュートTIPS / aws-cdk-contribution-tips
gotok365
4
550
TCAとKMPを用いた新規動画配信アプリ 「ABEMA Live」の設計
tomu28
2
130
Balkan Ruby 2024 — How and why to run SQLite on Rails in production
fractaledmind
0
110
見た目から始める生産性向上
ikumatadokoro
10
1.5k
Fast JSX: Don't clone props object #28768
yossydev
1
220
dbtのドメイン分割による データ基盤の改善とDigdagとの連携
sakama
0
480
サイコロで理解する統計的仮説検定の考え方
tatamiya
4
1.1k
Featured
See All Featured
Music & Morning Musume
bryan
41
5.6k
Imperfection Machines: The Place of Print at Facebook
scottboms
261
12k
ParisWeb 2013: Learning to Love: Crash Course in Emotional UX Design
dotmariusz
104
6.6k
Building Flexible Design Systems
yeseniaperezcruz
320
37k
Build your cross-platform service in a week with App Engine
jlugia
226
17k
It's Worth the Effort
3n
180
27k
JavaScript: Past, Present, and Future - NDC Porto 2020
reverentgeek
41
4.4k
Being A Developer After 40
akosma
67
580k
5 minutes of I Can Smell Your CMS
philhawksworth
199
19k
YesSQL, Process and Tooling at Scale
rocio
165
13k
Distributed Sagas: A Protocol for Coordinating Microservices
caitiem20
323
20k
For a Future-Friendly Web
brad_frost
172
9k
Transcript
うじまる生誕LT会 バカが取ったバイキングの皿 を持って来たよ!! @hpp_ricecake
うじまる生誕LT会 hpp Twitter : @hpp_ricecake GitHub : hppRC
うじまる生誕LT会 作ったもの
うじまる生誕LT会 うぢまるくん
うじまる生誕LT会
うじまる生誕LT会
うじまる生誕LT会 実装内容
うじまる生誕LT会 - Ujimaru Reformer (不採用) - Ujimaru Markov Model
- Ujimaru Twitter Crawler - Ujimaru Twitter Client - Ujimaru API
うじまる生誕LT会 Ujimaru Reformer
うじまる生誕LT会 Ujimaru Reformer Reformer : NLP分野でSOTAな結果を出しまくったTransformerの高効率版 - うじまるくんのツイートを収集、8000文ほどを元データに(ごめん)
- Google Colaboratory で6時間ほど訓練 - 著者実装を参考にTPU(はやいやつ)で - 訓練したモデルから文生成をする(予定だった) - 生成結果は次のページ
うじまる生誕LT会 Ujimaru Reformer
うじまる生誕LT会 Ujimaru Reformer 反省点 - データが少なすぎる(最低でも100,000文くらいは欲しい...) 解決策 -
うじまるくんが1日4000ツイートくらいする - 日本語Wikiのデータを混ぜる(全然関係ないモデルに...) - データ数が少なくても大丈夫な言語モデルに変更する
うじまる生誕LT会 Ujimaru Markov Model
うじまる生誕LT会 Ujimaru Markov Model マルコフ連鎖 : 以前に出現した系列を元に次の出力を確率的に生成する -
うじまるくんの以前のツイートを元にモデルを作成 - ライブラリとして使えるように、JSONでモデルを出力 - 他の人のツイートも同じく収集して似た傾向の語彙を増強 - PyPIに登録したので`pip install ujimaru-markov-model`して `ujimaru`をするとうじまるくんが喋ります
うじまる生誕LT会 Ujimaru Markov Model
うじまる生誕LT会 Ujimaru Twitter Crawler
うじまる生誕LT会 Ujimaru Twitter Crawler 実装: GO - データ収集に利用 -
anacondaを使用(超便利) - Standard Search APIじゃ足りなかったので Premium Search API (無料枠)も使用 - anacondaにPremium APIを触るメソッドが生えてなかったのでforkして生や した
うじまる生誕LT会 Ujimaru Twitter Client
うじまる生誕LT会 Ujimaru Twitter Client 実装: Rust - ツイートの定期投稿に利用
- ツイートするテキストはAPIから取得 - Twitter API を叩くいい感じのライブラリがなかったので自作↓ - Kuonという名前のOSSとして公開しました(めっちゃWIP)
うじまる生誕LT会 Ujimaru API
うじまる生誕LT会 Ujimaru API 実装: Python (flask) - Cloud
Run でデプロイ (https://ujimaru-api-l3qfihnisq-an.a.run.app/tweet) - アクセスすると生成したテキストを返す - Docker imageをポイするだけなので超簡単
うじまる生誕LT会 Ujimaru API まとめ - ニューラルなモデルを使うときはデータ数に気を付ける - ソースコード
: https://github.com/hppRC/ujimaru - LTのスライドは内容を絞ろう
うじまる生誕LT会