Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
BERTで文章関連度算出して戯れてみる
Search
Kawazu
November 25, 2021
Programming
0
130
BERTで文章関連度算出して戯れてみる
Kawazu
November 25, 2021
Tweet
Share
More Decks by Kawazu
See All by Kawazu
個人的に考える要件定義でやる一連の流れ
kawazu
0
290
ChatGPTで水平思考ゲームを行えるか試してみた
kawazu
0
230
新人プロダクトマネージャーの試行錯誤記録
kawazu
0
98
バックエンドエンジニアが初めてReactを触って感じたこと
kawazu
0
150
音楽仲間がいないのでバンドメンバーを実装した話
kawazu
0
99
JetsonNanoで自動作曲配信システムを作ってる途中の話
kawazu
0
650
bert-tokenizerノードを触ってみた
kawazu
0
260
Node-REDとAutomatorでプライバシーマスク作成を自動化する
kawazu
0
140
AWS DeepComposerで作業用BGMを作った話
kawazu
0
140
Other Decks in Programming
See All in Programming
AWS CDKにおける「再利用性」を考える / aws-cdk-reusability
gotok365
6
1.3k
Namespace on read
tagomoris
2
370
開発部に不満を持っていたCSがエンジニアにジョブチェンしてわかった「勝手に諦めない」ことの大切さ
sakuraikotone
28
16k
CSC307 Lecture 11
javiergs
PRO
0
240
Google's Recipe for Scaling (Web) Security – LocoMocoSec 2024
lweichselbaum
0
170
実用的かつリーズナブルな 「Azure × Gemini × LINE」~キャラクターBot 実装ライブデモ~
tomodo_ysys
1
170
継続的な活動で築く地方エンジニアの道
myamashii
2
360
初心者がおさえておきたいAWS CDKのベストプラクティス 2024
konokenj
15
7.3k
From Spring Boot 2 to Spring Boot 3 with Java 22 and Jakarta EE
ivargrimstad
0
1.9k
CSC307 Lecture 14
javiergs
PRO
0
220
最古の関数型言語「Lisp」ことはじめ / lisp_in_kamiyama
uhooi
1
190
Harnessing Large Language Models for Training-free Video Anomaly Detection
tereka114
1
1.3k
Featured
See All Featured
Code Reviewing Like a Champion
maltzj
517
39k
Reflections from 52 weeks, 52 projects
jeffersonlam
346
19k
Ruby is Unlike a Banana
tanoku
96
10k
Typedesign – Prime Four
hannesfritz
37
2.2k
Creatively Recalculating Your Daily Design Routine
revolveconf
214
11k
The World Runs on Bad Software
bkeepers
PRO
63
11k
RailsConf 2023
tenderlove
16
720
Dealing with People You Can't Stand - Big Design 2015
cassininazir
360
22k
Leading Effective Engineering Teams 2024
addyosmani
3
300
CoffeeScript is Beautiful & I Never Want to Write Plain JavaScript Again
sstephenson
155
14k
[RailsConf 2023] Rails as a piece of cake
palkan
35
4.4k
実際に使うSQLの書き方 徹底解説 / pgcon21j-tutorial
soudai
149
45k
Transcript
BERTで文章関連度算出して戯 れてみる 河津正和
河津正和 株式会社博報堂アイ・スタジオ所属 • 主にバックエンド領域のテクニカルディレクター • 新規事業開発的なお仕事をしてます • コンテナ技術とか機械学習とか電子工作にも興味あり Twitter:@kawazu255_ Qiita:kawazu255
note:kawazu255
以前作ったもの • メロディ・伴奏・ドラムのmidi音源 を自動生成し続けるプログラム • ぼっちでも音楽セッションしたかっ た • StayHome先駆けプロダクト
BERT
BERTとは? • Googleが発表した自然言語処理モデルで、2019年からは検索エンジンにも使用さ れている • 文脈理解の精度が評価 • 様々な自然言語処理タスクにファインチューニングする前の、ベースモデルとしても 使用できる •
BERT日本語学習済みモデル->https://yoheikikuta.github.io/bert-japanese/
気になるなあと思いつつもよくわからなかった ->実際に触りつつ、どんなことができるか試したい
試したこと • 文章同士の関連度合いを出してみる • 参考にさせていただいた記事:BERT(Keras BERT)を使用した文章ベクトル作成 https://qiita.com/jjking/items/a9fe907f992ccaefbd2a
文章の特徴量を出す(768次元ベクトル) ... 「今日は月が 綺麗ですね」
比較したい2つの文章のベクトルを出した後、 コサイン類似度を用いて それぞれの関連度合いを出してみる
CASE1:厚生労働省のサイト文言 • 文章1:「国内で報告された新型コロナウイルス感染症の感染者に係る報告を基に した追跡調査の結果、感染者間の関連が認められた集団(クラスター)を地図上に 表示したものです。」 • 文章2:「クラスターは、現時点で、同一の場において、5人以上の感染者の接触歴 等が明らかとなっていることを目安として記載しています。家族等への二次感染等 を載せていません。また、家族間の感染も載せていません。」 •
コサイン類似度:0.24
CASE2:厚生労働省のサイト文言+吾輩は猫である • 文章1:「国内で報告された新型コロナウイルス感染症の感染者に係る報告を基に した追跡調査の結果、感染者間の関連が認められた集団(クラスター)を地図上に 表示したものです。」 • 文章2:「吾輩は猫である。名前はまだない。どこで生れたか頓(とん)と見当がつか ぬ。何でも薄暗いじめじめした所でニャーニャー泣いていた事だけは記憶している。 吾輩はここで始めて人間というものを見た。」 •
コサイン類似度:0.41
せっかくなので色々試してみましょう
CASE3:ふなっしー&くまもんTwitter • 文章1:「みんなー今日も一日お疲れ様なっしー♪ヾ(。゜▽゜)ノはふーん♪ ぱふぇー♪夏になったら旅行行きたいなっしー♪明日もみんな良いこと 有りますように梨汁ブシャー:*もやぱふぇ」 • 文章2:「なんだか眠くなってきた・・・モン・・・おやくま〜☆」 • コサイン類似度:0.21
CASE4:西野カナ&あいみょん歌詞 • 文章1:「会いたくて 会いたくて震える君想うほど遠く感じてもう一度聞 かせて嘘でもあの日のように"好きだよ"って… 」 • 文章2:「麦わら帽子の君が揺れたマリーゴールドに似てるあれはまだ 空が青い夏のこと懐かしいと笑えたあの日の恋」 •
コサイン類似度:0.18
CASE5:西野カナの歌詞(曲違い) • 文章1:「会いたくて 会いたくて震える君想うほど遠く感じてもう一度聞 かせて嘘でもあの日のように"好きだよ"って… 」 • 文章2:「これからもどうぞよろしくねこんな私だけど笑って許してね ずっと大切にしてね永久保証の私だから」 •
コサイン類似度:0.16
CASE6:西野カナ&マキシマムザホルモン歌詞 • 文章1:「会いたくて 会いたくて震える君想うほど遠く感じてもう一度聞 かせて嘘でもあの日のように"好きだよ"って… 」 • 文章2:「ブッイキス!!てめーらブッイキス!!I wanna ブッイキス!!てめーら
ブッイキス!!ブッイキス!!貴様らブッイキス!!貴様らブッイキス!!貴様ら ブッイキス!!」 • コサイン類似度:0.36
CASE7:ミルクボーイ&アンジャッシュネタ • 文章1:「いきなりですけどね うちのオカンがね 好きな朝ごはんがあるら しいんやけど あっ そーなんや その名前をちょっと忘れたらしくてね 朝 ごはんの名前忘れてもうて どうなってんねそれ でまあ色々聞くんやけど な 全然分からへんねんな 分からへんの? いや ほな俺がね おかん の好きな朝ごはん ちょっと一緒に考えてあげるから どんな特徴ゆうてた かってのを教えてみてよ あのー甘くてカリカリしてて で 牛乳とかかけて 食べるやつやって言うねんな おー コーンフレークやないかい その特徴 はもう完全にコーンフレークやがな コーンフレークなぁ
」
CASE7:ミルクボーイ&アンジャッシュネタ • 文章2:「お巡りさん、遅いな…。通報して何分経ってると思ってるんだよ。 早く来ないとのぞき魔、どっかに逃げちゃうよ。まだ犯人のやつ絶対あの 女子寮の近くにいるはずなんだよな。はい、今のぞきの通報を受けた現場 に到着しました。明らかな不審者発見。尋問します。あの、ちょっとすいま せん。お巡りさん。この辺りでのぞきがあったって通報受けたんだけど。そ れ、僕です。君か!君なんだね。はい。さっきまであそこの女子寮の風呂 をずっとのぞいてました。何、堂々と言ってるんだよ。状況、分かってる? 私、警官だよ。はい。早く逮捕してくださいよ!なんなんだ君!新しいタイ
プだな。君さ、なんでこんなことしちゃったの?」 • コサイン類似度:0.15
やってみて思ったこと • 肌感的にはそこそこの傾向は見て取れる • ただあくまで傾向にすぎない。どの閾値から先が「関連度が高い」となるのかは ルールなし。データによりけり • ここで出してる関連度については、「絶対値」的な判断よりも「相対値」的に判断した 方が良いかも •
書き方・表現の仕方からどのくらい影響を受けているのかを探る必要はありそう • 特定の文章に特化させるならば、ファインチューニングが必要かも • 学習モデルの読み込みが重くてアプリケーション化するには要検討 • 浮気はいけないこと
オンライン会議支援サービス 開発中! ←サービス紹介ページです(事前登録できます)