Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
新入社員目線から学ぶエンジニアに必要なこと その2:新しいサービスを作る (必要性の理解:形態素解析+文章のベクトル化)
Search
NearMeの技術発表資料です
August 16, 2023
Science
0
83
新入社員目線から学ぶエンジニアに必要なこと その2:新しいサービスを作る (必要性の理解:形態素解析+文章のベクトル化)
本当その開発が必要かどうかは、需要によっても決まります。ですので、あらかた需要があるかを確認できる可能性のあるものとして、今回は形態素解析、そして単語のベクトル化について扱います。
NearMeの技術発表資料です
August 16, 2023
Tweet
Share
More Decks by NearMeの技術発表資料です
See All by NearMeの技術発表資料です
OR-Toolsの中⾝ -VRPの解法について-
nearme_tech
0
44
GTFSのデータを Streamlitで可視化してみた
nearme_tech
0
37
Offset / Cursor Paginationについて
nearme_tech
2
74
⼤規模⾔語モデルの拡張(RAG)が 終わったかも知れない件について
nearme_tech
23
15k
VRPを深層強化学習で解く
nearme_tech
0
69
Let’s go monorepo - intro to Nx.dev
nearme_tech
0
22
Dynamic Vehicle Routing のシミュレーションを Streamlitで作ってみた
nearme_tech
0
64
ログ監視ツールについて調べてみた
nearme_tech
0
59
(インターン生が大学院で行なっている)研究紹介
nearme_tech
0
48
Other Decks in Science
See All in Science
Demucsを用いた音源分離
508shuto
0
190
勉強会資料 / “Asymptotic Statistics” Section 2.1
asymptotic_minato
0
230
MIKAMI Koichi
genomethica
0
190
Machine Learning for Materials (Lecture 4)
aronwalsh
0
680
「みんなの自然災害伝承碑」ワークショップ 2023|日本地図学会
fullfull
0
220
SCOTT: Self-Consistent Chain-of-Thought Distillation
meshidenn
0
320
マルチモーダルモデルと自動運転 車載モデルのコスト・スループット・レイテンシ / LLM in Production Meetup #2 20231023
yuyamaguchi
1
1.1k
ベクトル型スーパーコンピュータ「AOBA-S」の性能評価
keichi
0
270
BMI 研究はなぜ同じ失敗を繰り返すのか(日本BMI研究会, 2021.11.5)
ykamit
1
2k
Leveraging conformal prediction for calibrated probabilistic time series forecasts to accelerate the renewable energy transition
ingevandenende
2
260
効果検証入門に物申してみた_JapanR_2023
s1ok69oo
6
4.5k
AI(人工知能)の過去・現在・未来 —AIは人間を超えるのか—
tagtag
1
200
Featured
See All Featured
It's Worth the Effort
3n
180
27k
WebSockets: Embracing the real-time Web
robhawkes
59
7k
Become a Pro
speakerdeck
PRO
13
4.6k
Debugging Ruby Performance
tmm1
70
11k
From Idea to $5000 a Month in 5 Months
shpigford
378
45k
Rails Girls Zürich Keynote
gr2m
91
13k
We Have a Design System, Now What?
morganepeng
43
6.8k
The Invisible Side of Design
smashingmag
294
49k
How to name files
jennybc
65
93k
Statistics for Hackers
jakevdp
790
220k
The Invisible Customer
myddelton
114
12k
Embracing the Ebb and Flow
colly
80
4.2k
Transcript
0 新入社員目線から学ぶエンジニアに必要なこと その2:新しいサービスを作る (必要性の理解:形態素解析+文章のベクトル化) 2023-08-04 第55回NearMe技術勉強会 Asahi Kaito
1 まずは前回のJamの確認から
2 弊社でのJam(1)
3 弊社でのJam(2)
4 弊社でのJam(2) これに着目してみたい
5 どんなタスクか? 想定)元々大きなアプリがあり、そのFeatureタスク • 親 → フードデリバリーアプリ(ここは前提とする) • 子 →
まかない提供機能 *考慮する事項として考えられるもの 1. そもそも、その機能の必要性は? 2. UIのどの部分に取り入れるか? 3. 料金体系はどうするのか? …などなど
6 どんなタスクか? 想定)元々大きなアプリがあり、そのFeatureタスク • 親 → フードデリバリーアプリ(ここは前提とする) • 子 →
まかない提供機能 *考慮する事項として考えられるもの 1. そもそも、その機能の必要性は? 2. UIのどの部分に取り入れるか? 3. 料金体系はどうするのか? …などなど ここを扱います
7 どんなタスクか? *考慮する事項として考えられるもの 1. そもそも、その機能の必要性は? • どのように必要性を取得するか ◦ ユーザーからのFB →
フォームなどから ◦ SNSでのエゴサーチ → 形態素解析+文章のベクトル化で分析を行うことなど ◦ Google Mapなどでの評価 → 自分の会社の口コミチェックなど *形態素解析 → ある文章を分かち書きにして、品詞ごとに分解するもの *文章のベクトル化 → 文章を形態素に分解してベクトルとすることで、内積や距離の定義ができるので単語間の関係性を定量 的に計算することができる
8 とにかく実践だ!
9 形態素解析+文章のベクトル化 理論)どのようにして文章を解析するのか? 1. 文章のベクトル化 a. 文章を形態素という要素に分解して、ベクトル化する 俺
10 形態素解析+文章のベクトル化 理論)どのようにして文章を解析するのか? 1. 文章のベクトル化 a. 文章を形態素という要素に分解して、ベクトル化する b. あるターゲット文章とベクトルとして比較する(cos類似度など)
11 形態素解析+文章のベクトル化 理論)どのようにして文章を解析するのか? 1. 文章のベクトル化 a. 文章を形態素という要素に分解して、ベクトル化する b. あるターゲット文章とベクトルとして比較する(cos類似度でまずは簡単に処理) c.
類似度の高いものを集め(ベクトル化の利点)、 そこからデータをフィルタリングする(形態素解析の利点) [ ‘まじでこのアプリ最高。感動した。’, ‘まかないの機能とかあると良いな。’, ‘aaaaaaaaaaaaa’, ]
12 形態素解析+文章のベクトル化 理論)どのようにして文章を解析するのか? 2. 文章の分析方法 • Pythonを用いて実装 • 以下のモジュールを用いる ◦
Janome(形態素解析のメインモジュール) ◦ Word2Vec(分散表現でベクトル化する機械学習モデル) ※Colabへのリンク :https://colab.research.google.com/drive/1GsAIOmJzTsIU-56gCbg63juo5M738QI9?usp=sharing
13 形態素解析+文章のベクトル化 より実践)Twitter(X) APIを用いて、形態素解析+ベクトル化を実施してみよう • https://developer.twitter.com/ja/docs/twitter-api(X開発者プラットフォーム)
14 WordCloudで単語の頻度を可視化 実践)単語の頻度を可視化する方法 • WordCloudを用いて実装 ◦ 以下のモジュールを用いる ◦ WordCloud(単語の頻度を画像で可視化) ※Colabへのリンク(先ほどと同じ)
:https://colab.research.google.com/drive/1GsAIOmJzTsIU-56gCbg63juo5M738QI9?usp=sharing https://self-development.info/wp-content/uploads/2021/01/my.png
15 次回こそ 要件定義の作成 (どのように要件定義を書くか?)
16 参考リンク • 形態素解析 ◦ Janomeを使ってPythonで形態素解析 :https://qiita.com/charon/items/661d9a25b2233a9f8da4 • ベクトル化(ここでは分散表現) ◦
Efficient Estimation of Word Representations in Vector Space(単語の分散表現の論文) :https://arxiv.org/abs/1301.3781 ◦ Word2vecによる分散表現を可視化:https://qiita.com/g75hca/items/507a557f10d6133a699a ◦ Word2Vecを理解する:https://qiita.com/g-k/items/69afa87c73654af49d36 ◦ 感情分析でニュース記事のネガポジ度合いをスコア化する :https://qiita.com/g-k/items/e49f68d7e2fed6e300ea • WordCloud ◦ Pythonを使ってWordCloud(ワードクラウド)を作成する:リンク
17 Thank you