$30 off During Our Annual Pro Sale. View Details »
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
データサイエンス14_システム.pdf
Search
自然言語処理研究室
July 16, 2018
Education
0
400
データサイエンス14_システム.pdf
自然言語処理研究室
July 16, 2018
Tweet
Share
More Decks by 自然言語処理研究室
See All by 自然言語処理研究室
データサイエンス13_解析.pdf
jnlp
0
500
データサイエンス12_分類.pdf
jnlp
0
350
データサイエンス11_前処理.pdf
jnlp
0
480
Recurrent neural network based language model
jnlp
0
140
自然言語処理研究室 研究概要(2012年)
jnlp
0
150
自然言語処理研究室 研究概要(2013年)
jnlp
0
110
自然言語処理研究室 研究概要(2014年)
jnlp
0
130
自然言語処理研究室 研究概要(2015年)
jnlp
0
210
自然言語処理研究室 研究概要(2016年)
jnlp
0
210
Other Decks in Education
See All in Education
GOVERNOR ADDRESS:2025年9月29日合同公式訪問例会:2720 Japan O.K. ロータリーEクラブ、2025年10月6日卓話:藤田 千克由 氏(国際ロータリー第2720地区 2025-2026年度 ガバナー・大分中央ロータリークラブ・大分トキハタクシー(株)顧問)
2720japanoke
0
720
ロータリー国際大会について~国際大会に参加しよう~:古賀 真由美 会員(2720 Japan O.K. ロータリーEクラブ・(有)誠邦産業 取締役)
2720japanoke
1
740
Software
irocho
0
650
【dip】「なりたい自分」に近づくための、「自分と向き合う」小さな振り返り
dip_tech
PRO
0
200
Linguaxes de programación
irocho
0
500
SJRC 2526
cbtlibrary
0
160
Master of Applied Science & Engineering: Computer Science & Master of Science in Applied Informatics: Artificial Intelligence and Data Science
signer
PRO
0
860
くまのココロンともぐらのロジ
frievea
0
120
Padlet opetuksessa
matleenalaakso
9
15k
Réaliser un diagnostic externe
martine
0
830
多様なメンター、多様な基準
yasulab
5
19k
Entrepreneurship minor course at HSE 2025
karlov
0
150
Featured
See All Featured
The Director’s Chair: Orchestrating AI for Truly Effective Learning
tmiket
0
59
How to Create Impact in a Changing Tech Landscape [PerfNow 2023]
tammyeverts
55
3.1k
Optimizing for Happiness
mojombo
379
70k
Self-Hosted WebAssembly Runtime for Runtime-Neutral Checkpoint/Restore in Edge–Cloud Continuum
chikuwait
0
21
Navigating Team Friction
lara
191
16k
Six Lessons from altMBA
skipperchong
29
4.1k
We Analyzed 250 Million AI Search Results: Here's What I Found
joshbly
0
190
Build your cross-platform service in a week with App Engine
jlugia
234
18k
HU Berlin: Industrial-Strength Natural Language Processing with spaCy and Prodigy
inesmontani
PRO
0
83
What the history of the web can teach us about the future of AI
inesmontani
PRO
0
370
The innovator’s Mindset - Leading Through an Era of Exponential Change - McGill University 2025
jdejongh
PRO
1
62
Imperfection Machines: The Place of Print at Facebook
scottboms
269
13k
Transcript
None
今日のメニュー 推薦システム 評判分析 システム評価
None
推薦システム サイト利用者の(購入)判断の際に参考となる情報を紹介するシステム 具体例 売れ筋ランキング 類似商品・関連商品の提示
書評、クチコミ 「これをリンク/購入した人は…を購入しています」
None
None
None
None
推薦システム誕生の背景 情報量の増大 検索すればいいのでは? 検索ではヒット件数が多すぎて絞り切れない どんなキーワードで検索していいのか分からない
推薦システムで利用される情報 明示的情報:利用者自身が入力した情報 星の数(1~5または7) 商品コメント 推測情報:利用者の行動から推測した情報
購入履歴:買ったということは興味がありそう 閲覧ページ、閲覧時間:ページを(長時間)見ているということは興味 がありそう
推薦システムで起こった発想の転換 1.店の視点(売りたいものを売る)から購入者の視点(買いたいものを買う)へ の発想の転換 書店では、店員が読んで面白い/誰かに依頼された/これを売ると利益率が 高い、など様々な(店側の)理由で売りたいものを並べていた (例えば)アマゾンでは、購入者に意見・感想を書かせ、あるいは購入行動の 情報を新規利用者に提示することで購入意欲を高めている。つまり、店は予め 売りたい商品を決めていない。
2.大衆から個別への発想の転換=個人適用 個人によって興味関心が違うことを前提とした売り方 インターネットやIT化に伴って省コストで実現可能
発想の転換(続き) 自然言語処理から見ると、もう一つ重要な発想の転換がある。 「内容を理解せずに推薦する」 すなわち、店の人(あるいはアマゾン)は本を読まず、音楽を聴かず、購入者 の行動履歴や購買履歴を情報源にして推薦している。 これはある意味、推薦システムの構築に自然言語処理は不要であることを
意味している。 ただし、「良い推薦」のためにはテキスト解析が必要なことも事実。
推薦システムの分類 協調フィルタリング クチコミ等の情報を利用して高評価なものを提示 内容ベースフィルタリング 内容を解析して類似したもの・高評価なものを提示
推薦システムの問題点 協調フィルタリングにおいて新規ユーザーや新商品に対応できない コールドスタート問題 偽のクチコミ、サクラ、ゴミ、スパム 意図的に高い評価を与える
意図的に低い評価を与える 大規模化 規模拡大によって上記ゴミが増え、結果的に評価の信頼性が下がる
None
(クチコミ分析、ソーシャルリスニング)
評判分析 クチコミやレビュー、アンケートなど、主観的な文章を解析して、著者の意見 や感情、その他情報などを自動的に読み取る技術 多くの場合は対象テキストが大量であることが前提 解析結果を何らかの形で取りまとめて提示 2値分類(肯定的/否定的)
特定情報のみ抽出(固有表現抽出) 高頻度語を提示
評判分析の対象 通販サイト Amazon、楽天など ソーシャルメディア FacebookやLINEは閉鎖性が高いので主に Twitter
が使われる Q&Aサイト Yahoo!知恵袋、OKWAVEなど レビューサイト 価格.com、@cosmeなど ブログサイト
何を分析するのか? 商品・サービスの注目度、話題度 言及数をカウント Twitterの場合、言及者数も計数可能 どれだけ好評か?
肯定/否定の割合を計算 商品・サービスに関連するキーワード 「花火」「限定」「サッカー」 メディア別 Twitterで特に話題になる等
None
None
None
None
None
評判分析の難しさ 高頻度=特徴語とは限らない ストップワード サクラ問題 各種表現
これでおいしくないとは言わせない おいしすぎてつらい ~店のほうが断然おいしい 客が誰もいなくて神秘的 もう来ない
None
オープンテストとクローズドテスト オープンテスト(open test) システム作成時に使ったデータ以外の入力(未知の入力)に対してシステムの性 能を評価するテスト方法。これがいわゆるシステム性能となる。 クローズドテスト(closed test)
システム作成時に何らかの形で参照したデータに対してシステムの性能を評価 するテスト方法。 通常はオープンテストを行えばよいが、クローズドテストの性能もシステム開発時の 参照として意味がある。 例えば、一般にクローズドテストの結果>オープンテストの結果なので、クローズ ドテストで低い値しか得られない時はそもそもオープンテストの意味がないなど。
交差検定(cross validation) できるだけ多くのオープンテストを行うための工 夫 データをn分割してオープンテストを繰り返す (これをn-fold cross validationと呼ぶ)
この特別な場合として、データを1件のみ訓 練から除外して交差検定を行うことをジャック ナイフ法または leave-one-out法と呼ぶ 最大限の訓練データが確保できるが、そ の一方で実験負荷が最大になる。
システム評価 出力(スイング) 非出力(見送り) 正解 (ストライク) True Positive(TP) (ホームラン) False Negative(FN)
(見逃し三振) 不正解 (ボール) False Positive(FP) (空振り三振) True Negative(TN) (ボール見送り) 各事例に対して、システムは正解と判断したもののみを出力する。
適合率、再現率、正解率 適合率(precision) 再現率(recall) 正解率(accuracy)
F-measure F-measure (F-score, F尺度)は再 現率と適合率の調和平均である。 これを変形して、
マイクロ平均とマクロ平均 マイクロ平均 マクロ平均 A社は900人面接で内定者90人 B社は100人面接で内定者50人
マイクロ平均の内定率(=内定者比率)は (90+50)/(900+100)=14% マクロ平均の内定率(=会社別平均)は (10%+50%)/2=30%
None
テキスト分析は甘くない まず何を知りたいのかを明確に 目的なく分析しても平凡な結果 しか得られない 分析には限界がある データの規模は十分か?
収集データに偏りはないか? 解析誤りがどの程度含まれる か? レポートの提出をお待ちしています。
「データの 世紀」
履修・聴講いただきありがとうございました。