Upgrade to PRO for Only $50/Year—Limited-Time Offer! 🔥
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
データサイエンス14_システム.pdf
Search
自然言語処理研究室
July 16, 2018
Education
0
400
データサイエンス14_システム.pdf
自然言語処理研究室
July 16, 2018
Tweet
Share
More Decks by 自然言語処理研究室
See All by 自然言語処理研究室
データサイエンス13_解析.pdf
jnlp
0
500
データサイエンス12_分類.pdf
jnlp
0
350
データサイエンス11_前処理.pdf
jnlp
0
480
Recurrent neural network based language model
jnlp
0
140
自然言語処理研究室 研究概要(2012年)
jnlp
0
150
自然言語処理研究室 研究概要(2013年)
jnlp
0
110
自然言語処理研究室 研究概要(2014年)
jnlp
0
130
自然言語処理研究室 研究概要(2015年)
jnlp
0
210
自然言語処理研究室 研究概要(2016年)
jnlp
0
210
Other Decks in Education
See All in Education
HTML5 and the Open Web Platform - Lecture 3 - Web Technologies (1019888BNR)
signer
PRO
2
3.1k
The World That Saved Me: A Story of Community and Gratitude
_hashimo2
3
400
GOVERNOR ADDRESS:2025年9月29日合同公式訪問例会:2720 Japan O.K. ロータリーEクラブ、2025年10月6日卓話:藤田 千克由 氏(国際ロータリー第2720地区 2025-2026年度 ガバナー・大分中央ロータリークラブ・大分トキハタクシー(株)顧問)
2720japanoke
0
720
コマンドラインを見直そう(1995年からタイムリープ)
sapi_kawahara
0
590
くまのココロンともぐらのロジ
frievea
0
120
IKIGAI World Fes:program
tsutsumi
1
2.6k
RGBでも蛍光を!? / RayTracingCamp11
kugimasa
1
260
Node-REDで広がるプログラミング教育の可能性
ueponx
1
210
Entrepreneurship minor course at HSE 2025
karlov
0
150
東大1年生にJulia教えてみた
matsui_528
6
11k
Microsoft Office 365
matleenalaakso
0
2k
アジャイルの知見から新卒研修作り、そして組織作り
pokotyamu
0
120
Featured
See All Featured
Designing Experiences People Love
moore
143
24k
Imperfection Machines: The Place of Print at Facebook
scottboms
269
13k
Six Lessons from altMBA
skipperchong
29
4.1k
StorybookのUI Testing Handbookを読んだ
zakiyama
31
6.5k
The Art of Delivering Value - GDevCon NA Keynote
reverentgeek
16
1.8k
Fireside Chat
paigeccino
41
3.7k
"I'm Feeling Lucky" - Building Great Search Experiences for Today's Users (#IAC19)
danielanewman
231
22k
GraphQLの誤解/rethinking-graphql
sonatard
73
11k
Reflections from 52 weeks, 52 projects
jeffersonlam
355
21k
Building a Modern Day E-commerce SEO Strategy
aleyda
45
8.3k
Stop Working from a Prison Cell
hatefulcrawdad
273
21k
Visualizing Your Data: Incorporating Mongo into Loggly Infrastructure
mongodb
48
9.8k
Transcript
None
今日のメニュー 推薦システム 評判分析 システム評価
None
推薦システム サイト利用者の(購入)判断の際に参考となる情報を紹介するシステム 具体例 売れ筋ランキング 類似商品・関連商品の提示
書評、クチコミ 「これをリンク/購入した人は…を購入しています」
None
None
None
None
推薦システム誕生の背景 情報量の増大 検索すればいいのでは? 検索ではヒット件数が多すぎて絞り切れない どんなキーワードで検索していいのか分からない
推薦システムで利用される情報 明示的情報:利用者自身が入力した情報 星の数(1~5または7) 商品コメント 推測情報:利用者の行動から推測した情報
購入履歴:買ったということは興味がありそう 閲覧ページ、閲覧時間:ページを(長時間)見ているということは興味 がありそう
推薦システムで起こった発想の転換 1.店の視点(売りたいものを売る)から購入者の視点(買いたいものを買う)へ の発想の転換 書店では、店員が読んで面白い/誰かに依頼された/これを売ると利益率が 高い、など様々な(店側の)理由で売りたいものを並べていた (例えば)アマゾンでは、購入者に意見・感想を書かせ、あるいは購入行動の 情報を新規利用者に提示することで購入意欲を高めている。つまり、店は予め 売りたい商品を決めていない。
2.大衆から個別への発想の転換=個人適用 個人によって興味関心が違うことを前提とした売り方 インターネットやIT化に伴って省コストで実現可能
発想の転換(続き) 自然言語処理から見ると、もう一つ重要な発想の転換がある。 「内容を理解せずに推薦する」 すなわち、店の人(あるいはアマゾン)は本を読まず、音楽を聴かず、購入者 の行動履歴や購買履歴を情報源にして推薦している。 これはある意味、推薦システムの構築に自然言語処理は不要であることを
意味している。 ただし、「良い推薦」のためにはテキスト解析が必要なことも事実。
推薦システムの分類 協調フィルタリング クチコミ等の情報を利用して高評価なものを提示 内容ベースフィルタリング 内容を解析して類似したもの・高評価なものを提示
推薦システムの問題点 協調フィルタリングにおいて新規ユーザーや新商品に対応できない コールドスタート問題 偽のクチコミ、サクラ、ゴミ、スパム 意図的に高い評価を与える
意図的に低い評価を与える 大規模化 規模拡大によって上記ゴミが増え、結果的に評価の信頼性が下がる
None
(クチコミ分析、ソーシャルリスニング)
評判分析 クチコミやレビュー、アンケートなど、主観的な文章を解析して、著者の意見 や感情、その他情報などを自動的に読み取る技術 多くの場合は対象テキストが大量であることが前提 解析結果を何らかの形で取りまとめて提示 2値分類(肯定的/否定的)
特定情報のみ抽出(固有表現抽出) 高頻度語を提示
評判分析の対象 通販サイト Amazon、楽天など ソーシャルメディア FacebookやLINEは閉鎖性が高いので主に Twitter
が使われる Q&Aサイト Yahoo!知恵袋、OKWAVEなど レビューサイト 価格.com、@cosmeなど ブログサイト
何を分析するのか? 商品・サービスの注目度、話題度 言及数をカウント Twitterの場合、言及者数も計数可能 どれだけ好評か?
肯定/否定の割合を計算 商品・サービスに関連するキーワード 「花火」「限定」「サッカー」 メディア別 Twitterで特に話題になる等
None
None
None
None
None
評判分析の難しさ 高頻度=特徴語とは限らない ストップワード サクラ問題 各種表現
これでおいしくないとは言わせない おいしすぎてつらい ~店のほうが断然おいしい 客が誰もいなくて神秘的 もう来ない
None
オープンテストとクローズドテスト オープンテスト(open test) システム作成時に使ったデータ以外の入力(未知の入力)に対してシステムの性 能を評価するテスト方法。これがいわゆるシステム性能となる。 クローズドテスト(closed test)
システム作成時に何らかの形で参照したデータに対してシステムの性能を評価 するテスト方法。 通常はオープンテストを行えばよいが、クローズドテストの性能もシステム開発時の 参照として意味がある。 例えば、一般にクローズドテストの結果>オープンテストの結果なので、クローズ ドテストで低い値しか得られない時はそもそもオープンテストの意味がないなど。
交差検定(cross validation) できるだけ多くのオープンテストを行うための工 夫 データをn分割してオープンテストを繰り返す (これをn-fold cross validationと呼ぶ)
この特別な場合として、データを1件のみ訓 練から除外して交差検定を行うことをジャック ナイフ法または leave-one-out法と呼ぶ 最大限の訓練データが確保できるが、そ の一方で実験負荷が最大になる。
システム評価 出力(スイング) 非出力(見送り) 正解 (ストライク) True Positive(TP) (ホームラン) False Negative(FN)
(見逃し三振) 不正解 (ボール) False Positive(FP) (空振り三振) True Negative(TN) (ボール見送り) 各事例に対して、システムは正解と判断したもののみを出力する。
適合率、再現率、正解率 適合率(precision) 再現率(recall) 正解率(accuracy)
F-measure F-measure (F-score, F尺度)は再 現率と適合率の調和平均である。 これを変形して、
マイクロ平均とマクロ平均 マイクロ平均 マクロ平均 A社は900人面接で内定者90人 B社は100人面接で内定者50人
マイクロ平均の内定率(=内定者比率)は (90+50)/(900+100)=14% マクロ平均の内定率(=会社別平均)は (10%+50%)/2=30%
None
テキスト分析は甘くない まず何を知りたいのかを明確に 目的なく分析しても平凡な結果 しか得られない 分析には限界がある データの規模は十分か?
収集データに偏りはないか? 解析誤りがどの程度含まれる か? レポートの提出をお待ちしています。
「データの 世紀」
履修・聴講いただきありがとうございました。