Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
ACL2011読み会 EXPLOITING WEB-DERIVED SELECTIONAL P...
Search
Yuya Unno
September 03, 2011
Technology
0
11
ACL2011読み会 EXPLOITING WEB-DERIVED SELECTIONAL PREFERENCE TO IMPROVE STATISTICAL DEPENDENCY PARSING
Yuya Unno
September 03, 2011
Tweet
Share
More Decks by Yuya Unno
See All by Yuya Unno
深層学習で切り拓くパーソナルロボットの未来 @東京大学 先端技術セミナー 工学最前線
unnonouno
0
17
深層学習時代の自然言語処理ビジネス @DLLAB 言語・音声ナイト
unnonouno
0
38
ベンチャー企業で言葉を扱うロボットの研究開発をする @東京大学 電子情報学特論I
unnonouno
0
34
PFNにおけるセミナー活動 @NLP2018 言語処理研究者・技術者の育成と未来への連携WS
unnonouno
0
9
進化するChainer @JSAI2017
unnonouno
0
17
予測型戦略を知るための機械学習チュートリアル @BigData Conference 2017 Spring
unnonouno
0
11
深層学習フレームワーク Chainerとその進化
unnonouno
0
16
深層学習による機械とのコミュニケーション @DeNA TechCon 2017
unnonouno
0
24
最先端NLP勉強会 “Learning Language Games through Interaction” @第8回最先端NLP勉強会
unnonouno
0
12
Other Decks in Technology
See All in Technology
【 LLMエンジニアがヒューマノイド開発に挑んでみた 】 - 第104回 Machine Learning 15minutes! Hybrid
soneo1127
0
220
ZOZOTOWNフロントエンドにおけるディレクトリの分割戦略
zozotech
PRO
18
6k
オブザーバビリティが広げる AIOps の世界 / The World of AIOps Expanded by Observability
aoto
PRO
0
140
実践アプリケーション設計 ③ドメイン駆動設計
recruitengineers
PRO
13
3.9k
PRDの正しい使い方 ~AI時代にも効く思考・対話・成長ツールとして~
techtekt
PRO
0
100
カミナシ社の『ID管理基盤』製品内製 - その意思決定背景と2年間の進化 #AWSUnicornDay / Kaminashi ID - The Big Whys
kaminashi
3
690
Grafana Meetup Japan Vol. 6
kaedemalu
1
190
【5分でわかる】セーフィー エンジニア向け会社紹介
safie_recruit
0
30k
DeNA での思い出 / Memories at DeNA
orgachem
PRO
6
1.9k
Kubernetes における cgroup v2 でのOut-Of-Memory 問題の解決
pfn
PRO
0
420
モバイルアプリ研修
recruitengineers
PRO
5
1.6k
実践アプリケーション設計 ②トランザクションスクリプトへの対応
recruitengineers
PRO
4
1.2k
Featured
See All Featured
Fantastic passwords and where to find them - at NoRuKo
philnash
52
3.4k
Designing Experiences People Love
moore
142
24k
Fashionably flexible responsive web design (full day workshop)
malarkey
407
66k
Rails Girls Zürich Keynote
gr2m
95
14k
Practical Tips for Bootstrapping Information Extraction Pipelines
honnibal
PRO
23
1.4k
Building a Modern Day E-commerce SEO Strategy
aleyda
43
7.5k
Site-Speed That Sticks
csswizardry
10
800
The Cult of Friendly URLs
andyhume
79
6.6k
Dealing with People You Can't Stand - Big Design 2015
cassininazir
367
27k
Designing for humans not robots
tammielis
253
25k
CoffeeScript is Beautiful & I Never Want to Write Plain JavaScript Again
sstephenson
161
15k
Optimizing for Happiness
mojombo
379
70k
Transcript
ACL2011ಡΈձ EXPLOITING WEB-DERIVED SELECTIONAL PREFERENCE TO IMPROVE STATISTICAL DEPENDENCY PARSING
(1156) GUANGYOU ZHOU, JUN ZHAO, KANG LIU, AND LI CAI 2011/09/03 Yuya Unno (@unnonouno) 20119݄3༵
֓ཁ • Γड͚ͷબબ (selectional preference) Λwebσʔλ ͷසͰදݱ͠·ͨ͠ • Higher-order EisnerΛϕʔεʹɺΓड͚NάϥϜͷPMI
ΛಛྔʹೖΕ·ͨ͠ • ਫ਼্͕͕ͬͨΑ :-) 20119݄3༵
ࠓߋͰ͕͢Γड͚ղੳͱ • ୯ޠจઅͷʮΓड͚ؔʯΛͯΔ • ʮΓड͚ؔʯ͕Կͳͷ͔ӬԕͷṖ • ۃ͢Εਖ਼ղίʔύεʹ༩͑ΒΕ্ͨهͷ༷ͳߏ 20119݄3༵
બબͱʁ • ಛఆͷಈࢺ໊ࢺʹΓ͍҆ಈࢺ໊ࢺ͕͋Δ • ʮ…Λ৯Δʯʹɺ৯͕དྷ͍͢ • ʮͷߴ͍ϫΠϯʯͱʮஈͷߴ͍ϫΠϯʯͷߏ ͷҧ͍Λॠ࣌ʹஅͰ͖ΔͷԿނͩΖ͏ʁ • http://d.hatena.ne.jp/usata3/20070416/p2
20119݄3༵
ΞΠσΞɿΑ͘ڞى͢Δ୯ޠؒ ʹબબੑ͕͋ΔΜͰʁ • ʮͷߴ͍ʯʻʮஈͷߴ͍ʯ • Γड͚ϖΞީิͷ̎୯ޠͷڞى͢͠͞Λಛʹೖ ΕΑ͏ • ैདྷ୯ޠͱΫϥεؒͰ͍͚ͬͯͨͲɺWebεέʔ ϧͷσʔλ͕͋Ε୯ޠͱ୯ޠͰେৎͩΑͶʂ
20119݄3༵
ڞى۩߹PMIͰଌΖ͏ • ࣗݾ૬ޓใྔ (Point-wise Mutual Information) • ̎ͭͷ֬ม͕ͲΕ͘Β͍ಠཱͰͳ͍͔ • PMI(x,
y) = log (P(x, y) / P(x)P(y)) • ۮવͷڞىͰͳ͚Εߴ͍Λ࣋ͭ • ڞىස͑͞Θ͔ΕਪఆͰ͖Δ 20119݄3༵
සͷΧϯτํ๏ೋछྨ • Google V1 ίʔύε • Webεέʔϧͷେنίʔύε • Google API
• ̎ͭͷΩʔϫʔυΛೖΕͯάάͬͨ࣌ͷස 20119݄3༵
̏୯ޠͷ߹ߟ͑Δ • ̏୯ޠͬͯΈΔ • PMI(x, y, z) = log (
P(x, y, z) / P(x, y)P(y, z) ) • x, yͱy, zͷPMIͱ͍͏͜ͱ͔ͳɾɾɾ 20119݄3༵
PP-ATACHEMENTͬͯΈΔ • લஔࢺͷલޙͷ୯ޠͷબબߟ͍͑ͨ • PMIIN(x, z) = P(x, IN, z)
/ P(x) • PMIͰͳ͍ɾɾɾ • ઌͷʮ3୯ޠͷ߹ʯͰଌΕΔؾ͕͢Δɾɾɾʁ 20119݄3༵
ϕʔεߴ֊EISNERͷLOG- LINEARϞσϧ • Eisner๏ͱඇަࠩΓड͚ղੳͷղ๏ͷҰͭ • Γड͚෦ߏͷείΞͷ૯Λ࠷େԽͤ͞Δ • CKYΞϧΰϦζϜͱີͳ͕ؔ͋Δ • ৄ͘͠ࢲͷνϡʔτϦΞϧΛࢀর
• http://www.slideshare.net/unnonouno/ss-5724050 • PMIಛଞͷόΠφϦಛͱεέʔϧΛ߹ΘͤΔͨΊɺฏۉɾࢄͰਖ਼نԽ͢Δ (PMI - μ) / σ Ҏ߱ɺਤ͍ͣΕݪจΑΓ ρʮͷʯ→ʮϫΠϯʯ ͷΑ͏ͳΓड͚෦ߏ 20119݄3༵
ಛͷ༗ແͰ݁Ռͷൺֱ • ͍ͣΕʹ͠ΖબબಛΛೖΕͨ΄͏͕ྑ͍ • Google APIʹΑΔώοτΛͬͨ΄͏͕एׯΑ͍ • dep1: 1֊Eisner, dep2:
2֊Eisner, +hits: Google API, +V1: Google V1 Corpus 20119݄3༵
࠷৽ͷख๏ͱͷൺֱ • ࠷৽ͷڭࢣ͋Γ ʹෛ͚Δ • ڭࢣͳ͠σʔλΛ Θͳ͍ख๏ʹ উͯΔ 20119݄3༵
σʔλͷҧ͍͋·ΓӨڹ͕ͳ ͍ • ϩΠλʔͱGigword͔Β ࡞ͬͨίʔύε(NEWS)Ͱ ࣮ݧͨ͠ • UnigramͷͷΈʹਫ਼͕ ґଘ •
σʔλͷछྨʹґଘ͠ͳ ͍Α͏ͩ 20119݄3༵
ԕ͍Γड͚ͷਫ਼্͕େ͖ ͍ • ԕ͍Γड͚ਫ਼͕ ͪΌΜͱ্͕͍ͬͯΔ 20119݄3༵
దԠ͍ͨ࣌͠WEB NGRAMΛೖΕͨํ͕Α͍ • શ͘ͷ֎ʹྑ͍Өڹ Λ༩͑Δ͔ʁ • BioͷσʔλͰධՁ • ݁Ռతʹɺ֎ͷσʔ λͷਫ਼্͕Δ͜ͱ͕
Θ͔ͬͨ 20119݄3༵
ॴײ • ಉ͡Α͏ͳ͜ͱҎલߟ͑ͯগ࣮͠ݧ͕ͨ͠͏·͘ߦ ͔ͳ͔ͬͨ • ڭࢣ͋ΓΛؚΊɺϥϕϧͳ͠σʔλΛͬͯείΞ Λ্͛Δํ͕͠Β͘ଓ͖ͦ͏ • ҰํͰΓड͚ύεࣗવͰͳ͍͜ͱ͋Γɺ͏·͘ ͍͔ͳ͍έʔε͋Γͦ͏
20119݄3༵
·ͱΊ • Γड͚ղੳͷબબΛWebσʔλͷසͰදݱ͠·ͨ͠ • ಛʹೖΕΔͱ͖Γड͚ύε্ͷྡ୯ޠରͷPMIΛಛ ྔͷʹͯ͠ɺී௨ʹֶश͢Δ͚ͩ • طଘͷख๏ͱൺͨͱ͖ɺԕ͍Γड͚ɺ֎ͷσʔλɺ ͍ͣΕྑͷ݁Ռ •
࠷৽ͷڭࢣ͋Γʹෛ͚Δ 20119݄3༵