Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
スクレイピングを(ちょっと)楽したい技術
Search
Aipa
November 02, 2018
Technology
0
94
スクレイピングを(ちょっと)楽したい技術
スクレイピングを(ちょっと)楽したい技術
Aipa
November 02, 2018
Tweet
Share
More Decks by Aipa
See All by Aipa
ピンチヒッターです。なにか話します
commander_aipa
0
82
おれたちはいつDXできるのか
commander_aipa
1
46
ウンケーニオキタコワイハナシ
commander_aipa
0
95
Nuxt3 Deeeeeeeeeeeeeeeeeeeeeploy
commander_aipa
0
140
Meilisearchでハイブリッドベクトル検索
commander_aipa
0
91
Honoの導入を検討していたが、Honoの人が来沖するらしいので、急いでHonoを導入した話
commander_aipa
0
170
Dの意思は神を殺す
commander_aipa
0
82
ファインチューニングがしたい
commander_aipa
0
170
サクッと検索サーバを用意する
commander_aipa
0
180
Other Decks in Technology
See All in Technology
AWSアカウントのセキュリティ自動化、どこまで進める? 最適な設計と実践ポイント
yuobayashi
7
630
OCI Success Journey OCIの何が評価されてる?疑問に答える事例セミナー(2025年2月実施)
oracle4engineer
PRO
2
160
手を動かしてレベルアップしよう!
maruto
0
220
30→150人のエンジニア組織拡大に伴うアジャイル文化を醸成する役割と取り組みの変化
nagata03
0
180
DevinでAI AWSエンジニア製造計画 序章 〜CDKを添えて〜/devin-load-to-aws-engineer
tomoki10
0
140
LINE NEWSにおけるバックエンド開発
lycorptech_jp
PRO
0
250
Autonomous Database Serverless 技術詳細 / adb-s_technical_detail_jp
oracle4engineer
PRO
17
45k
2/18 Making Security Scale: メルカリが考えるセキュリティ戦略 - Coincheck x LayerX x Mercari
jsonf
0
210
Windows の新しい管理者保護モード
murachiakira
0
200
JavaにおけるNull非許容性
skrb
2
2.6k
Perlの生きのこり - エンジニアがこの先生きのこるためのカンファレンス2025
kfly8
2
270
IAMのマニアックな話2025
nrinetcom
PRO
4
780
Featured
See All Featured
A Modern Web Designer's Workflow
chriscoyier
693
190k
Keith and Marios Guide to Fast Websites
keithpitt
411
22k
Fireside Chat
paigeccino
34
3.2k
Typedesign – Prime Four
hannesfritz
40
2.5k
Producing Creativity
orderedlist
PRO
344
40k
Measuring & Analyzing Core Web Vitals
bluesmoon
6
260
Building Flexible Design Systems
yeseniaperezcruz
328
38k
What's in a price? How to price your products and services
michaelherold
244
12k
Art, The Web, and Tiny UX
lynnandtonic
298
20k
Building Applications with DynamoDB
mza
93
6.2k
Designing for humans not robots
tammielis
250
25k
The Illustrated Children's Guide to Kubernetes
chrisshort
48
49k
Transcript
εΫϨΠϐϯάΛ ʢͪΐͬͱʣָ͍ٕͨ͠ज़ ࣾ-5ΞΠύʔୂ
͢͜ͱ
͢͜ͱ w Ϋϩʔϥʔ࡞ΔͷΊΜͲ͍͘͞ͷͰɺ͋ΔఔࣗಈԽ͍ͨ͠ w Ξϓϩʔν͕ϧʔϧϕʔεͱɺػցֶशͷख๏͕͋Δ w ࠓճϧʔϧϕʔεͷհ
ࣗݾհʢࠩʣ
ࣗݾհʢࠩʣ w ࢠڙ͕ੜ·Εͨᵋ ɾ㱼ɾ ᵇϔΠ̇ϔΠ̇ᵃ ɾ㱼ɾ ᵏ
൪
൪ w ʁʁʁʣʮ͊ɻ˓˓˓ɻήʔϜΛ࢝ΊΑ͏͔ʯ w ʮϧʔϧ؆୯ͩɺ͜͜ʹ̏ͭͷөը͕͋Δɻ̎࣌ؒҎʹ͜ͷ த͔Β̍ͭөըΛؑ͢Ε͍͍ɻ͠ࢹௌ͠ͳ͔ͬͨΓɺөը ͷ్தʹ৸མͪͯ͠͠·ͬͨΒήʔϜΦʔόʔͩʯ
͊͞ɻԿΛݟΔ͔બ
ਖ਼ղʢશ෦ݟͨͷϥϕϧʣ
Կ͕ݴ͍͍ͨͷ͔ w ҰൠͽʔΔཕөըΛબผ͢ΔྗΛΈʹ͚͍ͭͨ w ࣌ؒͱগֹͷ͕͍ۚͬͨͳ͍ήʔϜΦʔόʔ w ϚχΞཕͰ౿ΜͰΈ͍ͨ w ઌఔͷӈଆͷөըͷΑ͏ʹɺཕΛ౿ΜͰΈ͚ͨͲരൃͲ͜Ζ͔ ݁ߏ໘ന͍өըͩͬͨΓ͢Δ
w ͜ΕΛޮΑ͘ݟ͚͍͖͍ͭͯͨ
Կ͕ݴ͍͍ͨͷ͔ w ҰൠͽʔΔཕөըΛબผ͢ΔྗΛΈʹ͚͍ͭͨ w ࣌ؒͱগֹͷ͕͍ۚͬͨͳ͍ήʔϜΦʔόʔ w ϚχΞཕͰ౿ΜͰΈ͍ͨ w ઌఔͷӈଆͷөըͷΑ͏ʹɺཕΛ౿ΜͰΈ͚ͨͲരൃͲ͜Ζ͔ ݁ߏ໘ന͍өըͩͬͨΓ͢Δ
w ͜ΕΛޮΑ͘ݟ͚͍͖͍ͭͯͨ8FCαʔϏε࡞த
Կ͕ݴ͍͍ͨͷ͔ w ҰൠͽʔΔཕөըΛબผ͢ΔྗΛΈʹ͚͍ͭͨ w ࣌ؒͱগֹͷ͕͍ۚͬͨͳ͍ήʔϜΦʔόʔ w ϚχΞཕͰ౿ΜͰΈ͍ͨ w ઌఔͷӈଆͷөըͷΑ͏ʹɺཕΛ౿ΜͰΈ͚ͨͲരൃͲ͜Ζ͔ ݁ߏ໘ന͍өըͩͬͨΓ͢Δ
w ͜ΕΛޮΑ͘ݟ͚͍͖͍ͭͯͨ8FCαʔϏε࡞த
൪ऴΘΓ w #ڃөըΛϨϏϡʔ͍ͯ͠ΔϒϩάهࣄΛΫϩʔϧ w ϨϏϡʔهࣄʹϥϕϧʢ໘ന͔ͬͨPSͭ·Βͳ͔ͬͨʣ w Ϟσϧߏங w 7VFKTͰαΠτΛߏங
՝ w ΫϩʔϥʔΛఆظ࣮ߦ w εΫϨΠϐϯάͷࣗಈԽ w өըλΠτϧͷਖ਼نԽ w ϨϏϡʔੳͷਫ਼ w
αΠτσβΠϯ
՝ w ΫϩʔϥʔΛఆظ࣮ߦ w εΫϨΠϐϯάͷࣗಈԽ w өըλΠτϧͷਖ਼نԽ w ϨϏϡʔੳͷਫ਼ w
αΠτσβΠϯ
εΫϨΠϐϯάͷࣗಈԽ
εΫϨΠϐϯάͱʢΠϝʔδʣ HTML HTML ᶃ ᶄ ᶅ
ΊΜͲ͍͘͜͞ͱ w αΠτຖʹύʔε͢Δߏ͕ҧ͏ͨΊɺରԠ͢ΔϓϩάϥϜ ͷ༻ҙ w هࣄ63-ͷநग़ w هࣄͷநग़
ΊΜͲ͍͘͜͞ͱ w αΠτຖʹύʔε͢Δߏ͕ҧ͏ͨΊɺରԠ͢ΔϓϩάϥϜ ͷ༻ҙ w هࣄ63-ͷநग़ w هࣄͷநग़
Ξϓϩʔν w ϖʔδ͔Βίϯςϯπ͚ͩΛൈ͖ग़ͨ͢ΊͷγϯϓϧͰ؆୯ͳํ ๏ɻ w <OFX>هࣄͷεΫϨΠϐϯάΛػցֶशͰࣗಈԽ
ϖʔδ͔Βίϯςϯπ͚ͩΛൈ͖ग़ͨ͢Ίͷγϯ ϓϧͰ؆୯ͳํ๏ɻ w ͬ͘͟Γͱ͢Δͱ w େྔͷ8FCϖʔδͷεΫϨΠϐϯάॲཧΛλΠϓ͢Δͷେม w ίϯςϯπ͚ͩΛൈ͖ग़ͤͳ͍͔ w ࣗ࡞؆қ൛ίϯςϯπநग़ϩδοΫΛ࡞ͬͨΑʢ+BWBʣ
ϩδοΫઆ໌ αΠτ͔Βൈਮ w )UNMλάΛͱ͠ɺλάߏͷҐஔΛਂ͞ͱͯ͠ɺ Eͱ͢Δ w λάͷԼʹؚ·ΕΔςΩετྔΛMͱ͢Δ w λάͷԼͷࢠλάɻDͱ͢Δ S
= l 4 3 d 2c
ίʔυ͕͋Δ
Ͱ+BWBͳΜͰ͢Α
ͱ͍͏Θ͚Ͱ
࡞ΔϚϯɾɾɾɾɾɾɾ
Ͱ͖ͨϚΞΞΞΞΞΞΞΞΞΞΞΞΞΞΞΞΞϯ
6TBHF 1 from trimmer_py.trimmer_py import search_max_score_tag 2 from urllib import
request 3 4 if __name__ == '__main__': 5 url = 'http://teenssexandwarmode.hatenablog.com/entry/2018/10/10/042129' 6 with request.urlopen(url) as f: 7 html = f.read() 8 # return bs4 object. 9 t = search_max_score_tag(html) 10 print(t.text)
ݕূ݁Ռ w దʹर͖ͬͯͨϒϩάهࣄ̑αΠτ͙Β͍͏·͍ͬͨ͘ w ࣗ࡞ΫϩʔϥʔʹΈࠐΜͩΒλΠτϧ࿙Εͱ͔͚͋ͬͨͲɺ΄ ΅΄΅͏·͍ͬͨ͘ʢ̐αΠτɾɾɾɻαϯϓϧ͕গͳ͍ʣ w ·͊Αͦ͞͏
ݕূ݁Ռ
ࡶײ
ࡶײ w هࣄͷऔಘϧʔϧϕʔεͰࣗಈԽͰ͖ͨ w هࣄҰཡͷऔಘࣗಈԽ͍ͨ͠ͳɻߟ͑Δ w #ڃϥΠϑΛόϥ৭ʹ͢ΔͨΊʹࣗવݴޠॲཧͷษڧΛؤுΔ