Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
スクレイピングを(ちょっと)楽したい技術
Search
Aipa
November 02, 2018
Technology
100
0
Share
スクレイピングを(ちょっと)楽したい技術
スクレイピングを(ちょっと)楽したい技術
Aipa
November 02, 2018
More Decks by Aipa
See All by Aipa
「絶対に無理」を「ちょっと無理」にするAI活用術
commander_aipa
0
63
Amazon Connect で文字起こしする
commander_aipa
0
37
Devinと電話する
commander_aipa
0
40
Gemini CLI x gcloud CLI x Chrome DevTools MCP で、Google Cloudに乗っているアプリケーションのバグFixをいい感じにする
commander_aipa
0
110
ピンチヒッターです。なにか話します
commander_aipa
0
160
おれたちはいつDXできるのか
commander_aipa
1
110
ウンケーニオキタコワイハナシ
commander_aipa
0
170
Nuxt3 Deeeeeeeeeeeeeeeeeeeeeploy
commander_aipa
0
220
Meilisearchでハイブリッドベクトル検索
commander_aipa
0
200
Other Decks in Technology
See All in Technology
Sony_KMP_Journey_KotlinConf2026
sony
2
210
AI-DLCを活用した高品質・安全なAI駆動開発実践 / AI Driven Development
yoshidashingo
1
340
ルールやカスタム機能、どう使う?理想の出力を引き出すために今知りたいIBM Bob 5つの機能
muehara
1
310
Oracle Cloud Infrastructure IaaS 新機能アップデート 2026/3 - 2026/5
oracle4engineer
PRO
1
160
ポスター発表&デモと総括 / Poster Presentations & Demonstrations and Summary
ks91
PRO
0
190
プラットフォームエンジニア ワークショップ/ platform-workshop
databricksjapan
0
240
Djangoユーザが知っ得なPostgreSQL機能 - 設計の選択肢を増やす / Djang-use-PostgreSQL
soudai
PRO
0
140
AI フレンドリーなエラー監視を TypeScript で実現する
shinyaigeek
2
250
電子辞書Brainをネットに繋げてみた(自力編)
raspython3
0
430
個人の発見を、組織の知恵に 〜生成AI活用を"探索"から"組織の仕組み"へ〜
kintotechdev
2
870
新規ゲーム開発におけるAI駆動開発のリアル
202409e2
0
2.2k
脅威をエンジニアリングの糧にして:恐怖を乗り越えた先にあったもの / Turn threats into fuel for engineering: what lay beyond overcoming fear
nrslib
1
380
Featured
See All Featured
Side Projects
sachag
455
43k
The Curse of the Amulet
leimatthew05
1
13k
Become a Pro
speakerdeck
PRO
31
6k
RailsConf 2023
tenderlove
30
1.5k
Automating Front-end Workflow
addyosmani
1370
210k
Conquering PDFs: document understanding beyond plain text
inesmontani
PRO
4
2.8k
Neural Spatial Audio Processing for Sound Field Analysis and Control
skoyamalab
0
310
How STYLIGHT went responsive
nonsquared
100
6.2k
From Legacy to Launchpad: Building Startup-Ready Communities
dugsong
0
220
svc-hook: hooking system calls on ARM64 by binary rewriting
retrage
2
280
Git: the NoSQL Database
bkeepers
PRO
432
67k
Measuring Dark Social's Impact On Conversion and Attribution
stephenakadiri
2
210
Transcript
εΫϨΠϐϯάΛ ʢͪΐͬͱʣָ͍ٕͨ͠ज़ ࣾ-5ΞΠύʔୂ
͢͜ͱ
͢͜ͱ w Ϋϩʔϥʔ࡞ΔͷΊΜͲ͍͘͞ͷͰɺ͋ΔఔࣗಈԽ͍ͨ͠ w Ξϓϩʔν͕ϧʔϧϕʔεͱɺػցֶशͷख๏͕͋Δ w ࠓճϧʔϧϕʔεͷհ
ࣗݾհʢࠩʣ
ࣗݾհʢࠩʣ w ࢠڙ͕ੜ·Εͨᵋ ɾ㱼ɾ ᵇϔΠ̇ϔΠ̇ᵃ ɾ㱼ɾ ᵏ
൪
൪ w ʁʁʁʣʮ͊ɻ˓˓˓ɻήʔϜΛ࢝ΊΑ͏͔ʯ w ʮϧʔϧ؆୯ͩɺ͜͜ʹ̏ͭͷөը͕͋Δɻ̎࣌ؒҎʹ͜ͷ த͔Β̍ͭөըΛؑ͢Ε͍͍ɻ͠ࢹௌ͠ͳ͔ͬͨΓɺөը ͷ్தʹ৸མͪͯ͠͠·ͬͨΒήʔϜΦʔόʔͩʯ
͊͞ɻԿΛݟΔ͔બ
ਖ਼ղʢશ෦ݟͨͷϥϕϧʣ
Կ͕ݴ͍͍ͨͷ͔ w ҰൠͽʔΔཕөըΛબผ͢ΔྗΛΈʹ͚͍ͭͨ w ࣌ؒͱগֹͷ͕͍ۚͬͨͳ͍ήʔϜΦʔόʔ w ϚχΞཕͰ౿ΜͰΈ͍ͨ w ઌఔͷӈଆͷөըͷΑ͏ʹɺཕΛ౿ΜͰΈ͚ͨͲരൃͲ͜Ζ͔ ݁ߏ໘ന͍өըͩͬͨΓ͢Δ
w ͜ΕΛޮΑ͘ݟ͚͍͖͍ͭͯͨ
Կ͕ݴ͍͍ͨͷ͔ w ҰൠͽʔΔཕөըΛબผ͢ΔྗΛΈʹ͚͍ͭͨ w ࣌ؒͱগֹͷ͕͍ۚͬͨͳ͍ήʔϜΦʔόʔ w ϚχΞཕͰ౿ΜͰΈ͍ͨ w ઌఔͷӈଆͷөըͷΑ͏ʹɺཕΛ౿ΜͰΈ͚ͨͲരൃͲ͜Ζ͔ ݁ߏ໘ന͍өըͩͬͨΓ͢Δ
w ͜ΕΛޮΑ͘ݟ͚͍͖͍ͭͯͨ8FCαʔϏε࡞த
Կ͕ݴ͍͍ͨͷ͔ w ҰൠͽʔΔཕөըΛબผ͢ΔྗΛΈʹ͚͍ͭͨ w ࣌ؒͱগֹͷ͕͍ۚͬͨͳ͍ήʔϜΦʔόʔ w ϚχΞཕͰ౿ΜͰΈ͍ͨ w ઌఔͷӈଆͷөըͷΑ͏ʹɺཕΛ౿ΜͰΈ͚ͨͲരൃͲ͜Ζ͔ ݁ߏ໘ന͍өըͩͬͨΓ͢Δ
w ͜ΕΛޮΑ͘ݟ͚͍͖͍ͭͯͨ8FCαʔϏε࡞த
൪ऴΘΓ w #ڃөըΛϨϏϡʔ͍ͯ͠ΔϒϩάهࣄΛΫϩʔϧ w ϨϏϡʔهࣄʹϥϕϧʢ໘ന͔ͬͨPSͭ·Βͳ͔ͬͨʣ w Ϟσϧߏங w 7VFKTͰαΠτΛߏங
՝ w ΫϩʔϥʔΛఆظ࣮ߦ w εΫϨΠϐϯάͷࣗಈԽ w өըλΠτϧͷਖ਼نԽ w ϨϏϡʔੳͷਫ਼ w
αΠτσβΠϯ
՝ w ΫϩʔϥʔΛఆظ࣮ߦ w εΫϨΠϐϯάͷࣗಈԽ w өըλΠτϧͷਖ਼نԽ w ϨϏϡʔੳͷਫ਼ w
αΠτσβΠϯ
εΫϨΠϐϯάͷࣗಈԽ
εΫϨΠϐϯάͱʢΠϝʔδʣ HTML HTML ᶃ ᶄ ᶅ
ΊΜͲ͍͘͜͞ͱ w αΠτຖʹύʔε͢Δߏ͕ҧ͏ͨΊɺରԠ͢ΔϓϩάϥϜ ͷ༻ҙ w هࣄ63-ͷநग़ w هࣄͷநग़
ΊΜͲ͍͘͜͞ͱ w αΠτຖʹύʔε͢Δߏ͕ҧ͏ͨΊɺରԠ͢ΔϓϩάϥϜ ͷ༻ҙ w هࣄ63-ͷநग़ w هࣄͷநग़
Ξϓϩʔν w ϖʔδ͔Βίϯςϯπ͚ͩΛൈ͖ग़ͨ͢ΊͷγϯϓϧͰ؆୯ͳํ ๏ɻ w <OFX>هࣄͷεΫϨΠϐϯάΛػցֶशͰࣗಈԽ
ϖʔδ͔Βίϯςϯπ͚ͩΛൈ͖ग़ͨ͢Ίͷγϯ ϓϧͰ؆୯ͳํ๏ɻ w ͬ͘͟Γͱ͢Δͱ w େྔͷ8FCϖʔδͷεΫϨΠϐϯάॲཧΛλΠϓ͢Δͷେม w ίϯςϯπ͚ͩΛൈ͖ग़ͤͳ͍͔ w ࣗ࡞؆қ൛ίϯςϯπநग़ϩδοΫΛ࡞ͬͨΑʢ+BWBʣ
ϩδοΫઆ໌ αΠτ͔Βൈਮ w )UNMλάΛͱ͠ɺλάߏͷҐஔΛਂ͞ͱͯ͠ɺ Eͱ͢Δ w λάͷԼʹؚ·ΕΔςΩετྔΛMͱ͢Δ w λάͷԼͷࢠλάɻDͱ͢Δ S
= l 4 3 d 2c
ίʔυ͕͋Δ
Ͱ+BWBͳΜͰ͢Α
ͱ͍͏Θ͚Ͱ
࡞ΔϚϯɾɾɾɾɾɾɾ
Ͱ͖ͨϚΞΞΞΞΞΞΞΞΞΞΞΞΞΞΞΞΞϯ
6TBHF 1 from trimmer_py.trimmer_py import search_max_score_tag 2 from urllib import
request 3 4 if __name__ == '__main__': 5 url = 'http://teenssexandwarmode.hatenablog.com/entry/2018/10/10/042129' 6 with request.urlopen(url) as f: 7 html = f.read() 8 # return bs4 object. 9 t = search_max_score_tag(html) 10 print(t.text)
ݕূ݁Ռ w దʹर͖ͬͯͨϒϩάهࣄ̑αΠτ͙Β͍͏·͍ͬͨ͘ w ࣗ࡞ΫϩʔϥʔʹΈࠐΜͩΒλΠτϧ࿙Εͱ͔͚͋ͬͨͲɺ΄ ΅΄΅͏·͍ͬͨ͘ʢ̐αΠτɾɾɾɻαϯϓϧ͕গͳ͍ʣ w ·͊Αͦ͞͏
ݕূ݁Ռ
ࡶײ
ࡶײ w هࣄͷऔಘϧʔϧϕʔεͰࣗಈԽͰ͖ͨ w هࣄҰཡͷऔಘࣗಈԽ͍ͨ͠ͳɻߟ͑Δ w #ڃϥΠϑΛόϥ৭ʹ͢ΔͨΊʹࣗવݴޠॲཧͷษڧΛؤுΔ