Link
Embed
Share
Beginning
This slide
Copy link URL
Copy link URL
Copy iframe embed code
Copy iframe embed code
Copy javascript embed code
Copy javascript embed code
Share
Tweet
Share
Tweet
Slide 1
Slide 1 text
公開している Notion サイトから人名を抽出 して、誤って個人情報を記載していないか 検出できるようにしてみた YUMEMI.grow 【自動化特集】
Slide 2
Slide 2 text
自己紹介
Slide 3
Slide 3 text
・おかやまん ・株式会社ゆめみ3年目 ・Android、Flutter テックリード ・趣味は将棋とプログラミング あっ、自動化も趣味です(笑)
Slide 4
Slide 4 text
公開している Notion サイトから人名 を抽出して、誤って個人情報を記載 していないか検出できるようにしてみ た
Slide 5
Slide 5 text
No content
Slide 6
Slide 6 text
モチベーション
Slide 7
Slide 7 text
ゆめみでは「ゆめみオープン・ハンドブック」として、社内ドキュメントを外部に公開しています
Slide 8
Slide 8 text
仕組み
Slide 9
Slide 9 text
Notion でドキュメントを書いて、それを Super でウェブサイト化しています
Slide 10
Slide 10 text
Notion × Super 最高!
Slide 11
Slide 11 text
注意点
Slide 12
Slide 12 text
ゆめみオープン・ハンドブック配下の ページは全て外部に公開される
Slide 13
Slide 13 text
誤って個人情報が公開されてし まうことがありそう、、
Slide 14
Slide 14 text
ゆめみオープン・ハンドブックのペー ジ数は 1200 以上
Slide 15
Slide 15 text
え、、、 人力で全てのページを監視するの 無理そう、、
Slide 16
Slide 16 text
自動化すればいっか
Slide 17
Slide 17 text
個人情報を抽出する
Slide 18
Slide 18 text
※ 今回は人の名前のみ
Slide 19
Slide 19 text
作ってみた
Slide 20
Slide 20 text
Super を利用して構築された Notion サイトから人名を抽出するツール
Slide 21
Slide 21 text
No content
Slide 22
Slide 22 text
利用しているもの
Slide 23
Slide 23 text
・Web ブラウザの操作を自動化 ・主な目的は Web アプリの UI テストの自動化 詳しくは↓ https://www.selenium.dev
Slide 24
Slide 24 text
・Python で自然言語処理を行うためのライブラリ ・解析結果を扱いやすいようにコンポーネント化 ・速い 詳しくは↓ https://spacy.io
Slide 25
Slide 25 text
・日本語に特化した自然言語処理ライブラリ ・spaCy を NLP Framework として使用 ・日本語 20 億文以上を用いて事前学習 詳しくは↓ https://megagonlabs.github.io/ginza
Slide 26
Slide 26 text
ざっくりコード紹介
Slide 27
Slide 27 text
requirements.txt
Slide 28
Slide 28 text
.env
Slide 29
Slide 29 text
settings.py
Slide 30
Slide 30 text
main.py
Slide 31
Slide 31 text
main.py
Slide 32
Slide 32 text
main.py-analyze()
Slide 33
Slide 33 text
main.py-analyze()
Slide 34
Slide 34 text
No content
Slide 35
Slide 35 text
No content
Slide 36
Slide 36 text
main.py-analyze()
Slide 37
Slide 37 text
main.py-extract()
Slide 38
Slide 38 text
outputs.electra.log
Slide 39
Slide 39 text
課題
Slide 40
Slide 40 text
・それなりに時間がかかる ・ホワイトリスト必要そう ・個人情報は人名だけじゃない
Slide 41
Slide 41 text
いろいろと課題はあるけど、、
Slide 42
Slide 42 text
自動化はすばらしい!
Slide 43
Slide 43 text
ご清聴ありがとうございました