Slide 1

Slide 1 text

公開している Notion サイトから人名を抽出 して、誤って個人情報を記載していないか 検出できるようにしてみた YUMEMI.grow 【自動化特集】

Slide 2

Slide 2 text

自己紹介

Slide 3

Slide 3 text

・おかやまん ・株式会社ゆめみ3年目 ・Android、Flutter テックリード ・趣味は将棋とプログラミング あっ、自動化も趣味です(笑)

Slide 4

Slide 4 text

公開している Notion サイトから人名 を抽出して、誤って個人情報を記載 していないか検出できるようにしてみ た

Slide 5

Slide 5 text

No content

Slide 6

Slide 6 text

モチベーション

Slide 7

Slide 7 text

ゆめみでは「ゆめみオープン・ハンドブック」として、社内ドキュメントを外部に公開しています

Slide 8

Slide 8 text

仕組み

Slide 9

Slide 9 text

Notion でドキュメントを書いて、それを Super でウェブサイト化しています

Slide 10

Slide 10 text

Notion × Super 最高!

Slide 11

Slide 11 text

注意点

Slide 12

Slide 12 text

ゆめみオープン・ハンドブック配下の ページは全て外部に公開される

Slide 13

Slide 13 text

誤って個人情報が公開されてし まうことがありそう、、

Slide 14

Slide 14 text

ゆめみオープン・ハンドブックのペー ジ数は 1200 以上

Slide 15

Slide 15 text

え、、、 人力で全てのページを監視するの 無理そう、、

Slide 16

Slide 16 text

自動化すればいっか

Slide 17

Slide 17 text

個人情報を抽出する

Slide 18

Slide 18 text

※ 今回は人の名前のみ

Slide 19

Slide 19 text

作ってみた

Slide 20

Slide 20 text

Super を利用して構築された Notion サイトから人名を抽出するツール

Slide 21

Slide 21 text

No content

Slide 22

Slide 22 text

利用しているもの

Slide 23

Slide 23 text

・Web ブラウザの操作を自動化 ・主な目的は Web アプリの UI テストの自動化 詳しくは↓ https://www.selenium.dev

Slide 24

Slide 24 text

・Python で自然言語処理を行うためのライブラリ ・解析結果を扱いやすいようにコンポーネント化 ・速い 詳しくは↓ https://spacy.io

Slide 25

Slide 25 text

・日本語に特化した自然言語処理ライブラリ ・spaCy を NLP Framework として使用 ・日本語 20 億文以上を用いて事前学習 詳しくは↓ https://megagonlabs.github.io/ginza

Slide 26

Slide 26 text

ざっくりコード紹介

Slide 27

Slide 27 text

requirements.txt

Slide 28

Slide 28 text

.env

Slide 29

Slide 29 text

settings.py

Slide 30

Slide 30 text

main.py

Slide 31

Slide 31 text

main.py

Slide 32

Slide 32 text

main.py-analyze()

Slide 33

Slide 33 text

main.py-analyze()

Slide 34

Slide 34 text

No content

Slide 35

Slide 35 text

No content

Slide 36

Slide 36 text

main.py-analyze()

Slide 37

Slide 37 text

main.py-extract()

Slide 38

Slide 38 text

outputs.electra.log

Slide 39

Slide 39 text

課題

Slide 40

Slide 40 text

・それなりに時間がかかる ・ホワイトリスト必要そう ・個人情報は人名だけじゃない

Slide 41

Slide 41 text

いろいろと課題はあるけど、、

Slide 42

Slide 42 text

自動化はすばらしい!

Slide 43

Slide 43 text

ご清聴ありがとうございました