公開している Notion サイトから人名を抽出して、誤って個人情報を記載していないか検出できるようにしてみた

公開している Notion サイトから人名を抽出して、誤って個人情報を記載していないか検出できるようにしてみた YUMEMI.grow 【自動化特集】

自己紹介

・おかやまん・株式会社ゆめみ３年目・Android、Flutter テックリード・趣味は将棋とプログラミングあっ、自動化も趣味です(笑)

モチベーション

ゆめみでは「ゆめみオープン・ハンドブック」として、社内ドキュメントを外部に公開しています

仕組み

Notion でドキュメントを書いて、それを Super でウェブサイト化しています

Notion × Super 最高！

注意点

ゆめみオープン・ハンドブック配下のページは全て外部に公開される

誤って個人情報が公開されてしまうことがありそう、、

ゆめみオープン・ハンドブックのページ数は 1200 以上

え、、、人力で全てのページを監視するの無理そう、、

自動化すればいっか

個人情報を抽出する

※ 今回は人の名前のみ

作ってみた

Super を利用して構築された Notion サイトから人名を抽出するツール

利用しているもの

・Web ブラウザの操作を自動化・主な目的は Web アプリの UI テストの自動化詳しくは↓ https://www.selenium.dev

・Python で自然言語処理を行うためのライブラリ・解析結果を扱いやすいようにコンポーネント化・速い詳しくは↓ https://spacy.io

・日本語に特化した自然言語処理ライブラリ・spaCy を NLP Framework として使用・日本語 20 億文以上を用いて事前学習詳しくは↓
https://megagonlabs.github.io/ginza

ざっくりコード紹介

requirements.txt

settings.py

main.py

main.py-analyze()

main.py-extract()

outputs.electra.log

課題

・それなりに時間がかかる・ホワイトリスト必要そう・個人情報は人名だけじゃない

いろいろと課題はあるけど、、

自動化はすばらしい！

ご清聴ありがとうございました

More Decks by おかやまん