YUMEMI.grow 【自動化特集】の発表資料です。
https://yumemi.connpass.com/event/257184/
公開している Notion サイトから人名を抽出して、誤って個人情報を記載していないか検出できるようにしてみたYUMEMI.grow 【自動化特集】
View Slide
自己紹介
・おかやまん・株式会社ゆめみ3年目・Android、Flutter テックリード・趣味は将棋とプログラミングあっ、自動化も趣味です(笑)
公開している Notion サイトから人名を抽出して、誤って個人情報を記載していないか検出できるようにしてみた
モチベーション
ゆめみでは「ゆめみオープン・ハンドブック」として、社内ドキュメントを外部に公開しています
仕組み
Notion でドキュメントを書いて、それを Super でウェブサイト化しています
Notion × Super 最高!
注意点
ゆめみオープン・ハンドブック配下のページは全て外部に公開される
誤って個人情報が公開されてしまうことがありそう、、
ゆめみオープン・ハンドブックのページ数は 1200 以上
え、、、人力で全てのページを監視するの無理そう、、
自動化すればいっか
個人情報を抽出する
※ 今回は人の名前のみ
作ってみた
Super を利用して構築された Notion サイトから人名を抽出するツール
利用しているもの
・Web ブラウザの操作を自動化・主な目的は Web アプリの UI テストの自動化詳しくは↓https://www.selenium.dev
・Python で自然言語処理を行うためのライブラリ・解析結果を扱いやすいようにコンポーネント化・速い詳しくは↓https://spacy.io
・日本語に特化した自然言語処理ライブラリ・spaCy を NLP Framework として使用・日本語 20 億文以上を用いて事前学習詳しくは↓https://megagonlabs.github.io/ginza
ざっくりコード紹介
requirements.txt
.env
settings.py
main.py
main.py-analyze()
main.py-extract()
outputs.electra.log
課題
・それなりに時間がかかる・ホワイトリスト必要そう・個人情報は人名だけじゃない
いろいろと課題はあるけど、、
自動化はすばらしい!
ご清聴ありがとうございました