Slide 1

Slide 1 text

この世の無限地獄はオープン データ活用への道のりにあり バッドオープンデータデータ供養寺 株式会社自動処理 株式会社ミーカンパニー CDO コードフォージャパン フェロー 高木 祐介

Slide 2

Slide 2 text

自己紹介 高木祐介 意見募集プラットフォームである デジタル改革アイデアボックス開発元の 株式会社自動処理 代表取締役 病院薬局介護施設など医療系の オープンデータを取引先マスタデータに 仕立て直して販売する狂気の会社 ミーカンパニー CDO

Slide 3

Slide 3 text

昨年の復活からの今年も 参加になりました。 4年連続参加になりました ※2回目の参加の様子です

Slide 4

Slide 4 text

少しだけ告知をさせて下さい。 現在、デジタル庁さん、三重県さ ん、高松市さんに、 意見募集プラットフォームである アイデアボックスを使っていただ いています。 告知! ※デジタル改革アイデアボックス(内閣官房) https://ideabox.cio.go.jp/ ※たかまつアイデアFACTORY(高松市) https://ideabox.smartcity-takamatsu.jp/ ※みえDXアイデアボックス(三重県) https://idea-mie.jp/

Slide 5

Slide 5 text

アイデアボックス2.0開発 推進中! 年度末まで無償でベータ版 を使ってもらえる団体さん を10団体程度募集してま す。 Slackやメールで連絡くだ さい。 ※アイデアボックス https://ideabox.automation.jp/

Slide 6

Slide 6 text

気を取り直して本題に

Slide 7

Slide 7 text

みなさん供養してますか?

Slide 8

Slide 8 text

私はオープンデータを供養 する事を仕事にしています =地獄

Slide 9

Slide 9 text

今日はそんな供養業務の中で、 法人情報に対して 法人番号を付与する業務 を行っている時の話をします。

Slide 10

Slide 10 text

法人番号付与とは? 医療法人和三会 北海道石狩市厚田区厚田30 7430005012395 法人番号公表サイトを調査 お客様データ

Slide 11

Slide 11 text

作業開始前の話

Slide 12

Slide 12 text

2021年X月XX日(金)16時翌日 から休みのタイミングでそれ は起こった。。。

Slide 13

Slide 13 text

営業『大変です。2万件のお客さんデータ に対して、法人番号付与の緊急依頼 が!』 僕『ふーん、いつも通り納期1〜2週間で 受けておけばいいよ。』 営業『なんかお客さんが怒ってまして、 今すぐ作業しろと聞かないんです。』 僕『え?なんで怒ってるの?』

Slide 14

Slide 14 text

営業 『わかりません!』

Slide 15

Slide 15 text

地獄ポイントその1 基本的にマスタデータの整備は システム開発プロジェクトの中に入っておらず、 開発終盤で気づき、緊急発注になることがある。 データ分析用の前処理にもみんな時間がかかる とは思っていない。 その為、お客さんに余裕がないケースも多いの だ。

Slide 16

Slide 16 text

営業『先方のプロジェクトに期限があるらし くて、とにかくやってくれという一点張りな んです。』 僕『まじかー。じゃあ、やるかー。』

Slide 17

Slide 17 text

僕『とりあえずデータください。』 営業『これです。どうぞ』

Slide 18

Slide 18 text

僕『!?・・・ これはすごい。』

Slide 19

Slide 19 text

地獄ポイントその2 データが使いやすいかどうかは、受 け取ってみるまでわからない。 地獄の窯の蓋が空く音がしてきます ね。。。

Slide 20

Slide 20 text

作業開始

Slide 21

Slide 21 text

データ利活用までのフローをおさらい 収集 形式変換 クレンジング 利用

Slide 22

Slide 22 text

データ利活用までのフローをおさらい 収集 形式変換 クレンジング 利用

Slide 23

Slide 23 text

• 法人データ • 法人番号ポータルから情報をダウンロード • 月次データはCSV、ほぼリアルタイムデータ や詳細な履歴データはAPI ■ API処理の事前準備としてAPIキーの申 請、発行

Slide 24

Slide 24 text

• CSVデータ • 一括ダウンロード 愚痴 その1 可能なら、資料を見ないでいいように、 項目名を追加して欲しい データ

Slide 25

Slide 25 text

• APIデータ • 1件づつリクエスト メタ情報 データ 愚痴 その2 出来れば メタ情報とデータは分けてほしい。 愚痴 その3 可能なら、資料を見ないでいいよう に、項目名を追加して欲しい

Slide 26

Slide 26 text

地獄ポイントその3 データカタログが整備されており、シンプ ルなデータ形式にまとまっていれば収集は 簡単。 情報がどこにあるかわからない事も多い。 事前申請しないと情報が収集できない場合 があるし、場合によっては紙しかスキャン させてもらえない時もある。 API形式の場合は使いやすくて柔軟だが、開 発が発生する可能性を考慮すること。 ※今回の場合、法人番号データ分、600万回 APIを実行して最新化しました。

Slide 27

Slide 27 text

• お客様データ • 3部署からのお客様データを受領

Slide 28

Slide 28 text

• 部署Aからのデータ(Excel) • 部署Bからのデータ(Excel) • 部署Cからのデータ(Excel) データ形式については、全てExcelな為、特に問 題なし。更新日時は統一されていない。

Slide 29

Slide 29 text

地獄ポイントその4 データ管理がしっかりとしている組織からの 情報収集は簡単。 世の中に存在するデータのほぼ全ては、入力 時点の部分更新データ。いつ時点データなん てものは利用先には存在しない。

Slide 30

Slide 30 text

データ利活用までのフローをおさらい 収集 形式変換 クレンジング 利用

Slide 31

Slide 31 text

• 法人データ • 収集された法人のCSVデータを取り込む • 収集された法人のAPIデータを取り込む • APIにあれば更新、なければCSVをそのまま取り 込む形でインポート

Slide 32

Slide 32 text

データベースサーバーに取り込み

Slide 33

Slide 33 text

地獄ポイントその5 機械可読性があれば、プログラムを 作れれば変換は簡単。 プログラムが作れないと、予算発生 により地獄に変わる可能性もある。

Slide 34

Slide 34 text

• お客様データ • Excelデータを統一的な利活用フォーマット に変換(マッピング)。 • データベースにインポート

Slide 35

Slide 35 text

データベースサーバーに取り込み

Slide 36

Slide 36 text

地獄ポイントその6 読み取りがしやすいフォーマットで最初 からもらう事が出来れば、インポートは 簡単。 様式がバラバラでデータ項目に差がある 場合にはマッピングが大変なことも。 全く違うフォーマットであり情報から項 目名が推測できない場合は、問い合わせ が発生するが、項目の意味を担当が分か っていない場合、少し大変になるかも。

Slide 37

Slide 37 text

データ利活用までのフローをおさらい 収集 形式変換 クレンジング 利用

Slide 38

Slide 38 text

• 法人データ・お客様データ • データ変換が終わると、データクレンジング工程に 入る。

Slide 39

Slide 39 text

改めてデータ一つ一つを見てみまし ょう。

Slide 40

Slide 40 text

複数組織から情報を集めると重複しがち。 運用ルールも違う事が多い。データ管理 が甘いと単一組織でも重複する事がある。

Slide 41

Slide 41 text

不要な文字列の混入

Slide 42

Slide 42 text

住所がない

Slide 43

Slide 43 text

電話番号の形式が不統一

Slide 44

Slide 44 text

• 他にもありますが、こういった形でデータに エラーがあった場合には、正常なデータに変 換しないといけません。 • データによって変換が必要になるので、この 後、クレンジングケースを少し紹介します。

Slide 45

Slide 45 text

氏名、法人名、事業所名変換 • 姓、名分割名前形式を、名前1項目に統合 • 田中 太郎 → 田中太郎 • 一部の省略ケース • 株)自動処理 → 株式会社自動処理 自動変換可能パターン例 • 正しい漢字が分からない。 • 高木祐介という名前について、髙木祐介が正しかったとしても自動変換は出 来ない。 • 姓名分割の分割場所がわからない。 • 田中太郎 →田中 太郎 (田中 苗字ランキング 4位) • 田中太郎 →田 中太郎 (田 苗字ランキング 8,074位) • 複数パターンある省略 • 医) →医療法人、医療法人社団、医療法人財団のどれか • 山大 →山口大学か山形大学のどちらか 自動変換困難パターン例

Slide 46

Slide 46 text

電話番号変換 •形式変換 •03-3543-021 •033543021 •(03)3543-021 •033543021 •国際番号変換 •+81-3-3543-021 •+81(3)3543-021 自動変換可能パターン例 •市外局番が欠落 • 35430211 (Excelなどで先頭の0の文字が欠けがちです) •不正な文字が混入 •084-926-0139 日曜日・祝日は担当者携帯電話 •複数電話番号が混入 •0974-75-2124、もしくは、0974-42-2270 自動変換困難パターン例

Slide 47

Slide 47 text

住所変換 • 住所形式違い • 東京都豊島区東池袋3丁目1番1号サンシャイン60・43階・20号 • 東京都豊島区東池袋3丁目1番1号サンシャイン60 4320号 • 東京都豊島区東池袋3-1-1 サンシャイン60 4320号 • 東京都豊島区東池袋サンシャイン60(43階)20号 • 東京都豊島区東池袋サンシャイン60 F43 20号 • 異体字変換 • 宮城県塩釜市字杉ノ入裏39-176 • 宮城県塩竃市字杉ノ入裏39-176 • 宮城県塩竈市杉ノ入裏39-176 • 緯度系譜度付与 • 住所から郵便番号(90%前後)付与 • 住所から緯度経度(70%前後)付与 • 名称変更・市区町村合併の対応 自動変換可能パターン例

Slide 48

Slide 48 text

住所変換 •一丁目の一がハイフンになっている •東京都中央区築地一丁目1番1号 •複数の書き方がある文字列 •兵庫県加古川市上荘町井ノロ390ー2 •兵庫県加古川市上荘町井野ロ390ー2 •兵庫県加古川市上荘町井乃ロ390ー2 •法人登記に存在する平成以前の旧住所 •東京市小石川区久堅町91番地(東京市小石川区は現在の東京都文京区) •別の文字が利用されている •兵庫県加古川市上荘町井ノロ390ー2(ロの文字がカタカナ) •北海道北見市留辺蕊町旭公園95-4(蕊の文字が書き間違いで本来は蘂) •茨城県つくば市白井2090-20 (白の文字が書き間違いで本来は臼) •文字が欠けている •南区御幸笛田7丁目13-21(熊本県熊本市が欠けている) •静岡県浜松市浜北区貴布1200(貴布祢の祢が欠けている) •不正な文字が入力されている •〒305-0005 茨城県00000つくば市天久保2-1-1 (郵便番号や意味のない数字が含まれている) 自動変換困難パターン例

Slide 49

Slide 49 text

対応困難ケース 対応が困難なケース-表記ゆれが存在する

Slide 50

Slide 50 text

対応困難ケース 対応が困難なケース-誤った項目に情報が公開されている

Slide 51

Slide 51 text

対応困難ケース 対応が困難なケース-誤った項目に情報が公開されている IMSグループ グループ名 医療法人社団明芳会 法人名 イムス板橋リハビリテーション病院 事業所名 訪問リハビリテーション事業所 サービス名業 マルマツ薬局 九段 店 事業所名 店舗名 参考)店舗名がないケースが混在している

Slide 52

Slide 52 text

対応困難ケース 対応が困難なケース-1つの項目に複数の同じ意味のデータが格納されてい る

Slide 53

Slide 53 text

対応困難ケース 徳島県小松島市坂野町 字 橿 延50番地 対応が困難なケース-外字、情報が欠けている 橿 延神社 縮退先のない外字 途中までしか住所が格納されていない

Slide 54

Slide 54 text

対応困難ケース 対応が困難なケース-誤った情報が含まれている 日本赤十字社の代表として公開されてい る 代表者名 8パターン 近藤忠煇 ← 誤字 近藤忠輝 ← 誤字 近衛忠 ← 誤字・文字欠け 近衛忠煇 ← 誤字 近衛忠輝 ← 誤字 近衞忠 ← 文字欠け 近衞忠煇 ← 正解 近衞忠輝 ← 誤字

Slide 55

Slide 55 text

対応困難ケース 対応が困難なケース-名寄せをする為のID(番号)を判別する情報が存在しない 名称・住所がほぼ同じで別法人番号 建物ありなしで別法人番号 法人名の大文字小文字違いで別法人番号 名称・住所が同一で別法人番号

Slide 56

Slide 56 text

対応困難ケース 対応が困難なケース-その他 データの意味を表す表側 が 空白のレコードが存在 する。 同上や〃などを利用して 別セルを指示する繰り返し文字がある 土地区画整理事業内など住所が未確定な場合がある 項目に対応しない文字列が格納されている。 その他 メタデータ ・データの主幹の記載がない為、どこに問い合わせしていいかわか らない。 ライセンス ・ライセンスの記述がない為、どこまで自由に使っていいのかわか らない。 あり・なしで回答されている ・ホームページURLを記入する個所に『あり』と記載されている

Slide 57

Slide 57 text

地獄ポイントその∞ 入力時点で標準化されていないデー タを後から直すのは大変なので、最 初に標準化して、入力時点チェック をしましょう。 クレンジングは抽象化して整理しず らい為、あまり資料化されたものは 見たことはありませんが、クレンジ ングこそ本当の地獄です。

Slide 58

Slide 58 text

データ利活用までのフローをおさらい 収集 形式変換 クレンジング 利用

Slide 59

Slide 59 text

ここまできてようやく利用になります。 • そう我々の戦いはまだ始まってもいな かったのです。 • データ利活用の道はまだまだ遠い。 • バッドデータを供養するのはかなり大 変です。最初からグッドデータで作り ましょう。。。

Slide 60

Slide 60 text

ご清聴ありがとうございました。 アイデアボックスに関する問い合わせは [email protected] まで