Upgrade to Pro — share decks privately, control downloads, hide ads and more …

法人データの取得と活用 #kazaneya / 20230425

法人データの取得と活用 #kazaneya / 20230425

風音屋30分リサーチ#1「法人データの取得と活用」の資料となります。
法人データ利用を検討する際の参考資料としてご活用ください。

風音屋 (Kazaneya)

April 25, 2023
Tweet

More Decks by 風音屋 (Kazaneya)

Other Decks in Research

Transcript

  1.  横山翔(@yuzutas0 / ゆずたそ) 風音屋 代表取締役 慶應義塾大学にて金融・計量経済学を専攻。リクルートやメルカリにてデータ活用を推進、外資ITを経て、現職。 広告配信の最適化や店舗営業のインセンティブ改善など、データ分析によって数億円規模のインパクトを創出。 100社のデータ経営を実現して各産業の活性化に貢献すべく日々奮闘中。 3
 主な登壇・発表 ・Pythonのカンファレンス

    PyCon JP 2017 ベストトークアワード優秀賞 ・翔泳社主催 Developers Summit 2018 Summer ベストスピーカー賞 ・Google主催 Google Cloud Day 2021 ・日本統計学会 第16回春季集会 主な執筆・出版 ・ITmedia「データ基盤 大解剖」(連載記事) ・技術評論社『実践的データ基盤の処方箋』 ・技術評論社『Software Deign 2020年7月号 - ログ分析特集』 ・『データマネジメントが30分でわかる本』
  2.  「風音屋30分リサーチ」とは 5
 本格的なリサーチには 金額、期間、労力が必要 方向性を決めるだけなら 2割の情報で十分かも… 詳しい人たちにカジュアルに質問して、その回答をスライドにまとめたら 全員のトータル時間「30分」でそれっぽい資料ができるのでは? コスト リターン

    解決案 ・TakeだけでなくGiveを意識:協力者に完成資料を優先提供 + 可能な範囲で外部公開して社会に還元 ・あくまで参考資料に留めるべき:風音屋と接点のない専門家や会社の意見を取り込みにくいため 注意事項
  3.  協力 ・臼井 琴美:一般社団法人 日本データマネジメント・コンソーシアム(JDMC) 事務局 ・北野 信高:株式会社帝国データバンク 営業企画部 課長 ・辻中 仁士:株式会社ナウキャスト 代表取締役CEO

    ・長谷川 亮:デジタル庁 デジタル社会共通機能グループ(風音屋アドバイザー) ・山田 直史:コミュニティ BQ Fun 運営(風音屋アドバイザー) ・前側 将:コミュニティ BIツール研究所 運営(風音屋アドバイザー) ・竹信 瑞基:株式会社風音屋 代表取締役(共同代表) ※順不同・敬称略 ※2022年の資料作成当時のプロフィール情報となります。 7

  4.  目次 • 法人データの取得と活用の全体像 • 法人データの活用について ◦ 法人データによって実現できること ◦ 活用例:メールアドレスから企業名を自動反映 •

    法人データの取得について ◦ 公共機関によるデータ提供 ◦ 民間企業によるデータ販売 ◦ 名寄せのID ◦ システム構成例 8

  5.  公共機関によるデータ提供の例① 【国税庁 法人番号公表サイト】 ・国内企業におけるマスターデータの拠り所と言える。 ・主に「法人番号」「本店所在地」「商号または名称」が結合キーとなる。 ・あくまで国内データなので海外企業との取引がある場合は別途データ整備が必要となる点に注意。 ・WebAPIで履歴を含めて無料で取り放題。不祥事後に社名変更で信用調査をすり抜けようとするケースや  契約当時の旧社名が社内データベースに残っているケースなど、履歴が必要な場面があるので助かる。 ・デジタル庁のレジストリカタログサイトにて、CSV形式(UTF-8)で一括ダウンロード可能。  https://catalog.registries.digital.go.jp/rc/dataset/

    【経産省 gBizINFO】 ・決算公告(官報)と連携し、法人に紐づく資格や特許等を公開している。 ・公的な情報に限られているため、営業や販促の用途に対して、必ずしも網羅性は高くない。 ・truestar社がSnowflakeのMarketplaceで分析しやすい形式のデータを再配布している。 ・BQ FUNがBigQueryのAnalyticsHubで分析しやすい形式のデータを再配布している。  データの取得/加工処理はオープンソースとしてGitHubにて公開されている。  (別のDWHで分析する場合のSnowflakeやBigQueryの位置付けは後ページで解説) 13

  6.  公共機関によるデータ提供の例② 【EDINET】 ・有価証券報告書を閲覧できる。 ・あくまで証券市場向けの情報で、営業や販促の用途に対して、必ずしも網羅性は高くない。 ・バフェットコードがデータを整形して販売している。 ・デジタル庁のレジストリカタログサイト(前頁)にて、XBRL形式で一括ダウンロード可能。 【日本年金機構 事業所検索システム】 ・事業所単位で保険の加入状況を参照できる。 ・決算とは別の視点で企業規模や状態を推定できる。

    ・雇用状況を把握するための参考情報の1つ。 ・あくまで保険の加入状況であり、雇用形態によっては人数にカウントされない点に注意。 ・意図的にデータ統合や横断集計ができない作りになっている。 【RESAS(地域経済分析システム)】 ・地域や産業単位でのマクロ統計を参照可能。 ・RESASのマクロ統計と本社取引データを元に、事業所単位の取引データを推定している研究事例もある。  ・例:筑波大学、帝国データバンク https://www.tdb.co.jp/knowledge/trading/new10.html 14

  7.  名寄せのID 主に国内企業では法人番号、グローバルではD-U-N-S Numberを使うのが一般的と言える。 【法人番号】 ・日本国内の法人を一意に識別できる13桁の番号。国税庁が指定、公表、通知。 ・地方公共団体や人格のない社団・財団であっても各届出書の提出時に発番される。 【D-U-N-S Number】(参考: https://www.tsr-net.co.jp/service/online/get-a-duns-number/index.html) ・世界の企業を一意に識別できる9桁の企業コード。Dun

    & Bradstreet (D&B) が開発・管理。 ・日本企業については東京商工リサーチが管理し、約400万社に発番している。新規申請は有料。 ・国際連合(UN/EDIFACT)、国際標準化機構 (ISO)、欧州委員会 (EDIRA)等で利用されている。 ・WEBサービス開発会社だと、Apple Developerへの法人登録時に求められる。 20
 法人番号 ・日本企業 ・530万件 D-U-N-S Number ・グローバル ・4億件 400万件 400万件
  8.  構成例:SnowflakeやBigQuery経由でデータを統合する SnowflakeやBigQueryでオープンデータや外部データを入手し、別のDWHで分析する場合、 SnowflakeやBigQueryはデータソースの入手経路の1つに位置付けられる 21
 データ活用 データ活用 データ活用 経産省 gBizINFO ◯◯銀行

    為替データ Google Analytics Snowflake BigQuery 自社DB S3 データソース 入手経路* ・システム構成によっては Staging Areaや踏み台サーバと呼ぶこともある。 ・グローバルではこの層のストレージ( S3等)をデータレイクと呼ぶ。  例:レイクハウスアーキテクチャにおけるデータレイクは主にここを指す。 データレイク層 データマート層 自社のデータ基盤
  9.  構成例:MDMを経由して法人データを利用する 基幹システムとデータ分析環境の両方で使うような場合は、 MDM(マスターデータ管理)システムを経由して各システムに連携する。 22
 国税庁 法人番号一覧 MDMシステム 基幹システム 分析システム 配布用

    データ オリジナル 保存 経産省 gBizINFO  MDMについては『データマネジメントが30分でわかる本』を参照。  例:  ・MDM製品を新規に導入する  ・社内向けの管理システムを構築する  ・S3などのストレージをマスタデータの置き場とする  ・スプレッドシートで配布する
  10.  データ人材を積極採用中! 一緒に法人データを活用していきましょう。 お手本となるような成功事例を作って登壇・出版を目指せる環境です。 24
 データアナリスト データエンジニア データコンサルタント 法人データを マーケ分析に活かして ビジネス成長を

    加速させましょう! 法人データを システムに自動連携して 世の中から非効率な業務を 撲滅させましょう! 法人データの 活用プロジェクトを 立案・推進して 成功に導きましょう!