Upgrade to Pro — share decks privately, control downloads, hide ads and more …

学習院大学 経済学特殊講義 #社会科学のための実践的データサイエンス 2020年春 5/11

学習院大学 経済学特殊講義 #社会科学のための実践的データサイエンス 2020年春 5/11

学習院大学 経済学特殊講義
#社会科学のための実践的データサイエンス 2020年春 5/11
5.企業にまつわるエトセトラ
5.1.データの可用性とプライバシー
5.2.企業データの使い方
5.3.特許データの使い方

yasushihara

June 11, 2020
Tweet

More Decks by yasushihara

Other Decks in Business

Transcript

  1. 今日の内容 • 16:10-16:20 • プレ講義 [録画なし] • 16:20-16:40 • 5.1データの可用性とプラ

    イバシー [録画あり] • 16:40-16:50 • インターミッション[録画な し] • 16:50-17:10 • 5.2 企業データの使い方 [録画あり] • 17:10-17:20 • インターミッション2[録画 なし] • 17:20-17:40 • 5.3 特許データの使い方 [録画]
  2. cont. • 【原因】 リクナビでは、2019年3月に『リクナビDMPフォロー』について言及したプライバシー ポリシーへ変更いたしました。学生の皆さまが使用する複数の画面においてプライバ シーポリシーに同意いただくサイト構成になっていますが、一部の画面においてその反 映ができていませんでした。 • また、プライバシーポリシー変更の際には、『リクナビDMPフォロー』で分析スコアの 対象となるすべての学生から適切な同意が取得できるよう設計すべきところ、考慮が漏

    れてしまっておりました。 • 【本件同意取得不備の対象となる学生の皆さま】 『リクナビ2020』に会員登録されている学生の皆さまの内、2019年3月以降にプレエン トリー・イベント予約・説明会予約・ウェブテスト受検等の機能を利用されていない方 で、かつ、『リクナビDMPフォロー』を導入した企業への応募者の中で2019年3月以降 に『リクナビDMPフォロー』の分析スコアの対象となった方 • ※なお、『リクナビDMPフォロー』は『リクナビ2020』利用企業向けに提供しているも ので、『リクナビ2021』利用企業には提供されておりません。そのため、『リクナビ 2021』をご利用の学生の皆さまにつきましては、同サービスの影響は一切ございません。 https://www.recruitcareer.co.jp/news/pressrelease/2019/190805-01/
  3. 8/1 時点, 最初のプレスリリース • <サービスの内容> リクナビDMPフォローは、当該採用企業における前年度の応募学生のリクナビ 上での行動ログなどのデータを解析の対象に、その企業に対する応募行動につい てのアルゴリズムを作成します。そこに、今年度に当該採用企業に応募する学生 の行動ログを照合。その結果を「採用選考のプロセスが途絶えてしまう可能性」 として企業に提示することで、企業は適切なフォローを行うことができ、学生に

    とっては、企業とのコミュニケーションを取る機会を増やすことができます。 • 学生の応募意思を尊重し、合否の判定には当該データを活用しないことを企業に 参画同意書として確約いただいています。コミュニケーション不足による「学生 からの辞退」という企業学生双方にとって不本意なマッチングに終わりかねない 状況に対し、誰に、いつ、どのようなフォローを行うかというコミュニケーショ ン設計の一助にしてもらうことを目的に、提供してきました。 • なお、本サービスは、2018年3月のサービス開始以降、38社に対して、試験的な 運用を積み重ねてきました。 https://www.recruitcareer.co.jp/news/pressrelease/2019/190801-02/
  4. 最初のプレスリリース (cont.) • 【本サービスにおける個人情報の取り扱いについて】 これまで本サービスでは、学生が当社の就職情報サイト「リクナビ」にご登録いただく際にご同意 いただいたプライバシーポリシーに基づき、リクナビサイト上での行動履歴の解析結果を取引企業 に対して提供しておりました。 プライバシーポリシー https://job.rikunabi.com/2020/general/move/?screen=navg/help/privacy_policy.html •

    なお、本サービスで企業に提供されるデータは、リクナビの閲覧データをもとに算出されたスコア であり、学生の能力を推し量るものではありません。この点、いかなる時期であっても提供された 情報を合否の判定に活用しないことにご同意いただいた企業にのみ、本サービスをご提供してきま した。ご利用いただいている企業には当社から定期的に利用状況の確認をさせていただいておりま す。 【今後の対応につきまして】 本サービスの提供にあたっては、各種法令にも照らしつつ、学生の個人情報保護を最優先にサービス の設計や各種規約を整備してまいりました。しかしながら、昨今では個人情報保護に関する社会の認 識も大きく変化しております。海外におけるルール整備の潮流も受け、本日の一部報道にもあります 通り、関係各所から当社のプライバシーポリシーの表現が学生に伝わりにくいものとなっているので はないかとご意見をいただきました。こうした背景から、2019年7月31日(水)をもって、サービス 提供を一時休止させていただくことを決めました。学生の個人情報がどのように企業に提供されてい くのか、よりわかりやすい表現や説明方法を検討し終えるまで、本サービスは一時的に休止いたしま す。このたびは、多大なご迷惑をおかけしますこと、申し訳ございません。 https://www.recruitcareer.co.jp/news/pressrelease/2019/190801-02/
  5. 毎日新聞の論説 • “政府の個人情報保護委員会は、リクナビを運営するリ クルートキャリアが学生に無断で「内定辞退率」予測を 売ったのは個人情報保護法に違反すると認定し、是正勧 告を出した。委員会発足以来初の勧告だった。 • 委員会は「人生を左右しうる就職に関する個人情報を 扱いながら、適切な法令順守を行っていない」と指弾し た。だが、違法と認定されたのは「内定辞退率」を販売

    された就活生約7万5000人のうち、約8000人に 過ぎない。 • リクナビ側が会員登録時のプライバシーポリシー(個 人情報の利用規約)で「採用活動補助のために利用企業 に情報提供することがある」と記していたからだ。大半 の就活生は、この説明で「内定辞退率」の算出や企業へ の販売に同意したとみなされていた。違法とされたのは、 事務手続きの不備で形式的な同意さえ取っていなかった 分だけだ。 • 保護法は、企業が集めた個人データを第三者に提供す る場合、原則として本人に事前の同意を取ることを義務 付けている。ただ、「同意」の定義が明確でなく、リク ナビのようなあいまいな説明でも通用してしまう問題が ある。” https://mainichi.jp/articles/20190919/ddm/004/070/016000c
  6. Privacy and Confidentially • 従来のデータ分析 • 統計表になっていれば、個人属性の情報や企業情報は集約されること で消えていた • ビッグデータ時代の分析

    • 統計表では解析できない、ロングテールを解析することで興味深い ファクトを見つけ出すことが出来る • 個人がマスクされている情報を用い解析することが重要だが、複数の データソースを組み合わせることで、どこの誰か特定出来てしまう
  7. データに含まれている個人情報 • 特許データ • 発明者の所属, 自宅またはオフィスの住所 • 論文データ • 著者の所属,

    オフィスの住所, メールアドレス • 家計調査データ • 年収、家族構成、性別 etc… ⇒ 実証的に経済学の課題を理論に基づき解析するにはこれらのデータを 用いることが必要不可欠。だが、こうしたデータを使うときには、個人 情報への留意が重要。
  8. Definition: Privacy and Confidentially • Privacy • Privacy encompasses not

    only the famous ‘right to be left alone’ or keeping one’s personal matters and relationships secret, but also the ability to share information selectivity but not publicly. • Confidentially • Confidentiality is preserving authorized restrictions on information access and disclosure, including means for protecting personal privacy and proprietary information.
  9. Privacy Utility Tradeoff Initial Utility/Privacy Frontier Frontier after increase in

    external Data U* utility P2 P1 Privacy ・プライバシーと、データの可用性に よる利便性の間にはトレードオフの関 係 ・データが外部化されると、プライバ シーを確保するのは困難になる
  10. 多変量解析におけるプライバシーの課題 • 特定のグループやサブサンプルにおける特性を抽出すると、最 終的には何処の誰かか抽出出来てしまう • Ex. ) 特定の家計や所得のグループが特定のひとりの場合, 個人が特定 出来る

    • 具体例 • 国立大学法人一橋大学の役職員の報酬・給与等について • http://www.hit-u.ac.jp/guide/information/salary.html • 教授はともかく、該当する役職が1-2名の給与は公開されていない
  11. ローソン、ビッグデータ分析で「街」を もっと幸せに • “徒歩5分以内、距離にして半 径わずか354メートルという 狭い商圏で競い合う” • “ローソンの場合は、わずか1 割に過ぎない「ヘビーユー ザー」の売り上げが全体の6

    割以上を占め、これに「ミド ルユーザー」を加えた約25% の顧客の売り上げ比率は8割 以上になる” 引用: https://marketing.itmedia.co.jp/mm/articles/1303/07/news024.html
  12. The Importance of activity in the tails • The Latest

    Data indicate that more than 20 percent of all personal health care spending in 2009 ($275 billion) was on behalf of just 1 percent of the population.
  13. データの接合により個人が特定できてし まう危険性 家計調査 個人名 年収 性別 婚姻有無 職業 ID 住所

    郵便番号 特許データベース 個人名 特許名 特許概要 発明者住所 発明者郵便番号 特許 Claim 特許番号 この2つを組み合わせると、ある発明者A がどこに住んでいて、どれだけ特許を出し ていて 年収がいくらで、結婚の有無、性別などが すべて特定出来てしまう
  14. データの接合により個人が特定できてし まう危険性(cont.) 家計調査 個人名 年収 性別 婚姻有無 職業 ID 住所

    郵便番号 特許データベース 個人名 特許名 特許概要 発明者住所 発明者郵便番号 特許 Claim 特許番号 そこで、家計調査などのデータベースは個 人名や住所の細かな情報がマスクされる ⇒ ところが, 住所の一部, 郵便番号などを用 い, 尤度を測定することでデータベース間を 接合することで特定出来てしまう可能性が ある
  15. データの接合により個人が特定できてし まう危険性(cont..) 家計調査 個人名 年収 性別 婚姻有無 職業 ID 住所

    郵便番号 特許データベース 個人名 特許名 特許概要 発明者住所 発明者郵便番号 特許 Claim 特許番号 SNS 個人名 アカウント名 犬の名前 周辺の地図 よく行くレストラン ママ友 子供の好きなおもちゃ データの帰属のあいまいなデータを接合する ことで、より個人の情報を把握できる可能性 がある
  16. Knowledge is Power • “Big Data” has great potential to

    benefit society. At the same time, its availability creates significant potential for mistaken, misguided or malevolent uses of personal information. • The conundrum for the law is to provide space for big data to fulfill its potential for social benefit, while protecting citizens adequately from related individual and social harms. Current privacy law evolved to address different concerns and must be adapted to confront big data’s challenges.”
  17. 従来 (またはビッグデータ時代以前) の データセット • PII 情報の管理さえに留意していれば、データの接合でプライ バシーが流出することは防げていた • PII

    (Personal Identifiable Information) • Any Information About an individual maintained by an agency, including (1) any information that can be used to distinguish or trace an individual’s identity, such as name, social security number, data and place of birth, mother’s maiden name, or biometric records; and (2) any other information that is linked or linkable to an individual, such as medical, educational, financial, and employment information. • 日本の場合 • 保険番号, パスポート番号, 名前, 住所, マイナンバー(ここ数年)
  18. データバイアス • リサーチクエスチョンに正しく 対応しないデータセットを選ん でしまう危険性 • 対照群 (control group) が設定

    されていない危険性 • “Similarly, overreliance on, say, Twitter Data, in targeting resources after harricanes can lead to misallocation of resources towards young, Internet-savvy people with cell phones and away from elderly or impoverished neighbourhoods” https://azanaerunawano5to4.hatenablog.com/ entry/2015/09/03/101948
  19. データインフラストラクチャの重要性 • 個人の匿名性を担保した上で、マイクロなデータを含むデータセッ トを提供することで、「安全な」ビッグデータ解析を可能にする • アメリカ • Sloan Digital Sky

    Survey • Polymath project • Longitudinal Business Database • Longitudinal Employer Household Dynamics • ヨーロッパ • RISIS • 日本 • 東京大学社会科学研究センター • CAREE/TDB
  20. データの提供形態 • 統計局におけるデータ提供形式 • 表形式の集約データ/統計表 • ライセンス契約に基づく Raw Data の提供

    • セマンテックデータでの提供 (これも講義の別の回で詳しく) • EUの場合 • RDF などのセマンテックデータの提供度合いが高まりつつある • 日本の場合 • Excel の統計表または, (フォントが埋め込まれていない)PDF データが 中心
  21. Statistical Disclosure control Techniques • Statistical Disclosure Control • Concepts

    and Methods that ensure the confidentiality of micro and aggregated that are to be published. It is methodology used to design statistical outputs in a way that someone with access to that output cannot relate a known individual (or other responding unit) to an element in the output.
  22. データの提供形態 (cont.) • 統計表 • 他のデータセットと接合できないため、マクロまたはメソレベルでの 解析にとどまってしまう • 分散表などの提供も •

    個人データをマスクした形式での提供 • 個人の再特定が可能な場合も (前述) • ライセンス契約ベースの提供になるので、管理が煩雑に • セマンテックデータでの提供 • 個人は特定されない • メタ化された情報同士をつなぎ合わせるので、個人IDを保有する必然 性がない
  23. Research Data Centers • 特定のデータセットを, SaaS 形式で提供する • 個人の研究者が、ローカルに データを保持する必要性が生

    じない • マスクあるいは処理された データのみを入手可能 • 日本だと限定的 • ヨーロッパだとRISISが代表 的
  24. ビッグデータを匿名化することは可能か? • “It is also nearly impossible to anonymize data.

    Big Data are often structured in such a way that essentially everyone in the file is unique, either because so many variables exist or because they are so frequent or geographically detailed, that they make it easy to reidentify individual pattarns.” • “There are no data stewards controlling access to individual data. Data are often so interconnected (think social media network data) that one person’s action can disclose information about another person without that person even knowing that their data are being accessed.”
  25. Tカード、「個人情報を令状なしで警察に提 供」に批判 個人情報保護委員会に問題ない か聞いてみた • ポイントカード「Tカード」を運営するカ ルチュア・コンビニエンス・クラブ(以 下、CCC)が、利用者の会員情報や利用 履歴を令状なしで捜査機関に提供してい たとの報道を受け、議論を呼んでいます。

    • “CCCは「2012年から、『捜査関係事項照 会書』があった場合にも、(中略)捜査 機関に協力してまいりました」とコメン トしています。これについて個人情報保 護委員会に聞いたところ、「個別の案件 について、報道の内容だけでマルかバツ かは言いづらいものの、限りなく法令に 基づくものと考えられます」とコメント。 また、法令に基づく照会に対する個人情 報提供は、行うことを利用規約に書いて いなくても「全く問題ない」との見解で した。” 引用: https://nlab.itmedia.co.jp/nl/articles/1901/24/news080 .html
  26. 個人のデータを如何に保護するか? • “Rather than attempt to deanonymize medical records, for

    instance, an attacker (or commercial actor) might instead infer a rule that relates a string of more easily observable or accessible indicators to a specific medical condition, rendering large populations vulnerable to such inferences even in the absence of PII. Ironically, this is often the very thing about big data that generate the most excitement: the capability to detect subtle correlations and draw actionable inferences. But it is this same feature that renders the traditional protections afforded by anonymity (again, more accurately, pseudosymmetry) much less effective.”
  27. 個人のデータを如何に保護するか? (cont.) • The Value of Anonymity inheres not in

    namelessness, and not even in the extension of the previous value of namelessness to all uniquely identifying information, but instead to something we called “reachability, ” the possibility of knocking on your door, hauling you out of bed, calling your phone number, threatening you with sanction, holding you accountable – with or without access to identifying information.
  28. 日本での事例 • “問題提起型の投稿は、世間の関心を集めやすいため、アクセス数を稼ぎたいまとめサイ トの管理人がすぐに寄ってきて記事を引用していきます。 • まとめサイトは投稿の内容を深堀りするため、最初のtwitterでの投稿からさらに細かな 情報を調査や憶測などによって枝葉をつけていきます。” • “人は、そんな馬鹿な行為をしたのが誰なのか、無意識のうちに特定したくなるため、ど んどんコメントが増えてアクセスも増えていきます。そうするうちに、画像に写ってい

    るわずかな情報から、 「あれ、こいつら3年2組の〇〇たちじゃないのか」 という投稿が出始めます。 万が一ここで個人名が出てしまうと、一斉にその個人名での検索が始まります。 • ここで仇となるのがInstagramやfacebookです。これらに公開制限をかけていない場合、 ことの真相を知りたい輩が、一気にアクセスしてきてその人の個人情報をどんどん吸い 出していきます。出身地、生年月日、学校、家族構成など、公開設定している情報につ いては、容赦なく漏洩していきます。” • なにかしらネットのトピックになった名前で検索すると、すぐに情報が出てくる。 引用: https://fuhyotaisaku-law.com/flames/personalinformation
  29. Legal and Ethical Framework • “The Most Data are housed

    no longer in statistical agencies, with well-defined rules of conduct, but in businesses or administrative agencies. In addition, since digital data can be alive forever, ownership could be claimed by yet-to-be-born relatives whose personal privacy could be threatened by release of information about blood relations.” • “Traditional regulatory tools for managing privacy, notice, and consent have failed to provide a viable market mechanism allowing a form of self-regulation governing industry data collection”
  30. Legal and Ethical Framework (cont.) • (1) Rules take into

    account the varying levels of inherent risk to individuals across different data sets • (2) traditional definitions of PII need to be rethought • (3) regulation has a role in creating and policing walls between data sets • (4) those analyzing big data must be reminded, with a frequency in proportion to the sensitivity of the data, that they are dealing with people • (5) the ethics of big data research must be an open topic for continual reassessment.
  31. まとめ; ビッグデータ時代におけるデータ の使い方 • データに含まれる個人情報のあり方を検討 • データの管理および提供方法の改善。従来のクライアント= サーバ型にとらわれないデータ提供のあり方を模索する必要が あり •

    アメリカおよびヨーロッパでは具体的なシステムが運用されつつある • セマンテック型データなど、新たなデータ管理・運用手法の検 討の必要性 • 社会科学者だけではなく、情報工学などの専門家との協業の重 要性
  32. Privacy Utility Tradeoff Initial Utility/Privacy Frontier Frontier after increase in

    external Data U* utility P2 P1 Privacy ・テクノロジーとそれに関連する法制 度の整備によって、 utility と privacy を高い精度で両立できる可能性
  33. 企業/特許/論文データを使った 研究プロジェクト • 日本企業とアメリカ企業の研究開発パフォーマンスの比較 • 特許データ、財務データ、研究開発投資データを接合すること で、企業のROA, ROI が研究開発パフォーマンスによってどう 説明付けられるか定量的に分析

    • 2019年4月の終わりの日経新聞や, 経産省, 内閣官房の資料で 「引用」 • 一橋大学イノベーション研究センターの Working Paper として 昨年発表 • Yamaguchi, Nitta, Hara, and Shimizu (2018) Staying Young at Heart or Wisdom of Age: Longitudinal. Analysis of Age and Performance in US and Japanese Firms., IIR Working Paper,
  34. 東証上場企業(連結、事業会社)の平均年齢(2012年時点) 43 企業数 年齢 0 20 40 60 80 100

    120 1 6 11 16 21 26 31 36 41 46 51 56 61 66 71 76 81 86 91 96 101 106 112 118 124 平均は60.5歳、中央値は63歳
  35. NYSE上場企業(連結、事業会社)の年齢分布(2012年時点) 44 企業数 年齢 0 5 10 15 20 25

    30 35 1 8 14 20 26 32 38 44 50 56 62 68 74 80 86 92 98 104 110 116 123 129 135 142 148 155 162 168 179 206 268 平均は60.95歳、中央値は51歳 • 実は平均年齢は日本と同じ、但し中央値は12歳若い
  36. 企業情報/データベースでわかること • (上場)企業の製品, 財務パフォーマンス • 株価, ROA, ROI, ROE などのパラメータ

    • 売上高, 従業員数 • 創業年, 登記年 → 面接を受ける企業の財務, 経営パフォーマンスを同業他社と比 較して生産性を解析。面接で経営の改善案を提示する!(たぶん 面接官にとっては面倒くさいやつかもしれない)
  37. (一橋大学で利用できる)企業データベース • 日経NEEDS • 日経テレコン21 • ビューロバンダイク (部局による) • Orbis

    データベースはIIRのみ利用可能とのこと • 帝国データバンクデータベース • Entrepedia • FOR STARTUP • DBJ データベース • EDINET • EDINET API
  38. 3-2. FOR STARTUP/START UP DB • https://startup-db.com/ • スタートアップ企業12156社の情報を網羅 •

    INITIAL とは異なり、無償で参照できる • だけど、スクレイピング。ダメ、ぜったい。 • 関西学院大学とは共同研究しているとのこと。 • フォースタートアップス、関西学院大学と共同研究開始 「日本のスタート アップ企業の資金調達と成長に関する経済分析」にSTARTUP DBを活用 • https://forstartups.com/pressrelease/kwansei-university-startupdb- 20200326/
  39. 日経NEEDS の利用条件 • (一橋ネットワーク内からの)同時接続10台 • 範囲: • 一橋大キャンパス内 • サービス時間

    • 月曜日 5:00 ~ 日曜日 15:00 • 対応ブラウザ • Internet Explorer, Microsoft Edge • Google Chrome ですとクレデンシャル情報が渡されませんでした • ということで、これも大学がオープンになっている間に活用しましょう
  40. 日経NEEDS • データの概要; • http://www.lib.hit- u.ac.jp/retrieval/e_resource/documents/nikkeifq/needsfq_list.html • ミクロ系 • 決算短信

    • 有価証券報告書 • 業績予想 • 企業属性 • 株価データ • 業績予想データ • マクロ系 • 生産統計 • 在庫統計 • 貿易統計
  41. グラフを作成する キャンディル ミクシィ インタースペース アマナ F ジ R ー O

    エ ア N ヌ ス T ア カ E イ ネ O グ ッ ル ト ー プ アドウェイズ ユナイテッド 海帆 ト A ラ S ン J スジェジ ニ ェ ッ ネ ク レーションパ ス オイシックス・ラ・大地 バルニバービ SHIFT ベガコーデ ポ ー レ タ ー ホ イ シ ラ グ ョ イ ニ ン ア ゾ ス ド ンバンスト・メディア ドカ リヤ コッ ムク GA technologieシ s リコンスタジオ Aiming ラクスユーザベース モ ソ オ ブ フ ー リ キ ト ク ア ャ マ フ ル ス ッ ァ ワ ト ク ン ー ホ ス ル ード ルディンシ グャ スノン ト A ラ M ス B ト I ホ T ー I ル O デ N ィングス UUUM エムケ ビ ア ー ネ メ 総 エ ッ デ 医 ス ト ィ 研 ネ ホ ッ ー ト ゼ ルネ デラ ィ ピル ン ク・ グ スオ ス タイ 農ス 業タ 総ー 合 ア 研 メ ク 究 モ デ セ 所 ル ィ ル ホ フ カ マ ッ F ォ ル ー ト C F ネ ク リ R ッ ン I ト ク ・ Aミ Lド Bル E バ ウ グ R リ ェ ロ T ュ イ ア ー ー ノ バ ゴ ベ ウ ル ル ー ォ ウ フ シ ナ ン ェ ョ レ テ イ ン ッジドス リイ ーー ト ラクスル メルカリ アイ・ピー・エス システムサポート マネーフォワーイ ド ーソ ル 串 リ カ ネ ツ ネ ッ 田 ッ ト 中 ト ジ ホ イ ャ ー ヤ パ ル ー ン デ グ ィ ル ン ク ー グ ラ プ ス ウドワークスシェアリングテクノロジー東名 ACCESS 手フ 間ル いッ らタ ず イ グ フ ン ラ ィ ル ト ン ジ ル ッ パ ラ G デ ェ ・ タ ル ロ ン - ィ イ カ マ ー ス F ー テ 霞 ン ド A ズ ッ ヶ パ ス C ク 関 ニ タ T コ キ ー ー O ー ャ キ R ポ ピ ャ デ Y レ タ ピ ィ ー ル タ ジ シ ル タ ョ ル ア ン デ メ プ ィ デ リ ー ィ ッ ・ ア ク デ プ フ ス ィ ロ ー ー フ バ シ ・ ェ ー ル エ ッ ユ ブ バ ス シ ー レ ーザ イ エー ン す ッM ロ ら グ ビ H マ ー ら ・ ー Z E エ ー カ ネ テ プ U R ー ト ル ッ ク ラ U O ア ト ノ ッ Z イ ロ ツジーW シト e ョ ア ビ l ン ナ ン カ ラ b ノ U メ イ シ オ y キ ェ M サ ド オ ス ン ャ ブ ス N ン レ ム ソ テ コ リ ラ フ バ ッ ・ レ ム リ ア イ ァ イ ク バ イ ズ ス ト サ ー オ ス イ ジ バ パ イ マ オ ア イ ス ジ サ ・ オ ・ ニ イ フ フ バ ア エ ァ ァ イ ン ー ー オ ン ス マ マ グス マー夢 サ ケ 展 ン ッ 望 ワ ト カ エ ン ン パ フ タ ニ リ ェ ー ー イ プ ガ ス ラ ル ネ イ 不 ッ ズ 動 ト産 ワーロ ク G ッM クO オ メ リ ン デ サ ィ ー ア チ 工 は 房 てな ビーブレイクシバ ス ン テ ク ム E ・ ズ d オ u ブ L ・ a イ b ノベーショG ン MO イ T ト E ク C ロ H メディM イ ア R ー シ T ア ド ー ク ク トコー ル gooddaysホールディア ン ラ グ イドアーキテク ツ フリークアウト・ホールディング レアジョブ GMOメディア エクストリー 中村パ 超ー 硬トナ ム アクアラインーエージェン ト トライスジテフェーァイジングデルリーープテホィーールケスデユロータィピ ナ コ ピ ジ ン ー イ ン ー オ グ バ テ ド ア ス ン ッ タ ド ド オ ッ & ト コ コ レ ム クティコブラボソスエーデシエィャルアルテワスイサ ヤ J イ ー ス ン ト ポ プ リ ス ロ ア ー ト パ ク ム V テ A K リ A ィ m リ u ー L サ デ a ッ d ト U ー z ク a E バ タ i ソ n N ー バ a フ キ E ワ ン ジ ト ャ X ー ク ー リ ン ク ボ バ 窪 ス テ D ミ ス 田 ク e ッ 製 ノ l ク 薬 サ t ホ a ー エ - ル ン F デ シ ス l ィ ン y メンP ロ テ h ゼ ホ a ッ ー r タ ル m ディングス エスユーエス ウェルビー HANATOUR JAPAN SERIOホールディングス 大泉製作所 テラプローブ テノ.ホールディングス ピ ポ ア ー ラ ト ク エ ッ ル ク ・ ビ テ ズ ィ マ ー ネ ・ ジ エ メ ス ン フ ト ロ ソ ン リ テ ュ ィ ー ア シ イ ョ ン ン タ ズ ーナショナ ル コプロ・ホールディングス メタッバ プ ー ス チ 旅 ャ 工 レ 房 クス・ホールディング日本ホスピスホールディング ス フレアス 日本イ ス ン キ パ ー ク 場 ト ブ 開 ホ ラ 発 ー ン ル ジ デ ス イ ィ タ ン ン タ グ ジ ー ス 神 ー ネ コ 戸 ニ ッ ン 天 ー ト ヴ 然 イ ァ 物 ン ノ 化 フ 学 ィニギ テ ー ィ ク ア ー ス イリグッドコ スー ピポ ーレ ドーシ ョン MTG ヴィそ ッ ー ツ せいグル弁 ー ア 護 プ ド 日 士 ベ 本 ド ン 動 ッ チ 物 ト ャ 高 コ ー 度 ム医療ハ セ ホ キ イ ン エ ー リ ャ ア タ ヌ プ フ リ ス ー ・ ァ ア ・ ピ イ ア ー ン ・ バ ド シ ー ・ ー ス カンフ パ ア ロ ニ ル ン ー ー テ ジ プ ィ ャ レ ア パ シ ・ フ ジ ン マ ィ イ ョ ネ ン ジ テ ・ ベ メ ッ シ ス ン ク ス ト ト テ メグ ム ンロ ・ー サバ イル 識学サマ日 ン本 サアタバセサットジマ ャーパンケリティミテンッグ ヘリオJス MC リント ク レ バ ン メ ル ン ダ ッ ド バ ー ト ピ イ ズ ホ ア オ ー ・ ル ホ W デ ー F A ィ ル r S ン デ i H グ ィ n ハ ス ン ヒ g ウグ ュ e スス ー 8マ 1ン・テ ア ク ソ ノ シ ス エ あ デ A イ ん ー m ツ し タ i ・ ん サ d ホ 保 イ A エ ー シ 証 エ ホ リ ル ン ー ア バ ス ル リ ー ・ デ ン ラ エ ィ ク イ ンフ グス ブ C リ R ッ G ジ ホ イ ー ン ル タ デ ー ィ ナ ン シ グ ョ ス S ナ O ル U 自律制御シ み ス ら テ ベ い ロ ム ス ワ グ ト 研 ト ー リ ラ 究 ワ ク ー ン 所 ン ス ザ ド ス ットハ コウ ムテレビジョンブティック ス ベルトラ一家ダイプ ニ ラ ン ッ グ ツ ギ プ フ ロ ト ジ ェ ク ト N A T T Y ファS イW バA ーN ゲK ーY ト フィッイ ト オレ 富士山マ タ ガ イ ジ フ セ ン ォ イ ア サ ー ズ ー ラ ー ビ イ ム ス ア フ ユ ビ セ ニ ソ リ ン フ 駅 ケ ン テ ォ 探 ッ グ ッ ー ツ シ ク ム ス ネ 日 テ ク 本 ム ス フ デ ト ァ ー s ル J タ ア M コ I セ イ e ム G ク リ d バ - シ ッ i リ S ョ ジ う o ュ A ン エ る ー W コ る P デ S モ K ザ K ッ S イ I ト H ン Y A A ロ エ K ジ T チ ク I ザ e ー ス ー c シ ム モ ス ド h ノ ス カ ミ マ n プ ピ オ ン レ o ス リ ナ カ ジ オ l ッ ビ ブ ン o ト ・ コ g ジ セ・ ライ ピン ーフ ・ォ サ レ ノ イ ン イ エ 地 ト ド ン ア 盤 ラ ヒ エ ー ス ネ ッ キ ュ ク ー テ A ス マ ク p フ ン ツ p ェ ・ ・ B ニ メ ス a ッ タ タ G n ク ボ ジ a k ス ロ オ m バ ー ・ e ア イ ム ジ W ジ オ ・ ラ ャ i ャ テ イ パ t イ プ ク a ト イ h ル ロ n ア ー メ レ d ッ エ デ ド プ ム ィ ・ f ネ ア パ a エ ッ ・ ー c ー ト ネ ト 日 t ド ジ ッ ナ 本 o ッ ャ ト ー リ r C ト パ ワ ズ ビ y Y ン ー ン B グ E 和 ア 保 R 心 ル 証 D フ Y ァ N ポ E リス 0 200 400 600 800 1000 1200 1400 1600 1800 0 50 100 200 250 300 従業員数 150 企業利潤 企業利潤と従業員数
  42. 5. 帝国データバンクデータベース • 企業情報データ • 所在地 • 企業コード • 売上高

    • 代表者名 などをカバー 引用: https://www.tdb.co.jp/pdf/samp_c2p.pdf
  43. 5. 帝国データバンクデータベース • 調査報告書 • 上場有無 • 資本金 • 取引銀行

    • 仕入先 • 得意先 • 売上高 • 純利益 • 事業構成 • 信用スコア 引用: https://www.tdb.co.jp/lineup/pdf/samp_ccr.pdf
  44. 5. 帝国データバンクデータベース • データ利用資格・手続き 1. センターで企業データを用いた研究に従事するのは、共同研究契約に予め記載さ れた一橋大学教員と帝国データバンク社員の他に、センターの連携協議会が認め る人とします(研究担当者、研究補助員、その他)。研究期間は、連携・協力協 定および共同研究契約の期間(2020年3月末までの2年間)を目処とします。 2.

    本学の教員・学生のみならず、国内外の他大学等の教員・研究者・学生等も、所 定の手続きを経てセンターの研究担当者・研究補助員等になり、当センターの企 業データを利用することができます。ただし、他大学等の教員・研究者の場合は、 一橋大学客員研究員として承認される必要があります。具体的な手続き等につい ては、当センターにお問い合わせください。 3. 企業データは(株)帝国データバンク本社のワークステーションに設置され、セ ンター端末からの遠隔操作を通じてのみ利用できます。個別企業のデータの検 索・閲覧や持ち出しは一切できません。 4. センターの企業データを用いた研究に従事する人には必ず、所定の誓約書を提出 していただき、その規定に従っていただきます。 5. DPを含めて研究成果を公表する場合には、他大学の教員・学生等にも、所属機関 に加えて一橋大学の当センターのアフィリエーションを成果論文等に記載するこ とが義務づけられます。 http://www7.econ.hit-u.ac.jp/tdb-caree/qualification/
  45. 6+. NISTEP 企業名辞書 • カバーしている企業群 • ① 特許出願数累積 100 件以上

    • ② 株式上場企業 • ③ 特許出願数の伸び率大 • ④ NISTEP 大学・公的機関名辞書掲載企業 • ⑤意匠・商標登録数累積 100 件以上 • ⑥ 持株会社制移行に伴い設立された事業会社 • ⑦ 一部事業の譲渡に伴い設立された会社 • ⑧ 名称変更又は吸収合併した企業が登録事由に該当
  46. まとめ • 企業に関するデータベースはございます • ただし、体系立てて、かつExcelやPython やR にすぐ使える感 じになっているもの (日経系, Orbis

    系) は、現状下とてもアク セスしずらい状況に • 企業ベースのデータで解析を希望する場合, 夏の大学に入れる 間にデータの取得を済ませておく必要がありそうです • (秋や冬に大学に入れる可能性が、まだかなり不確かなので)
  47. 技術距離の計測 • We used technological distance as an indicator of

    R&D rigidity. • The technological distance construct, proposed by Jaffe (1986), was originally intended as a measure of the degree of similarity between technological investment portfolios (which Jaffe called ‘technological positions’) of two different firms. • Thus, we estimated R&D rigidity by calculating the similarity between a firm’s current and previous technological investment portfolio. The more similar a firm’s current and previous portfolios, the more rigid its R&D resource allocation. Technological distance was calculated as follows.
  48. 技術距離の計測 • technological position of firm i in year t

    • = 1 , 2 , ⋯ , • F it is 1 ☓ j vector, NP it denotes the number of patents obtained by firm i in year t and NP ijt is the number of patents obtained by firm i in field j in year t • Technological distance (P it ) between firm i’s technological position in year t (F it ) and year t-1 (F it-1 ) is obtained from • = Τ ∙ −1 ′ ∙ ′ −1 ∙ −1 ′ 1/2 • Technological distance assumes a value between 0 and 1, and it is unity if the two vectors are identical, which implies that the firm did not changes its investment profile at all between t-1 and t, and zero if the two vectors are orthogonal, which implies that the firm changed its technological position completely.
  49. 計算をするには… • 日本企業だと数千社, アメリカ企業でも数百社の, 複数年度間の 特許数を, 技術分野 (IPC 分類) ごとに解析することが必要

    • Excel でも超絶がんばれば可能だけど, たぶん徒労 • vlookup とマクロを組み合わせる • そこで, Python でデータを処理 • 先程与えられた数式を, Python でコード化をして, Panda パッ ケージを用いてデータを取り込み. 取り込んだ, 企業IDと出願年 ごとの特許数と特許分類データに基づき, 技術距離を算出して csv ファイルに保存
  50. 技術距離の計測 Source: PatentsView and Derwent Innovations Index for USPTO patents,

    and IIP Patent Database for JPO patents. R&D Rigidity by Age (t-3, 3-year average) 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 4 10 16 22 28 34 40 46 52 58 64 70 76 82 88 94 100 106 112 118 124 130 136 142 148 154 160 166 172 178 184 190 196 202 208 US JPN
  51. 技術距離の計測(2) • R&D Rigidity by Age (t-5, 3-year average) 0

    0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 1 7 13 19 25 31 37 43 49 55 61 67 73 79 85 91 97 103 109 115 121 127 133 139 145 151 157 163 169 175 181 187 193 199 205 US JPN Source: PatentsView and Derwent Innovations Index for USPTO patents, and IIP Patent Database for JPO patents.
  52. 知的財産の種類と日本の知的財産保護制度 特許 実用新案 意匠 著作権 商標 保護対象 発明 考案 (特許ほど高

    度でない発明) 意匠(商品のデザ インなど) 著作物等 商品の商標 主たる保護要件 ・新規性 ・進歩性 ・産業上の有用 性 ・新規性 ・進歩性 ・産業上の有用 性 ・新規性 ・創作非容易性 ・工業上利用可 能性 ・創作 ・誤認を生じさ せないこと 保護期間 出願日から20年 出願日から10年 登録日から15年 著者者の死後50 年 登録日から10年 (更新可能) ディスクロー ジャー 出願・公開 出願・公開 3年内の秘密意匠 制度あり 頒布 出願公告 保護内容 発明の実施の専 有 考案の実施の専 有 意匠の実施の専 有 複製権の専有な ど 商標の利用の専 有 年間出願件数 345000 (2010年) 9000 (2010年) 32000 (2010年) 出願不要 114000 (2010年) 6/10/2020 116
  53. 知的財産権と技術の公開への誘因 • 知的財産制度の目的のひとつ は、企業が研究開発の成果を 公開するような誘因を整備す ること • 保護期間の後は、公開された 発明をだれでも自由に利用す ることができる

    • 技術公開の効果 • 技術の公開によって、研究の重 複の危険性が小さくなる • 公開された技術は新たな研究開 発の種を供給する • 技術開発は累積的なプロセス であり(Merges and Nelson 1990)、すべての技術が企業 秘密となった場合このような プロセスが成立しにくくなる 6/10/2020 117
  54. 知的財産権の役割 • 1. 研究開発への誘因を高めること • 知的財産権による保護がなければ、研究開発への誘因が低下してしまう危険 性がある • 2. 研究開発の公開を促すこと

    • 知的財産権が弱いと、企業は開発した技術をできるだけ隠そうとする • 研究開発の内容も企業秘密として維持可能な技術に偏る傾向が生じる • 結果、産業全体として研究開発に利用可能な知識ストックが減少し、研究開 発の効率が低下する危険性がある • 商業的成功に強く結びついた技術革新を推進するための制度 • 企業の私的な情報と私的なインセンティブを活用して、技術革新を 促進させる 6/10/2020 118
  55. 特許データベース • 何がわかるのか • だれが、いつ、どこで、どんな特許を書いたのかがわかる • だれが、いつ、どこで、どんな特許を引用したかがわかる • メリット •

    みんなが読んでいる特許がわかる! • インパクトファクターの高い特許がわかる! • どんな研究開発が世の中で行われているかがわかる! 5/14/2015 120
  56. 特許データベース • アメリカ特許のデータベース • Google Patent • Patents View •

    USPTO Patents • Ultra Patents • Thomson Innovation • ヨーロッパ特許のデータベース • Espacenet • PATSTAT • 日本の特許データベース • 特許情報プラットフォーム • IIP データベース • 研究用特許データベース (patR) 5/14/2015 121
  57. 日本特許用のデータベース • 特許情報プラットフォーム • 工業所有権情報・研修館が提供 • 無償: https://www.j-platpat.inpit.go.jp/web/all/top/BTmTopPage • 特許の大まかな内容を調べるにはこれで十分

    • IIPパテントデータベース • 知的財産研究所(と人工生命研究所)が提供 • 無償: http://www.iip.or.jp/patentdb/ • 出願情報、登録情報、出願人情報、引用情報、発明者情報、発明者情報がそれぞれ収録 • マニュアル:http://www.iip.or.jp/patentdb/pdf/manual.pdf • ダウンロードページ: https://database.iip.or.jp/patentdb/ • 研究用特許データベース • IIPパテントデータベース、研究用特許データベースどちらも工業所有権情報・ 研修館が提供する整理標準化データがベース 5/14/2015 122
  58. 研究用特許データベース • (1)整理標準化データ (patR データベース) • 特許庁での特許の出願、審査請求、拒絶、権利維持、最終処分まで、 手続きを記録したもの • 提供時期は1964年以降2010年3月まで

    適宜アップデート中 • データ量が多いため、研究に必要な項目を限定してデータベースに格 納 • (2)公報データ (td_5 データベース) • 特許の明細書および書誌情報を年別・公報種別によって記録したもの • 発行時期は公開公報:1993年から2012年まで • 特許公報:1994年から2012年まで • 公表公報:1996年から2012年まで • 再公表公報:1996年から2012年まで。すべてのデータを格納。 6/10/2020 123
  59. まとめ • 特許データはイノベーション活動を把握するための最短ルート • 学術的にはデータセットがたくさん用意されています • アメリカ USPTO PatentsView •

    欧州 PATSTAT • 日本 IIP パテントデータベース • Counting the Number な研究は十分に為されてきたので、たぶ ん、面白いのは概要や Claim 欄のテキストデータの解析。 • 一般的な技法については、テキスト分析回で。
  60. 次回:企業行動/産業のデータとLinked Open Data の活用 • 帝国データバンク企業・経済高度実証研究センター (http://www7.econ.hit-u.ac.jp/tdb- caree/about-caree/) や、日経NEEDS などが提供する企業のデータベースについて説明を行います。

    本データベースには、企業の取引、出資、銀行取引データや、決算書データなどが含まれています。 こうしたデータセットに基づき、問いに基づきデータを解析することを目指します。また講義の後半 では、RESASを用いて地域産業の情報の取得する方法と、NISTEP 企業名辞書 (http://www.nistep.go.jp/research/scisip/rd-and-innovation-on-industry) などを用い, ID ベースで データセット間を接合する手法について説明します。 • 企業の研究開発活動を解析するためには、特許や学術論文の動向について測ることで、産業内での動 態を観察することが出来ます。知的財産研究所が提供する IIP パテントデータベース (http://www.iip.or.jp/patentdb/), Clarivate Analytics 社が提供する Web of Science (https://clarivate.com/products/web-of-science/), Lens.org などを用いることで、 - 「どの企業が最も特許を出願しているのか?」 - 「どのような分野に特許を出願しているのか?」 - 「日本の大学で最も年ごとの論文数が多いのは何処か?」 - 「(指導教官の)◦◦先生が書いた論文はt年にx本で、その論文は累計 y 回引用された」 などの情報を取得し分析する方法を解説の上、実習を行います。 • 項目が多いので、5.1 から 6.2 までに分けて解説予定です.
  61. 次回; Open Linked Data の活用 (RDF, RISIS など の事例紹介および試用) [座学、

    実習] • オープンサイエンスやオープンガバメントの進展によって、特 にヨーロッパでは Open Linked Data と呼ばれるデータセット を用いた解析プラットフォームや、解析手法が用いられはじめ ています。 • 本回では、RISIS (https://www.risis2.eu/)と呼ばれる、イノ ベ ーション分析のためのデータプラットフォームについて解説 を 行い、RDF を用いた解析について解説および簡単な実習を行 い ます。
  62. Open Linked Data の具体例 • 科学者とPhD Advisor の関係性 アメリカの場合 ドイツの場合

    日本の場合 DBpedia.org (Wikipedia の掲載情報をRDF にしたサイト)のSPARQL Endpointに、Linked Data Reactor (http://ld-r.org/) から接続し、Wikipedia に掲載されているScientist の全情報を取り込み