慶應義塾大学 #経済学のためのいろいろなデータさがし 2020夏: 2/2

慶應義塾大学「経済学のためのいろいろなデータさがし」 2020夏: 2/2 2-1. 企業データを取得する (EDINETとgBizInfo) 2-2. Linked
Open Data 2-3. Google Big Query でデータを取得する 2-4. Youtube APIの使い方 2-5. API でデータを取得;楽天 2-6. スクレイピング応用編; Worldbank/gogo.gs 一橋大学大学院経済学研究科原泰史 [email protected]

今日の内容 • 16:30-16:55 • 2-1.企業データを取得する (EDINETとgBizInfo) • 2-2. LOD でデータを探す
(gBizInfo) • 16:55-17:10 • 2-3. Google Big Query でデータを取得する • 17:10-17:20 • 2-4. Youtube APIからデータを引っ張り出す • 17:20-17:35 • 2-5. API でデータを取得する;楽天 • 17:35-17:50 • 2-6.スクレイピング; worldbank と gogo.gs • 17:50-18:00 • 質疑応答

2.1 企業情報を分析するには

企業情報/データベースでわかること • (上場)企業の製品, 財務パフォーマンス • 株価, ROA, ROI, ROE などのパラメータ
• 売上高, 従業員数 • 創業年, 登記年 → 面接を受ける企業の財務, 経営パフォーマンスを同業他社と比較して生産性を解析。面接で経営の改善案を提示する！(たぶん面接官にとっては面倒くさいやつかもしれない)

(一橋大学で利用できる)企業データベース • 日経NEEDS • 日経テレコン21 • ビューロバンダイク (部局による) • Orbis
データベースはIIRのみ利用可能とのこと • 帝国データバンクデータベース • Entrepedia • FOR STARTUP • DBJ データベース • EDINET

INITIAL (旧 Entrepedia) • スタートアップのデータベース • https://biz.entrepedia.jp/

INITIAL

INITIAL 無償ユーザとして登録後, メルカリを検索

INITIAL • メルカリ関連の情報が表示されるが, 有償版でないと細かなデータは取得できない

FOR STARTUP/START UP DB • https://startup-db.com/ • スタートアップ企業12156社の情報を網羅 • INITIAL
とは異なり、無償で参照できる • だけど、スクレイピング。ダメ、ぜったい。 • 関西学院大学とは共同研究しているとのこと。 • フォースタートアップス、関西学院大学と共同研究開始「日本のスタートアップ企業の資金調達と成長に関する経済分析」にSTARTUP DBを活用 • https://forstartups.com/pressrelease/kwansei-university-startupdb- 20200326/

FOR STARTUP/START UP DB • メルカリの場合

日経NEEDS • 日本経済新聞社の総合経済データバンク・システム • 日経NEEDS-FinancialQUESTでは、WEBから以下の内容を用途に併せてエクセル形式でダウンロードできる。 • 国内マクロパッケージ • 新ミクロ総合パッケージ
• 地域統計オプション • 企業ファイナンスデータ

[一橋]日経NEEDS の利用条件 • (一橋ネットワーク内からの)同時接続10台 • 範囲： • 一橋大キャンパス内 • サービス時間
• 月曜日 5：00 ～日曜日 15：00 • 対応ブラウザ • Internet Explorer, Microsoft Edge • Google Chrome ですとクレデンシャル情報が渡されませんでした • ということで、これも大学がオープンになっている間に活用しましょう

[慶應] 日経NEEDS の利用条件 • 日経NEEDSの使い方: Home • https://libguides.lib.keio.ac.jp/needs • “一括ダウンロードするためのソフトウェアは、三田キャンパス大学院校舎パソコン室で利用できる
ほか、在籍中であれば三田ITC、理工学ITCまたは湘南藤沢ITCに申請して個人のPCにインストールすることができます(三田やSFC以外のキャンパスに所属される方も利用可能です)。【三田ITC】・財務データ検索システム利用案内・株式データ検索システム利用案内【理工学ITC】・財務データ検索システム利用案内・株式データ検索システム利用案内【湘南藤沢ITC】・財務データ検索システム利用案内・株式データ検索システム利用案内” • 現状; オンラインでアクセスできるデータベース（日経企業財務データベースを含む）は学部生も自宅からアクセス可能、図書館内でしかアクセスできないデータベースも、7月 13日から入館制限が一部緩和され予約制＆制限時間ありで利用可能

実習. 日経NEEDS のデータを一橋大学図書館から入手し解析する • 一橋大学付属図書館の電子リソースを参照する • https://www.lib.hit-u.ac.jp/retrieval/e_resource/dblist.html

実習. 日経NEEDS のデータを一橋大学図書館から入手し解析する • 「ナ」をクリックする

日経NEEDS-FinancialQUEST のメイン画面

財務データを引っ張ってくる • 【概要】 • 全国証券取引所（ジャスダック含む）上場会社及び非上場有価証券報告書提出会社、全国信用金庫について、有価証券報告書・決算短信などの開示資料や日経独自の調査にもとづき、決
算データ（上場会社は四半期ベース）を収録します。最大で１９６４年以降（単独本決算の場合）の時系列データとして収録しています。

財務データの取得東証マザーズの全企業のデータを取得する全選択し, “採用” をクリックする “次のステップへ進む” をクリックする

財務データの取得 • 利用するデータを選択し, “採用” をクリックする • 右下に項目数が
表示される

財務データの取得

財務データの取得結果をダウンロードしますか？と表示されるので「はい」をクリックする

財務データの取得 • データの出力画面が表示される

Excel で取り出す

グラフを作成するキャンディルミクシィインタースペースアマナＦジＲーＯ
エアＮヌスＴアカＥイネＯグッルトープアドウェイズユナイテッド海帆トＡラＳンＪスジェジニェッネクレーションパスオイシックス・ラ・大地バルニバービＳＨＩＦＴベガコーデポーレターホイシラグョイニンアゾスドンバンスト・メディアドカリヤコッムクＧＡｔｅｃｈｎｏｌｏｇｉｅシｓリコンスタジオＡｉｍｉｎｇラクスユーザベースモソオブフーリキトクアャマフルスッァワトクンーホスルードルディンシグャスノントＡラＭスＢトＩホＴーＩルＯデＮィングスＵＵＵＭエムケビアーネメ総エッデ医ストィ研ネホッートゼルネデラィピルンク・グスオスタイ農ス業タ総ー合ア研メク究モデセ所ルィルホフカマッＦォルートＣＦネクリＲッンＩトク・ＡミＬドＢルＥバウグＲリェロＴュイアーーノバゴベウルルーォウフシナンェョレテインッジドスリイーートラクスルメルカリアイ・ピー・エスシステムサポートマネーフォワーイドーソル串リカネツネッ田ット中トジホイャーヤパルーンデグィルンクーグラプスウドワークスシェアリングテクノロジー東名ＡＣＣＥＳＳ手フ間ルいッらタずイグフンラィルトンジルッパラＧデェ・タルロン－ィイカマースＦーテ霞ンドＡズッヶパスＣク関ニタＴコキーーＯーャキＲポピャデＹレタピィールタジシルタョルアンデメプィデリーィッ・アクデプフスィローーフバシ・ェールエッユブバスシーレーザイエーンすッＭロらグビＨマーら・ーＺＥエーカネテプＵＲートルックラＵＯアトノッＺイロツジーＷシトｅョアビｌンナンカラｂノＵメイシオｙキェＭサドオスンャブスＮンレムソテコリラフバッ・レムリアイァイクバイズストサーオスイジバパイマオアイスジサ・オ・ニイフフバアエァァインーーオンスママグスマー夢サケ展ンッ望ワトカエンンパフタニリェーーイプガスラルネイ不ッズ動ト産ワーロクＧッＭクＯオメリンデサィーアチ工は房てなビーブレイクシバスンテクムＥ・ズｄオｕブＬ・ａイｂノベーショＧンＭＯイＴトＥクＣロＨメディＭイアＲーシＴアドーククトコールｇｏｏｄｄａｙｓホールディアンラグイドアーキテクツフリークアウト・ホールディングレアジョブＧＭＯメディアエクストリー中村パ超ー硬トナムアクアラインーエージェントトライスジテフェーァイジングデルリーープテホィーールケスデユロータィピナコピジンーインーオグバテドアスンッタドドオッ＆トココレムクティコブラボソスエーデシエィャルアルテワスイサヤＪイースントポプリスロアートパクムＶテＡＫリＡィｍリｕーＬサデａッｄトＵーｚクａＥバタｉソｎＮーバａフキＥワンジトャＸークーリンクボバ窪ステＤミス田クｅッ製ノｌク薬サｔホａーエ－ルンＦデシスｌィンｙメンＰロテｈゼホａッーｒタルｍディングスエスユーエスウェルビーＨＡＮＡＴＯＵＲＪＡＰＡＮＳＥＲＩＯホールディングス大泉製作所テラプローブテノ．ホールディングスピポアーラトクエッルク・ビテズィマーネ・ジエメスンフトロソンリテュィーアシイョンンタズーナショナルコプロ・ホールディングスメタッバプースチ旅ャ工レ房クス・ホールディング日本ホスピスホールディングスフレアス日本イスンキパーク場トブ開ホラ発ーンルジデスイィタンンタグジース神ーネコ戸ニッン天ートヴ然イァ物ンノ化フ学ィニギテーィクアースイリグッドコスーピポーレドーションＭＴＧヴィそッーツせいグル弁ーア護プド日士ベ本ドン動ッチ物トャ高コー度ム医療ハセホキインエーリャアタヌプフリスー・ァア・ピイアーン・バドシー・ースカンフパアロニルンーーテジプィャレアパシ・フジンマィイョネンジテ・ベメッシスンクストトテメグムンロ・ーサバイル識学サマ日ン本サアタバセサットジマャーパンケリティミテンッグヘリオＪスＭＣリントクレバンメルンダッドバートピイズホアオー・ルホＷデーＦＡィルｒＳンデｉＨグィｎハスンヒｇウグュｅススー８マ１ン・テアクソノシスエあデＡイんーｍツしタｉ・んサｄホ保イＡエーシ証エホリルンーアバスルリー・デンラエィクインフグスブＣリＲッＧジホイーンルタデーィナンシグョスＳナＯルＵ自律制御シみスらテベいロムスワグト研トーリラ究ワクーン所ンスザドスットハコウムテレビジョンブティックスベルトラ一家ダイプニランッグツギプフロトジェクトＮＡＴＴＹファＳイＷバＡーＮゲＫーＹトフィッイトオレ富士山マタガイジフセンォイアサーズーラービイムスアフユビセニソリンフ駅ケンテォ探ッグッーツシクムスネ日テク本ムスフデトァーｓルＪタアＭコＩセイｅムＧクリｄバ－シッｉリＳョジうｏュＡンエるーＷコるＰデＳモＫザＫッＳイＩトＨンＹＡＡロエＫジＴチクＩザｅースーｃシムモスドｈノスカミマｎプピオンレｏスリナカジオｌッビブンｏト・コｇジセ・ライピンーフ・ォサレノインイエ地トドンア盤ラヒエースネッキュクーテＡスマクｐフンツｐェ・・ＢニメスａッタタＧｎクボジａｋスロオｍバー・ｅアイムジＷジオ・ラャｉャテイパｔイプクａトイｈルロｎアーメレｄッエデドプムィ・ｆネアパａエッ・ーｃートネト日ｔドジッナ本ｏッャトーリｒＣトパワズビｙＹンーンＢグＥ和ア保Ｒ心ル証ＤフＹァＮポＥリス 0 200 400 600 800 1000 1200 1400 1600 1800 0 50 100 200 250 300 従業員数 150 企業利潤企業利潤と従業員数

５.帝国データバンクデータベース • 企業信用調査報告書 • 企業財務データベース • 企業概要 • 企業倒産などの情報を網羅
・未上場企業のデータもカバー

5. 帝国データバンクデータベース • 企業情報データ • 所在地 • 企業コード • 売上高
• 代表者名などをカバー引用: https://www.tdb.co.jp/pdf/samp_c2p.pdf

5. 帝国データバンクデータベース • 調査報告書 • 上場有無 • 資本金 • 取引銀行
• 仕入先 • 得意先 • 売上高 • 純利益 • 事業構成 • 信用スコア引用: https://www.tdb.co.jp/lineup/pdf/samp_ccr.pdf

5. 帝国データバンクデータベース

5. 帝国データバンクデータベース • データ利用資格・手続き 1. センターで企業データを用いた研究に従事するのは、共同研究契約に予め記載された一橋大学教員と帝国データバンク社員の他に、センターの連携協議会が認める人とします（研究担当者、研究補助員、その他）。研究期間は、連携・協力協定および共同研究契約の期間（2020年3月末までの2年間）を目処とします。 2.
本学の教員・学生のみならず、国内外の他大学等の教員・研究者・学生等も、所定の手続きを経てセンターの研究担当者・研究補助員等になり、当センターの企業データを利用することができます。ただし、他大学等の教員・研究者の場合は、一橋大学客員研究員として承認される必要があります。具体的な手続き等については、当センターにお問い合わせください。 3. 企業データは（株）帝国データバンク本社のワークステーションに設置され、センター端末からの遠隔操作を通じてのみ利用できます。個別企業のデータの検索・閲覧や持ち出しは一切できません。 4. センターの企業データを用いた研究に従事する人には必ず、所定の誓約書を提出していただき、その規定に従っていただきます。 5. DPを含めて研究成果を公表する場合には、他大学の教員・学生等にも、所属機関に加えて一橋大学の当センターのアフィリエーションを成果論文等に記載することが義務づけられます。 http://www7.econ.hit-u.ac.jp/tdb-caree/qualification/

5. 帝国データバンクデータベース • マーキュリタワーの4F に研究センターがあります • もし卒論や修論や博論に使いたい場合には、是非ともお問い合わせください

6+. NISTEP 企業名辞書 • http://www.nistep.go.jp/research/scisip/rd-and-innovation- on-industry • 複数のデータセットをID ベースで接合するためのテーブル http://www.nistep.go.jp/wp/wp-content/uploads/user-
manual-of-comp_dic_2019_1.pdf

6+. NISTEP 企業名辞書 • カバーしている企業群 • ① 特許出願数累積 100 件以上
• ② 株式上場企業 • ③ 特許出願数の伸び率大 • ④ NISTEP 大学・公的機関名辞書掲載企業 • ⑤意匠・商標登録数累積 100 件以上 • ⑥ 持株会社制移行に伴い設立された事業会社 • ⑦ 一部事業の譲渡に伴い設立された会社 • ⑧ 名称変更又は吸収合併した企業が登録事由に該当

6+. NISTEP 企業名辞書

7. EDINET-PYTHON • pip を用いて edinet-python を導入する

7. EDINET-PYTHON • EDINET をインポートする • 特定日のドキュメントをインポートする • インポートしたドキュメント
のタイトルを表示する

7.EDINET-PYTHON • EDINET のAPI を用いて, 特定企業のXBRL ファイルとPDF ファイルを取得する • 当該Notebook
と同じディレクトリに保存する

7.EDINET-PYTHON • XBRL • XMLっぽいフォーマットの塊 • PDF

7.EDINET-PYTHON • 取り出したデータを参照して、必要なコンテンツを Parse する

7.EDINET-PYTHON • 情報を取り出す • Mecab と組み合わせると、きれいに出来そう

7.EDINET-PYTHON • 情報を取り出す(研究開発情報)

まとめ • 企業に関するデータベースはございます • ただし、体系立てて、かつExcelやPython やR にすぐ使える感じになっているもの (日経系, Orbis
系) は、現状下とてもアクセスしずらい状況に • 企業ベースのデータで解析を希望する場合, 大学に入れる間にデータの取得を済ませておく必要がありそうです • (秋や冬に大学に入れる可能性が、まだかなり不確かなので)

２.2 Linked Open Data

今日のテーマ; オープンデータ • オープンデータとは • “特定のデータが、一切の著作権、特許などの制御メカニズムの制限なしで、全ての人が望むように利用・再掲載できるような形で入手できるべきであるというアイデア” • “オープンデータとは、自由に使えて再利用もでき、かつ誰でも再配布
できるようなデータのことだ。従うべき決まりは、せいぜい「作者のクレジットを残す」あるいは「同じ条件で配布する」程度である“ https://ja.wikipedia.org/wiki/%E3%82%AA%E3%83%BC%E3%83 %97%E3%83%B3%E3%83%87%E3%83%BC%E3%82%BF

Level of Open Data ★ Available on the web (whatever
format) but with an open licence, to be Open Data ★★ Available as machine-readable structured data (e.g. excel instead of image scan of a table) ★★★ as (2) plus non-proprietary format (e.g. CSV instead of excel) ★★★★ All the above plus, Use open standards from W3C (RDF and SPARQL) to identify things, so that people can point at your stuff ★★★★★ All the above, plus: Link your data to other people’s data to provide context https://www.w3.org/DesignIssues/LinkedData.html https://5stardata.info/ja/

オープンデータのエッセンス • データがオープンライセンスで公開されていること • コンピューターが処理できる形式になっていること • オープンに利用できるフォーマットでデータが公開されていること • Web
標準でデータが公開されていること • 外部データともリンク可能なこと • これらを踏まえたのが, Linked Open Data

統計データのRDF (Resource Description Framework) 化 • 統計表のデータ定義では、統計表のセルごとにRDF化を行ないます。 •
統計表の各セルに対してIDを振り、それを主語とします。 • 各セルに対して、次元、測度、属性、観測値を、それぞれ述語、目的語として定義します。 • 主語、述語、目的語の３つの要素を「トリプル」といいますが、ひとつの統計値（統計表のセル）は複数のトリプルによって表されます。 http://data.e-stat.go.jp/lodw/outline/abstraction#1-1-1

Linked Open Data Cloud • https://lod-cloud.net/

オープンデータの具体例; メディア芸術データベース LOD • メディア芸術データベース • マンガ • アニメーション •
ゲーム • メディア・アートに係る情報が集約されたデータベース

メディア芸術データベース • 検索結果 • 監督 • 演者 • 作成者などの情報が取得できる

メディア芸術データベースLOD • https://metadata.moe/madb-lod/

メディア芸術データベースLOD • 公開年ごとにTVアニメ数を集計する PREFIX schema: <http://schema.org/> PREFIX rdf: <http://www.w3.org/1999/02/22-rdf-syntax-ns#> PREFIX
rdfs: <http://www.w3.org/2000/01/rdf-schema#> PREFIX ma: <https://metadata.moe/ns/madb/ma#> SELECT ?y (COUNT(DISTINCT *) AS ?cnt) WHERE { ?s a ma:Collection ; ma:media "TVレギュラー" ; schema:startDate ?startDate . } GROUP BY (SUBSTR(?startDate, 1, 4) AS ?y) ORDER BY DESC(?y) 接頭辞 PREFIX を指定するたとえば, PREFIX ma: は文化庁 DBの叙述構造を取得する

rdfs: <http://www.w3.org/2000/01/rdf-schema#> PREFIX ma: <https://metadata.moe/ns/madb/ma#> SELECT ?y (COUNT(DISTINCT *) AS ?cnt) WHERE { ?s a ma:Collection ; ma:media "TVレギュラー" ; schema:startDate ?startDate . } GROUP BY (SUBSTR(?startDate, 1, 4) AS ?y) ORDER BY DESC(?y) Select では, ?y と ?cnt を取得する Where 中では, ma:Collection の中で, ma:media で “TVレギュラー” に当てはまるデータを取得し, schema:startDate の情報を ?startDate に渡すことを明記する

rdfs: <http://www.w3.org/2000/01/rdf-schema#> PREFIX ma: <https://metadata.moe/ns/madb/ma#> SELECT ?y (COUNT(DISTINCT *) AS ?cnt) WHERE { ?s a ma:Collection ; ma:media "TVレギュラー" ; schema:startDate ?startDate . } GROUP BY (SUBSTR(?startDate, 1, 4) AS ?y) ORDER BY DESC(?y) ?startDate を substr 関数を使って, 年数だけにする、それを ?y と名づけ、年ごとにグルーピングする ?y の値で並べ替える (order by)

メディア芸術データベースLOD • 出力結果

メディア芸術データベースLOD • 年別のテレビアニメ数 0 50 100 150 200 250 300
350 1950 1960 1970 1980 1990 2000 2010 2020

メディア芸術データベースLOD 年次アニメ映画数の推移 0 20 40 60 80 100 120 1900
1920 1940 1960 1980 2000 2020 2040

13. 文化庁DB LOD からデータを取得する • 年ごとのTVアニメ数の推移を取得する

13. 文化庁DB LOD からデータを取得する • データを整形する

13. 文化庁DB LOD からデータを取得する • 年ごとのアニメ映画の数をカウントする

13. 文化庁DB LOD からデータを取得する • データを整形する

gBizInfo (旧法人インフォ) • https://info.gbiz.go.jp/ • (政府に関連する)企業の情報を一元的に取得できる • Web インターフェースのみな
らず, API も提供 • 取得できる主な情報 • 財務 • 特許 • 届け出・認定 • 補助金 • 調達 • 表彰 • 職場 • ローソンを出力した場合

gBizInfo (旧法人インフォ) • SPARQL Endpoint • http://api.hojin-info.go.jp/sparql

14. gBizInfo LOD からデータを取得する • ソニーの法人番号を調べて, そこからソニーによる政府調達の情報を一元的に取得する

14. gBizinfo LOD からデータを取得する • 結果を成形する

2.3 BigQueryを使ってみよう

データベースの環境構築ってめんどくさい • SQL を使った解析をいちから行うためには 1. SQL のサーバを構築する 2. データを展開する
3. データに対してクエリを発行して解析するの流れを踏まえる必要があり, 特に 1. や2. はオペレーションシステムや言語環境への依存があるため, いささか面倒です.

使うもの • Google Big Query Sandbox • https://cloud.google.com/bigquery/docs/sandbox?hl=ja

Google Big Query のはじめかた (1) 1. URL https://cloud.google.com/bigquery/docs/sandbox?hl=jaを開く

Google Big Query のはじめかた(2) • 2. “GCP Console を開く”をクリックする

Google Big Query のはじめかた(3) • 3. 左側のナビゲーションベインから BigQuery を選択する

Google Big Query のはじめかた(4) • 4. [完了]をクリックする

Google Big Query のはじめかた(5) • 以下の画面が表示されればOK

Google Big Query でクエリを打ってみる(1) • 以下の内容を、クエリエディタに打ち込む SELECT name, gender, SUM(number)
AS total FROM `bigquery-public-data.usa_names.usa_1910_2013` GROUP BY name, gender ORDER BY total DESC LIMIT 10

SQL 構文の話 • SELECT: • 1 つ以上のテーブルから選択された行を取得するために使用する • Where: •
選択されるために行が満たす必要のある 1 つまたは複数の条件 • Join: • Inner Join:指定したカラムについて同じ値を持つレコード同士を結びつける • Left Join: • 左のテーブルを基準にして、指定したカラムについて同じ値を持つレコード同士を結びつける。値が右のテーブルにあり左のテーブルにない場合は INNER JOIN 同様結果に含まれないが、値が左のテーブルにあり右のテーブルにない場合は INNER JOIN と異なり右のテーブルのカラムには全て NULL がパディングされ、結果に含まれる。 • Right Join: • 右のテーブルを基準にして、指定されたカラムについて同じ値を持つレコード同士を結びつける。 2020/7/14 75 https://dev.mysql.com/doc/refman/5.6/ja/

Google Big Query でクエリを打ってみる(1) • 以下の内容を、クエリエディタに打ち込む SELECT name, gender, SUM(number)
AS total FROM `bigquery-public-data.usa_names.usa_1910_2013` GROUP BY name, gender ORDER BY total DESC LIMIT 10 翻訳; (1.) Select Name と gender と number の合計値を取得して, number の合計値は total という名前にしてね (2.) From `bigquery-public- data.usa_names.usa_1910_2013` というテーブルからデータを取ってきてね (3.) Order by Total の数字が大きな順にしてね (4.) LIMIT 最初から10番目までにしてね

Google Big Query でクエリを打ってみる(3) • [実行]をクリックする

Google Big Query でクエリを打ってみる (4) • 結果が出力される • どうやら James
(4,924,235) や John (4,818,746) が多いらしい

Google Big Query でクエリを打ってみる (5) • [データポータルで調べる]をクリックする

Google Big Query でクエリを打ってみる(6) • [使ってみる]をクリックする

Google Big Query でクエリを打ってみる(7) • [承認]をクリックする

Google Big Query でクエリを打ってみる(8) • [許可]をクリックする

Google データポータルで可視化する(1) • 右下の指標に, total を指定する • クエリの出力結果と同じものが表示される

Google データポータルで可視化する(2) • 右上のグラフから, 可視化の手法を選択する • その1; 棒グラフ

Google データポータルで可視化する(3) • 右上のグラフから, 可視化の手法を選択する • その2; 積み上げ横棒グラフ

Google データポータルで可視化する(3) • 右上のグラフから, 可視化の手法を選択する • その3; ツリーマップ

今日の復習(20分程度) • Google Big Query + Google データポータルを使って, 大規模データの解析をやってみましょう
• 注意 • Sandbox 状態で解析すること • 大量データを解析して保持した場合 && クレジットカード情報を登録している場合, 使用料を Google さんから請求されます • 4.3 で説明するオンプレミスな分析環境も, もし関心あればやってみてください.

利用できるデータセット • リソースから, [+ データを追加] をクリックする

利用できるデータセット • Word Development Indicators • Google Patent • US
Census Data • US Residential Real Estate Data • Stackoverflow など, 楽しそうなデータが並んでいる

a.) baseball data の場合 • ピッチャーの球種をカウントしてみる

Select pitchTypeDescription, count(gameid) as total FROM `bigquery-public-data.baseball.games_post_wide` group by pitchTypeDescrption
ordey by total desc LIMIT 1000

a.) baseball data の場合

b.) Stack Overflow の場合参考文献; https://qiita.com/perico_v1/items/7ea358a64cf1efa52cd9

このセクションのまとめ • 多変量データが使えると、出来ることが増える • どう考えても,今の時代クラウドを使ったほうが楽 • クラウドにデプロイしてもOKなデータか, そうではないデータかを確認しよう

リクエスト大会！

とりあえず、色々な方からリクエストのあった内容を盛り込みました • 2-4. • Youtube API • Instagram •
2-5. • 楽天API その1; 楽天市場 • 楽天API その2; 楽天トラベル • 2-6. • Worldbank • gogo.gs

2-4.Youtube API をたたいてみる

Youtube のAPI を叩くまでの流れ • API を有効化する • 必要なパッケージをAnaconda+Python 側に導入する •
いくつかスクリプトをまわしてみる

Youtube Data API v3 を Google APIs 上で有効化する

[有効にする] をクリックする

左側メニューの[認証情報]をクリックする

API キーを取得する

Notebook 上で、google-api-python-client をインストールする

キーワードに基づき動画の情報を取得する

今回は知り合いの経営学者 Youtuber の情報をゲットしてみる • いろいろテストしてたら、API の利用制限を越えたのであった • その後無事にデータ取得に成功

Instagram API について • Instragram API Platform が廃止され、後継のAPI に移行した模様
• 位置情報やフォロワー数などの情報は提供されなくなる • 画像の位置情報は含まれなくなる • 参考文献 • https://www.e-pokke.com/blog/instagram-basic-display-api.html • https://embedsocial.jp/blog/instagram-api-changes-2020-2/ • https://arrown-blog.com/instagram-graph- api/#AxiosInstagram_Graph_API

2-5.楽天のAPI をたたいてみるその1; 楽天市場編

楽天のAPI を使う大まかな流れ • 楽天にログインする • 楽天のアプリID を発行する • テストサイトで動かしてみる •
実際にコーディング (Anaconda etc…) する

1. 楽天にログインして、続いて Rakuten Developers にアクセスする

2. [アプリID 発行] をクリックする

3. “アプリ新規作成フォーム” を入力する

4. アプリID/アフィリエイトID などを取得する

5. API テストフォームでデータの取得をテストする • 今回は、”楽天商品検索 API” を利用する • Keyword
に”うさまる” を指定する（基本的には、アプリID とパラメータさえ指定すれば、NotebookやR経由でもデータが引っ張ってこれそうな感じである）

6. データの取得結果

7. 実際にPython 上でコーディングする • 先程のAPI テストフォームの内容に基づき、コーディング • アプリケーションID やデータの取得方式を指定する •
今回のキーワードは “うさまる” に • ただし、日本語はそのままURL に指定できないので、 urllib.parse.quote を使う

8. 実際にPython 上でコーディングする (続き) • Request を用いURL2 を開く •
日本語データが含まれているのでデコード • URL先が開かない場合, 例外処理をする

9. 実際にPython 上でコーディングする (続き) • 中身が表示されるが、ちょっと使いづらい

10. Panda 形式に変換する • Json パッケージをインポート • 取得したデータをjson として読み込む (json.loads)
• Panda DataFrame 形式に json_normalize で変換する • このとき、Items をピボットする • とりあえず出力する (temp3)

11. Panda で出力される • とりあえず、うさまるグッズ情報が一覧取得出来ている

楽天のAPI をたたいてみるその2; 楽天トラベル編 • https://webservice.rakuten.co.jp/api/simplehotelsearch/ を参照しながらコーディングする • 位置情報に基づく探索
• 座標情報に基づく探索 • 宿同士の検索などが実行出来そう

座標情報を指定する形で宿を探索する • Json 形式でデータを取得 • 緯度・経度を指定する

東京駅近辺のホテル情報を取得する

Json をPandas DataFrame に変換する • json_normalize で record_path を指定することで、ホテル名などの情報を取得する

DataFrame 形式の出力結果

2-6. スクレイピング; worldbank/gogo.gs

スクレイピングの応用編 • Worldbank • Gogo.gs

Worldbank(ICSID) Database of Bilateral Investment Treaties • https://icsid.worldbank.org/en/Pages/resources/Bilateral- Investment-Treaties-Database.aspx#

とりあえずスクレイピングしてみた 1. Pandas 2. BeautifulSoup 3. 手作業

1. Pandas でtable 内の情報を取得する • Table からデータは取れている • ところが、ほしい情
報が入っていない

2. Beautiful Soup でデータを取得する • url を指定 • データが埋まっている箇
所から、class を指定してデータを引っ張ってくる • td のデータを取得する

2. Beautiful Soup でデータを取得する • ところが、あんまりきれいにデータが取れない。

3. 手作業でコピペする • 基本に立ち戻り、コピペしてみる

3. 手作業でコピペする • Excel にコピーできました。

スクレイピングがうまくいかなかった原因（推測） • Table が入れ子構造になってる • スクレイピングしずらい構造になってる • たぶん、申請したら普通にくれるから？ •
https://icsid.worldbank.org/en/Pages/about/Contact-us.aspx

Gogo.gs • “ガソリン価格比較サイト gogo.gs は、ガソリン価格やガソリンスタンド情報を共有するサービスです。掲載情報は、全国のドライバーの皆さんやガソリンスタンドの方から
寄せられた情報をリアルタイムに掲載しています。”

Gogo.gs をスクレイピングしてもOKか確認してみる。 • https://gogo.gs/info/terms • 第４条禁止事項 • 事務局は、登録ユーザの行為が以下の項目に該当すると事務局が判断した場合、事務局は上記登録ユーザに事前に何等
通知又は催告することなく、除名処分とします。１.公序良俗に反する行為２.犯罪的行為に結びつく行為３.他のユーザ又は第三者の著作権を侵害する行為４.他のユーザ又は第三者の財産、プライバシー等を侵害する行為５.知的所有権、著作権、その他、法律に反する行為６.他のユーザ又は第三者を誹謗中傷する行為７.選挙の事前運動、選挙運動又はこれらに類似する行為及び公職選挙法に抵触する行為８.本サービスの運営を妨げ、或は事務局の信頼を毀損するような行為９.複数のメールアドレスを利用し重複して会員となる行為１０.登録ユーザのユーザとして有する権利を第三者に譲渡若しくは使用させたり、売買、名義変更、質権の設定その他の担保に供する等の行為１１.本サービスを通じて入手したコンテンツを、事務局の承認なく、複製、販売、出版その他私的利用の範囲を超えて使用する行為１２.事務局が承認した、登録ユーザが運営する店舗もしくは商品の宣伝以外の、営利を目的とした行為１３.その他、事務局が会員の行為として不適切であると認めた行為 • 研究活動は11. に記載されている「私的利用の範囲」なのかすごく絶妙な気分になる

BeautifulSoup でデータを取得する • 個別店舗ごとの価格推移を取得する • Table タグ内の”table table-bordered” クラス
内に価格推移が埋まっているので、そこから引っ張ってくる

BeautifulSoup でデータを取得する • Table の中身が取り出せる • ただ、ここから処理するのがちょっとめんどくさい

Pandas でデータを取得する • Pandas の read_html でデータを持ってくる • こっちのほうが楽そう

Pandas で平均価格を取得する • Pandas をimport する • レギュラー(0), ハイオク (1),
軽油(2), 灯油(3) の順にデータが掲載されているので、添字 i で順番に取得する (for 文) • read_html でデータを取得し、空の DataFrame に追記する • 最後にデータを出力

Pandas でガソリンの都道府県別平均価格を取得する • 価格が取得出来ていそう • 若干調整が必要かもしれない

スクレイピングの注意点(reprise) • 本当にスクレイピングしてもよいサイトかチェックする • サイト構造がよくかわるサイトもあるので、その場合にはコーディングし直しになる • API やLOD、raw data
で提供している場合にはそちらを使う

アフターサーヴィスのお知らせ • 今回取り上げたデータの取得手法はかなり限定的です • そのため、同じようにAPI やスクレイピングでデータをとってこようとすると、ひっかかったり、コードがうまく動かないところが必ず出てくると思います。 • そのため、困ったときには
Slack の #わからないところの質疑応答用チャンネルに書き込んでください • 僕や、僕以外のメンバーが回答してくれるかもしれません

一橋データ分析講義の資料 • 1. https://speakerdeck.com/yasushihara/10hui • 2. https://speakerdeck.com/yasushihara/10hui-b83cea5a-c7ed-478f-9482-75eb2cfbf5a6 • 3. https://speakerdeck.com/yasushihara/10hui-07f62b90-55db-4d69-a46d-78c995cb8bf3
• 4. https://speakerdeck.com/yasushihara/10 • 5. https://speakerdeck.com/yasushihara/10-57e0b909-959b-48ba-a076-a3458c238412 • 6. https://speakerdeck.com/yasushihara/10-77078dec-4181-43d9-922e-e395e07c2eed • 7. https://speakerdeck.com/yasushihara/10hui-7da3864c-a6b1-47b3-8c12-b4507ee2b3c0 • 8. https://speakerdeck.com/yasushihara/10hui-b024f4c9-5dfb-453d-8697-585f86974786 • 9. https://speakerdeck.com/yasushihara/10hui-b83e5c32-af91-4af3-a91d-54f937a89a04

THANKS [email protected]

慶應義塾大学 #経済学のためのいろいろなデータさがし 2020夏: 2/2

慶應義塾大学 #経済学のためのいろいろなデータさがし 2020夏: 2/2

More Decks by yasushihara

Other Decks in Education

Featured

Transcript