Upgrade to Pro — share decks privately, control downloads, hide ads and more …

慶應義塾大学 #経済学のためのいろいろなデータさがし 2020夏: 2/2

慶應義塾大学 #経済学のためのいろいろなデータさがし 2020夏: 2/2

慶應義塾大学 #経済学のためのいろいろなデータさがし 2020夏: 2/2
2-1. 企業データを取得する (EDINETとgBizInfo)
2-2. Linked Open Data
2-3. Google Big Query でデータを取得する
2-4. Youtube API
2-5. API でデータを取得する;楽天
2-6. スクレイピング; gogo.gs

yasushihara

July 15, 2020
Tweet

More Decks by yasushihara

Other Decks in Education

Transcript

  1. 慶應義塾大学 「経済学のための いろいろなデータさがし」 2020夏: 2/2 2-1. 企業データを取得する (EDINETとgBizInfo) 2-2. Linked

    Open Data 2-3. Google Big Query でデータを取得する 2-4. Youtube APIの使い方 2-5. API でデータを取得;楽天 2-6. スクレイピング応用編; Worldbank/gogo.gs 一橋大学大学院経済学研究科 原泰史 [email protected]
  2. 今日の内容 • 16:30-16:55 • 2-1.企業データを取得する (EDINETとgBizInfo) • 2-2. LOD でデータを探す

    (gBizInfo) • 16:55-17:10 • 2-3. Google Big Query でデータを取得する • 17:10-17:20 • 2-4. Youtube APIからデータを引っ張り出す • 17:20-17:35 • 2-5. API でデータを取得する;楽天 • 17:35-17:50 • 2-6.スクレイピング; worldbank と gogo.gs • 17:50-18:00 • 質疑応答
  3. 企業情報/データベースでわかること • (上場)企業の製品, 財務パフォーマンス • 株価, ROA, ROI, ROE などのパラメータ

    • 売上高, 従業員数 • 創業年, 登記年 → 面接を受ける企業の財務, 経営パフォーマンスを同業他社と比 較して生産性を解析。面接で経営の改善案を提示する!(たぶん 面接官にとっては面倒くさいやつかもしれない)
  4. (一橋大学で利用できる)企業データベース • 日経NEEDS • 日経テレコン21 • ビューロバンダイク (部局による) • Orbis

    データベースはIIRのみ利用可能とのこと • 帝国データバンクデータベース • Entrepedia • FOR STARTUP • DBJ データベース • EDINET
  5. FOR STARTUP/START UP DB • https://startup-db.com/ • スタートアップ企業12156社の情報を網羅 • INITIAL

    とは異なり、無償で参照できる • だけど、スクレイピング。ダメ、ぜったい。 • 関西学院大学とは共同研究しているとのこと。 • フォースタートアップス、関西学院大学と共同研究開始 「日本のスタート アップ企業の資金調達と成長に関する経済分析」にSTARTUP DBを活用 • https://forstartups.com/pressrelease/kwansei-university-startupdb- 20200326/
  6. [一橋]日経NEEDS の利用条件 • (一橋ネットワーク内からの)同時接続10台 • 範囲: • 一橋大キャンパス内 • サービス時間

    • 月曜日 5:00 ~ 日曜日 15:00 • 対応ブラウザ • Internet Explorer, Microsoft Edge • Google Chrome ですとクレデンシャル情報が渡されませんでした • ということで、これも大学がオープンになっている間に活用しましょう
  7. [慶應] 日経NEEDS の利用条件 • 日経NEEDSの使い方: Home • https://libguides.lib.keio.ac.jp/needs • “一括ダウンロードするためのソフトウェアは、三田キャンパス大学院校舎パソコン室で利用できる

    ほか、在籍中であれば三田ITC、理工学ITCまたは湘南藤沢ITCに申請して個人のPCにインストール することができます(三田やSFC以外のキャンパスに所属される方も利用可能です)。 【三田ITC】 ・財務データ検索システム利用案内 ・株式データ検索システム利用案内 【理工学ITC】 ・財務データ検索システム利用案内 ・株式データ検索システム利用案内 【湘南藤沢ITC】 ・財務データ検索システム利用案内 ・株式データ検索システム利用案内” • 現状; オンラインでアクセスできるデータベース(日経企業財務データベースを含む)は 学部生も自宅からアクセス可能、図書館内でしかアクセスできないデータベースも、7月 13日から入館制限が一部緩和され予約制&制限時間ありで利用可能
  8. グラフを作成する キャンディル ミクシィ インタースペース アマナ F ジ R ー O

    エ ア N ヌ ス T ア カ E イ ネ O グ ッ ル ト ー プ アドウェイズ ユナイテッド 海帆 ト A ラ S ン J スジェジ ニ ェ ッ ネ ク レーションパ ス オイシックス・ラ・大地 バルニバービ SHIFT ベガコーデ ポ ー レ タ ー ホ イ シ ラ グ ョ イ ニ ン ア ゾ ス ド ンバンスト・メディア ドカ リヤ コッ ムク GA technologieシ s リコンスタジオ Aiming ラクスユーザベース モ ソ オ ブ フ ー リ キ ト ク ア ャ マ フ ル ス ッ ァ ワ ト ク ン ー ホ ス ル ード ルディンシ グャ スノン ト A ラ M ス B ト I ホ T ー I ル O デ N ィングス UUUM エムケ ビ ア ー ネ メ 総 エ ッ デ 医 ス ト ィ 研 ネ ホ ッ ー ト ゼ ルネ デラ ィ ピル ン ク・ グ スオ ス タイ 農ス 業タ 総ー 合 ア 研 メ ク 究 モ デ セ 所 ル ィ ル ホ フ カ マ ッ F ォ ル ー ト C F ネ ク リ R ッ ン I ト ク ・ Aミ Lド Bル E バ ウ グ R リ ェ ロ T ュ イ ア ー ー ノ バ ゴ ベ ウ ル ル ー ォ ウ フ シ ナ ン ェ ョ レ テ イ ン ッジドス リイ ーー ト ラクスル メルカリ アイ・ピー・エス システムサポート マネーフォワーイ ド ーソ ル 串 リ カ ネ ツ ネ ッ 田 ッ ト 中 ト ジ ホ イ ャ ー ヤ パ ル ー ン デ グ ィ ル ン ク ー グ ラ プ ス ウドワークス シェアリングテクノロジー東名 ACCESS 手フ 間ル いッ らタ ず イ グ フ ン ラ ィ ル ト ン ジ ル ッ パ ラ G デ ェ ・ タ ル ロ ン - ィ イ カ マ ー ス F ー テ 霞 ン ド A ズ ッ ヶ パ ス C ク 関 ニ タ T コ キ ー ー O ー ャ キ R ポ ピ ャ デ Y レ タ ピ ィ ー ル タ ジ シ ル タ ョ ル ア ン デ メ プ ィ デ リ ー ィ ッ ・ ア ク デ プ フ ス ィ ロ ー ー フ バ シ ・ ェ ー ル エ ッ ユ ブ バ ス シ ー レ ーザ イ エー ン す ッM ロ ら グ ビ H マ ー ら ・ ー Z E エ ー カ ネ テ プ U R ー ト ル ッ ク ラ U O ア ト ノ ッ Z イ ロ ツジ ーW シト e ョ ア ビ l ン ナ ン カ ラ b ノ U メ イ シ オ y キ ェ M サ ド オ ス ン ャ ブ ス N ン レ ム ソ テ コ リ ラ フ バ ッ ・ レ ム リ ア イ ァ イ ク バ イ ズ ス ト サ ー オ ス イ ジ バ パ イ マ オ ア イ ス ジ サ ・ オ ・ ニ イ フ フ バ ア エ ァ ァ イ ン ー ー オ ン ス マ マ グス マー夢 サ ケ 展 ン ッ 望 ワ ト カ エ ン ン パ フ タ ニ リ ェ ー ー イ プ ガ ス ラ ル ネ イ 不 ッ ズ 動 ト産 ワーロ クG ッM クO オ メ リ ン デ サ ィ ー ア チ 工 は 房 てな ビーブレイクシバ ス ン テ ク ム E ・ ズ d オ u ブ L ・ a イ b ノベーショG ン MO イ T ト E ク C ロ H メディM イ ア R ー シ T ア ド ー ク ク トコー ル gooddaysホールディア ン ラ グ イドアーキテク ツ フリークアウト・ホールディング レアジョブ GMOメディア エクストリー 中村パ 超ー 硬トナ ム アクアラインーエージェン ト トライスジテフェーァイジングデルリーープテホィーールケスデユロータィピ ナ コ ピ ジ ン ー イ ン ー オ グ バ テ ド ア ス ン ッ タ ド ド オ ッ & ト コ コ レ ム クティコブラボソスエーデシエィャルアルテワスイサ ヤ J イ ー ス ン ト ポ プ リ ス ロ ア ー ト パ ク ム V テ A K リ A ィ m リ u ー L サ デ a ッ d ト U ー z ク a E バ タ i ソ n N ー バ a フ キ E ワ ン ジ ト ャ X ー ク ー リ ン ク ボ バ 窪 ス テ D ミ ス 田 ク e ッ 製 ノ l ク 薬 サ t ホ a ー エ - ル ン F デ シ ス l ィ ン y メンP ロ テ h ゼ ホ a ッ ー r タ ル m ディングス エスユーエス ウェルビー HANATOUR JAPAN SERIOホールディングス 大泉製作所 テラプローブ テノ.ホールディングス ピ ポ ア ー ラ ト ク エ ッ ル ク ・ ビ テ ズ ィ マ ー ネ ・ ジ エ メ ス ン フ ト ロ ソ ン リ テ ュ ィ ー ア シ イ ョ ン ン タ ズ ーナショナ ル コプロ・ホールディングス メタッバ プ ー ス チ 旅 ャ 工 レ 房 クス・ホールディング日本ホスピスホールディング ス フレアス 日本イ ス ン キ パ ー ク 場 ト ブ 開 ホ ラ 発 ー ン ル ジ デ ス イ ィ タ ン ン タ グ ジ ー ス 神 ー ネ コ 戸 ニ ッ ン 天 ー ト ヴ 然 イ ァ 物 ン ノ 化 フ 学 ィニギ テ ー ィ ク ア ー ス イリグッドコ スー ピポ ーレ ドーシ ョン MTG ヴィそ ッ ー ツ せいグル弁 ー ア 護 プ ド 日 士 ベ 本 ド ン 動 ッ チ 物 ト ャ 高 コ ー 度 ム医療ハ セ ホ キ イ ン エ ー リ ャ ア タ ヌ プ フ リ ス ー ・ ァ ア ・ ピ イ ア ー ン ・ バ ド シ ー ・ ー ス カンフ パ ア ロ ニ ル ン ー ー テ ジ プ ィ ャ レ ア パ シ ・ フ ジ ン マ ィ イ ョ ネ ン ジ テ ・ ベ メ ッ シ ス ン ク ス ト ト テ メグ ム ンロ ・ー サバ イル 識学サマ日 ン本 サアタバセサットジマ ャーパンケリティミテンッグ ヘリオJス MC リント ク レ バ ン メ ル ン ダ ッ ド バ ー ト ピ イ ズ ホ ア オ ー ・ ル ホ W デ ー F A ィ ル r S ン デ i H グ ィ n ハ ス ン ヒ g ウグ ュ e スス ー 8マ 1ン・テ ア ク ソ ノ シ ス エ あ デ A イ ん ー m ツ し タ i ・ ん サ d ホ 保 イ A エ ー シ 証 エ ホ リ ル ン ー ア バ ス ル リ ー ・ デ ン ラ エ ィ ク イ ンフ グス ブ C リ R ッ G ジ ホ イ ー ン ル タ デ ー ィ ナ ン シ グ ョ ス S ナ O ル U 自律制御シ み ス ら テ ベ い ロ ム ス ワ グ ト 研 ト ー リ ラ 究 ワ ク ー ン 所 ン ス ザ ド ス ットハ コウ ムテレビジョンブティック ス ベルトラ一家ダイプ ニ ラ ン ッ グ ツ ギ プ フ ロ ト ジ ェ ク ト NATTY ファS イW バA ーN ゲK ーY ト フィッイ ト オレ 富士山マ タ ガ イ ジ フ セ ン ォ イ ア サ ー ズ ー ラ ー ビ イ ム ス ア フ ユ ビ セ ニ ソ リ ン フ 駅 ケ ン テ ォ 探 ッ グ ッ ー ツ シ ク ム ス ネ 日 テ ク 本 ム ス フ デ ト ァ ー s ル J タ ア M コ I セ イ e ム G ク リ d バ - シ ッ i リ S ョ ジ う o ュ A ン エ る ー W コ る P デ S モ K ザ K ッ S イ I ト H ン Y A A ロ エ K ジ T チ ク I ザ e ー ス ー c シ ム モ ス ド h ノ ス カ ミ マ n プ ピ オ ン レ o ス リ ナ カ ジ オ l ッ ビ ブ ン o ト ・ コ g ジ セ・ ライ ピン ーフ ・ォ サ レ ノ イ ン イ エ 地 ト ド ン ア 盤 ラ ヒ エ ー ス ネ ッ キ ュ ク ー テ A ス マ ク p フ ン ツ p ェ ・ ・ B ニ メ ス a ッ タ タ G n ク ボ ジ a k ス ロ オ m バ ー ・ e ア イ ム ジ W ジ オ ・ ラ ャ i ャ テ イ パ t イ プ ク a ト イ h ル ロ n ア ー メ レ d ッ エ デ ド プ ム ィ ・ f ネ ア パ a エ ッ ・ ー c ー ト ネ ト 日 t ド ジ ッ ナ 本 o ッ ャ ト ー リ r C ト パ ワ ズ ビ y Y ン ー ン B グ E 和 ア 保 R 心 ル 証 D フ Y ァ N ポ E リス 0 200 400 600 800 1000 1200 1400 1600 1800 0 50 100 200 250 300 従業員数 150 企業利潤 企業利潤と従業員数
  9. 5. 帝国データバンクデータベース • 企業情報データ • 所在地 • 企業コード • 売上高

    • 代表者名 などをカバー 引用: https://www.tdb.co.jp/pdf/samp_c2p.pdf
  10. 5. 帝国データバンクデータベース • 調査報告書 • 上場有無 • 資本金 • 取引銀行

    • 仕入先 • 得意先 • 売上高 • 純利益 • 事業構成 • 信用スコア 引用: https://www.tdb.co.jp/lineup/pdf/samp_ccr.pdf
  11. 5. 帝国データバンクデータベース • データ利用資格・手続き 1. センターで企業データを用いた研究に従事するのは、共同研究契約に予め記載さ れた一橋大学教員と帝国データバンク社員の他に、センターの連携協議会が認め る人とします(研究担当者、研究補助員、その他)。研究期間は、連携・協力協 定および共同研究契約の期間(2020年3月末までの2年間)を目処とします。 2.

    本学の教員・学生のみならず、国内外の他大学等の教員・研究者・学生等も、所 定の手続きを経てセンターの研究担当者・研究補助員等になり、当センターの企 業データを利用することができます。ただし、他大学等の教員・研究者の場合は、 一橋大学客員研究員として承認される必要があります。具体的な手続き等につい ては、当センターにお問い合わせください。 3. 企業データは(株)帝国データバンク本社のワークステーションに設置され、セ ンター端末からの遠隔操作を通じてのみ利用できます。個別企業のデータの検 索・閲覧や持ち出しは一切できません。 4. センターの企業データを用いた研究に従事する人には必ず、所定の誓約書を提出 していただき、その規定に従っていただきます。 5. DPを含めて研究成果を公表する場合には、他大学の教員・学生等にも、所属機関 に加えて一橋大学の当センターのアフィリエーションを成果論文等に記載するこ とが義務づけられます。 http://www7.econ.hit-u.ac.jp/tdb-caree/qualification/
  12. 6+. NISTEP 企業名辞書 • カバーしている企業群 • ① 特許出願数累積 100 件以上

    • ② 株式上場企業 • ③ 特許出願数の伸び率大 • ④ NISTEP 大学・公的機関名辞書掲載企業 • ⑤意匠・商標登録数累積 100 件以上 • ⑥ 持株会社制移行に伴い設立された事業会社 • ⑦ 一部事業の譲渡に伴い設立された会社 • ⑧ 名称変更又は吸収合併した企業が登録事由に該当
  13. まとめ • 企業に関するデータベースはございます • ただし、体系立てて、かつExcelやPython やR にすぐ使える感 じになっているもの (日経系, Orbis

    系) は、現状下とてもアク セスしずらい状況に • 企業ベースのデータで解析を希望する場合, 大学に入れる間に データの取得を済ませておく必要がありそうです • (秋や冬に大学に入れる可能性が、まだかなり不確かなので)
  14. 今日のテーマ; オープンデータ • オープンデータとは • “特定のデータが、一切の著作権、特許などの制御メカニズムの制限な しで、全ての人が望むように利用・再掲載できるような形で入手でき るべきであるというアイデア” • “オープンデータとは、自由に使えて再利用もでき、かつ誰でも再配布

    できるようなデータのことだ。従うべき決まりは、せいぜい「作者の クレジットを残す」あるいは「同じ条件で配布する」程度である“ https://ja.wikipedia.org/wiki/%E3%82%AA%E3%83%BC%E3%83 %97%E3%83%B3%E3%83%87%E3%83%BC%E3%82%BF
  15. Level of Open Data ★ Available on the web (whatever

    format) but with an open licence, to be Open Data ★★ Available as machine-readable structured data (e.g. excel instead of image scan of a table) ★★★ as (2) plus non-proprietary format (e.g. CSV instead of excel) ★★★★ All the above plus, Use open standards from W3C (RDF and SPARQL) to identify things, so that people can point at your stuff ★★★★★ All the above, plus: Link your data to other people’s data to provide context https://www.w3.org/DesignIssues/LinkedData.html https://5stardata.info/ja/
  16. 統計データのRDF (Resource Description Framework) 化 • 統計表のデータ定義では、統計 表のセルごとにRDF化を行ない ます。 •

    統計表の各セルに対してIDを振 り、それを主語とします。 • 各セルに対して、次元、測度、 属性、観測値を、それぞれ述語、 目的語として定義します。 • 主語、述語、目的語の3つの要 素を「トリプル」といいますが、 ひとつの統計値(統計表のセ ル)は複数のトリプルによって 表されます。 http://data.e-stat.go.jp/lodw/outline/abstraction#1-1-1
  17. メディア芸術データベースLOD • 公開年ごとにTVアニメ数を集計する PREFIX schema: <http://schema.org/> PREFIX rdf: <http://www.w3.org/1999/02/22-rdf-syntax-ns#> PREFIX

    rdfs: <http://www.w3.org/2000/01/rdf-schema#> PREFIX ma: <https://metadata.moe/ns/madb/ma#> SELECT ?y (COUNT(DISTINCT *) AS ?cnt) WHERE { ?s a ma:Collection ; ma:media "TVレギュラー" ; schema:startDate ?startDate . } GROUP BY (SUBSTR(?startDate, 1, 4) AS ?y) ORDER BY DESC(?y) 接頭辞 PREFIX を指定する たとえば, PREFIX ma: は文化庁 DBの叙述構造を取得する
  18. メディア芸術データベースLOD • 公開年ごとにTVアニメ数を集計する PREFIX schema: <http://schema.org/> PREFIX rdf: <http://www.w3.org/1999/02/22-rdf-syntax-ns#> PREFIX

    rdfs: <http://www.w3.org/2000/01/rdf-schema#> PREFIX ma: <https://metadata.moe/ns/madb/ma#> SELECT ?y (COUNT(DISTINCT *) AS ?cnt) WHERE { ?s a ma:Collection ; ma:media "TVレギュラー" ; schema:startDate ?startDate . } GROUP BY (SUBSTR(?startDate, 1, 4) AS ?y) ORDER BY DESC(?y) Select では, ?y と ?cnt を取得する Where 中では, ma:Collection の中で, ma:media で “TVレギュラー” に当て はまるデータを取得し, schema:startDate の情報 を ?startDate に渡すことを明記する
  19. メディア芸術データベースLOD • 公開年ごとにTVアニメ数を集計する PREFIX schema: <http://schema.org/> PREFIX rdf: <http://www.w3.org/1999/02/22-rdf-syntax-ns#> PREFIX

    rdfs: <http://www.w3.org/2000/01/rdf-schema#> PREFIX ma: <https://metadata.moe/ns/madb/ma#> SELECT ?y (COUNT(DISTINCT *) AS ?cnt) WHERE { ?s a ma:Collection ; ma:media "TVレギュラー" ; schema:startDate ?startDate . } GROUP BY (SUBSTR(?startDate, 1, 4) AS ?y) ORDER BY DESC(?y) ?startDate を substr 関数を使って, 年数だけにする、それを ?y と名づけ、 年ごとにグルーピングする ?y の値で並べ替える (order by)
  20. gBizInfo (旧法人インフォ) • https://info.gbiz.go.jp/ • (政府に関連する)企業の情報を 一元的に取得できる • Web インターフェースのみな

    らず, API も提供 • 取得できる主な情報 • 財務 • 特許 • 届け出・認定 • 補助金 • 調達 • 表彰 • 職場 • ローソンを出力した場合
  21. データベースの環境構築って めんどくさい • SQL を使った解析をいちから行うためには 1. SQL のサーバを構築する 2. データを展開する

    3. データに対してクエリを発行して解析する の流れを踏まえる必要があり, 特に 1. や2. はオペレーションシステムや 言語環境への依存があるため, いささか面倒です.
  22. Google Big Query でクエリを打ってみる(1) • 以下の内容を、クエリエディタに打ち込む SELECT name, gender, SUM(number)

    AS total FROM `bigquery-public-data.usa_names.usa_1910_2013` GROUP BY name, gender ORDER BY total DESC LIMIT 10
  23. SQL 構文の話 • SELECT: • 1 つ以上のテーブルから選択された行を取得するために使用する • Where: •

    選択されるために行が満たす必要のある 1 つまたは複数の条件 • Join: • Inner Join:指定したカラムについて同じ値を持つレコード同士を結びつける • Left Join: • 左のテーブルを基準にして、指定したカラムについて同じ値を持つレコード同士を結びつ ける。値が右のテーブルにあり左のテーブルにない場合は INNER JOIN 同様結果に含まれ ないが、値が左のテーブルにあり右のテーブルにない場合は INNER JOIN と異なり 右の テーブルのカラムには全て NULL がパディングされ、結果に含まれる。 • Right Join: • 右のテーブルを基準にして、指定されたカラムについて同じ値を持つレコード同士を結び つける。 2020/7/14 75 https://dev.mysql.com/doc/refman/5.6/ja/
  24. Google Big Query でクエリを打ってみる(1) • 以下の内容を、クエリエディタに打ち込む SELECT name, gender, SUM(number)

    AS total FROM `bigquery-public-data.usa_names.usa_1910_2013` GROUP BY name, gender ORDER BY total DESC LIMIT 10 翻訳; (1.) Select Name と gender と number の合計値を取得 して, number の合計値は total という名前に してね (2.) From `bigquery-public- data.usa_names.usa_1910_2013` というテーブルからデータを取ってきてね (3.) Order by Total の数字が大きな順にしてね (4.) LIMIT 最初から10番目までにしてね
  25. 今日の復習(20分程度) • Google Big Query + Google データポータルを使って, 大規模 データの解析をやってみましょう

    • 注意 • Sandbox 状態で解析すること • 大量データを解析して保持した場合 && クレジットカード情報を登録している場 合, 使用料を Google さんから請求されます • 4.3 で説明するオンプレミスな分析環境も, もし関心あればやっ てみてください.
  26. 利用できるデータセット • Word Development Indicators • Google Patent • US

    Census Data • US Residential Real Estate Data • Stackoverflow など, 楽しそうなデータ が並んでいる
  27. とりあえず、色々な方からリクエストの あった内容を盛り込みました • 2-4. • Youtube API • Instagram •

    2-5. • 楽天API その1; 楽天市場 • 楽天API その2; 楽天トラベル • 2-6. • Worldbank • gogo.gs
  28. Instagram API について • Instragram API Platform が廃止され、後継のAPI に移行した模 様

    • 位置情報やフォロワー数などの情報は提供されなくなる • 画像の位置情報は含まれなくなる • 参考文献 • https://www.e-pokke.com/blog/instagram-basic-display-api.html • https://embedsocial.jp/blog/instagram-api-changes-2020-2/ • https://arrown-blog.com/instagram-graph- api/#AxiosInstagram_Graph_API
  29. 5. API テストフォームでデータの取得を テストする • 今回は、”楽天商品検索 API” を利用する • Keyword

    に”うさまる” を指定する (基本的には、アプリID とパラメータさえ指定す れば、NotebookやR経由 でもデータが引っ張って これそうな感じである)
  30. 7. 実際にPython 上でコーディングする • 先程のAPI テストフォームの内容に基づき、コーディング • アプリケーションID やデータの取得方式を指定する •

    今回のキーワードは “うさまる” に • ただし、日本語はそのままURL に指定できないので、 urllib.parse.quote を使う
  31. 8. 実際にPython 上でコーディングする (続き) • Request を用いURL2 を 開く •

    日本語データが含まれて いるのでデコード • URL先が開かない場合, 例 外処理をする
  32. 10. Panda 形式に変換する • Json パッケージをインポート • 取得したデータをjson として読み込む (json.loads)

    • Panda DataFrame 形式に json_normalize で変換する • このとき、Items をピボットする • とりあえず出力する (temp3)
  33. 2. Beautiful Soup でデータを取得する • url を指定 • データが埋 まっている箇

    所から、class を指定して データを引っ 張ってくる • td のデータを 取得する
  34. Gogo.gs をスクレイピングしてもOKか確 認してみる。 • https://gogo.gs/info/terms • 第4条 禁止事項 • 事務局は、登録ユーザの行為が以下の項目に該当すると事務局が判断した場合、事務局は上記登録ユーザに事前に何等

    通知又は催告することなく、除名処分とします。 1.公序良俗に反する行為 2.犯罪的行為に結びつく行為 3.他のユーザ又は第三者の著作権を侵害する行為 4.他のユーザ又は第三者の財産、プライバシー等を侵害する行為 5.知的所有権、著作権、その他、法律に反する行為 6.他のユーザ又は第三者を誹謗中傷する行為 7.選挙の事前運動、選挙運動又はこれらに類似する行為及び公職選挙法に抵触する行為 8.本サービスの運営を妨げ、或は事務局の信頼を毀損するような行為 9.複数のメールアドレスを利用し重複して会員となる行為 10.登録ユーザのユーザとして有する権利を第三者に譲渡若しくは使用させたり、売買、名義変更、質権の設定その 他の担保に供する等の行為 11.本サービスを通じて入手したコンテンツを、事務局の承認なく、複製、販売、出版その他私的利用の範囲を超え て使用する行為 12.事務局が承認した、登録ユーザが運営する店舗もしくは商品の宣伝以外の、営利を目的とした行為 13.その他、事務局が会員の行為として不適切であると認めた行為 • 研究活動は11. に記載されている「私的利用の範囲」なのかすごく絶妙な気分になる
  35. Pandas で平均価格を取得する • Pandas をimport する • レギュラー(0), ハイオク (1),

    軽油(2), 灯油(3) の順 にデータが掲載されてい るので、添字 i で順番に 取得する (for 文) • read_html でデータを取 得し、空の DataFrame に追記する • 最後にデータを出力
  36. 一橋データ分析講義の資料 • 1. https://speakerdeck.com/yasushihara/10hui • 2. https://speakerdeck.com/yasushihara/10hui-b83cea5a-c7ed-478f-9482-75eb2cfbf5a6 • 3. https://speakerdeck.com/yasushihara/10hui-07f62b90-55db-4d69-a46d-78c995cb8bf3

    • 4. https://speakerdeck.com/yasushihara/10 • 5. https://speakerdeck.com/yasushihara/10-57e0b909-959b-48ba-a076-a3458c238412 • 6. https://speakerdeck.com/yasushihara/10-77078dec-4181-43d9-922e-e395e07c2eed • 7. https://speakerdeck.com/yasushihara/10hui-7da3864c-a6b1-47b3-8c12-b4507ee2b3c0 • 8. https://speakerdeck.com/yasushihara/10hui-b024f4c9-5dfb-453d-8697-585f86974786 • 9. https://speakerdeck.com/yasushihara/10hui-b83e5c32-af91-4af3-a91d-54f937a89a04