#経済学のための実践的データ分析 6.1 データを取得するための5から6の方法

経済学のための実践的データ分析 6. データを解析するまでに必要な Web スクレイピングやデータの作成やデータベース設計などの話 28教室経済学研究科原泰史 [email protected]

確認事項 • 電源タップは足りているでしょうか？

今日の内容 (人力や Web スクレイピングや RPA で)データを集めてきて処理をするまでの長く険しい道 [座学、実習] • データといっても、そのほとんどは実のところ定型化されてい
ません。Web サイトや書籍や国会図書館から手作業でひとつひとつ入力し、あるいは、Web スクレイピングやRPA を用いて, Web から取得する必要があります。 • データ分析は、こうした事前の作業が作業全体の60-70パーセントを占めています。 • こうした手続きの具体例について、座学を用いて紹介した後、雑誌や Web に掲載されたデータを取得する手法についてご紹介します。

今日の内容 (105分) 1: データを作るまでの話 2: 実際にデータを作ってみよう 3:レポート(1回目)の話

1. データを作るまでの話

今日までの講義で使ったデータ • ランダム作成した行列データ (@Jupyter Notebook) • FIFA 19 データベース (Kaggle)
• 落合博満の打率と年俸データ (プロ野球) • 特許データベース (IIP パテントデータベース) → すでにデータが整備されており, あとは解析すれば何かしらのアウトプットが作成できるもの. しかし, 現実にはデータセットは自分で用意する必要がある

データ分析の流れなんのデータを使うか考える先行研究・事例を探すデータの取得方法を確認するデータをデータベース or
手入力 or 図書館 or 口コミ or Web アンケートで入手する入手したデータの妥当性を確認するデータを統計ソフト and/or Python and/or SQL で処理するデータに統計処理を行うデータに関する解釈を行う解釈されたデータと、その解釈を Word か Jupyter Notebook か Tex でテキスティングするレポートとして先生に送る/上司に提出する/学術誌に投稿する今日メインに取り上げる内容前回/前々回で取り上げた内容レポートでやっていただく内容入手したデータに不足があれば, 別のデータソースを参照し, その入手可能性や妥当性を確認し, データの入手作業を改めて行う

データセットを用意する方法図書館や国会図書館で入手するデータの提供元から入手する API で取得する Web アンケートで集める Web
スクレイピングする/RPA で処理する手入力で作成する

1. 図書館や国会図書館で入手する • 一橋大学図書館 • および, 日経BPデータベースなど, 大学が契約しているデータベース • 国会図書館
as known as日本最強の図書館 • デジタルデータベース • http://dl.ndl.go.jp/ • リサーチ・ナビ • https://rnavi.ndl.go.jp/rnavi/ • なにか信頼性の高いデータが必要になったら, 永田町に行けばだいたい見つかります (税金を払っている甲斐があります)

2. データの提供元から入手する • データベースを提供する会社から入手する • JSON (グッドデザイン賞) や XML (Web
of Science) など, そのままだと解析をそのまま行うには複雑過ぎるデータ形式で提供される場合もあるので, 必要に応じてデータの parse 処理を行う。 • 具体例; • Web of Science のXML データをparse してSQL にした話

2. データの提供元から入手する • (a.) Parsing the bibliographic data from XML
to SQL of WoS - Pick up sufficient data to analyze - Which tag is needed? - Title? - Names Count? (as known as scientific ordering) - Publisher? - Fund information? - Name? First name? Last Name? - ID?

2. データの提供元から入手する • データを parse して, XML からSQL に変換する
• 正規化する • MySQL 上でデータを処理可能にする

2. データの提供元から入手する • WoS データのSQL 化の場合 • ecrypt data from
*.zip to *.gz format • Take 3 mins for 8.16GB • Decrypt data from *.gz to *.zip format • Take 30 mins for 20GB • Decrypt data from *.zip to *.xml format • Take 1.2 hours for 10GB • Parsing xml data into (my)sql format • Take 5.5 hours for 40.5GB • Binding separated *.sql format data into one single file for each year • Take 35 mins • Importing *sql format data into MySQL Server • Take 120 hours for 49.8GB ZIP - > GZ GZ -> ZIP ZIP -> XML XML -> SQL SQL -> SQL Server Accessin g from SQL client Finally you could get the data! Stata?R? Analyze Submissi on Revise Publis h

Parsing XML-based Data to (My)SQL • Using python to parse
XML data to SQL format. • Using generic_paser.py which distributed in Github. • https://github.com/titipata/wos_pars er • Takes 5.5 hours to parse XML data in 40.5GB into SQL format. • Then import to SQL server, it takes 1.5-3 days with 2 million entries per year.

Creating Database Tables. • Write Down “Create Table” and define
database structure. CREATE TABLE raw_data.wos_summary ( id varchar(200) NOT NULL, file_number integer NOT NULL, coll_id varchar(200), pubyear varchar(200), season varchar(200), pubmonth varchar(200), pubday varchar(200), coverdate varchar(200), edate varchar(200), vol varchar(200), issue varchar(200), voliss varchar(200), supplement varchar(200), special_issue varchar(200), part_no varchar(200), pubtype varchar(200), medium varchar(200), model varchar(200), indicator varchar(200), inpi varchar(200), is_archive varchar(200), city varchar(200), country varchar(200), has_abstract varchar(200), sortdate varchar(200), title_count varchar(200), name_count varchar(200), doctype_count varchar(200), conference_count varchar(200), language_count varchar(200), normalized_language_count varchar(200), normalized_doctype_count varchar(200), descriptive_ref_count varchar(200), reference_count varchar(200), address_count varchar(200), headings_count varchar(200), subheadings_count varchar(200), subjects_count varchar(200), fund_ack varchar(200), grants_count varchar(200), grants_complete varchar(200), keyword_count varchar(200), abstract_count varchar(200), item_coll_id varchar(200), item_ids varchar(200), item_ids_avail varchar(200), bib_id varchar(200), bib_pagecount varchar(200), bib_pagecount_type varchar(200), reviewed_language_count varchar(200), reviewed_author_count varchar(200), reviewed_year varchar(200), keywords_plus_count varchar(200), book_chapters varchar(200), book_pages varchar(200), book_notes_count varchar(200), chapterlist_count varchar(200), contributor_count varchar(200), PRIMARY KEY(`id`) ); CREATE TABLE raw_data.wos_page ( id varchar(200) NOT NULL, page_id integer NOT NULL, page_value varchar(200), page_begin varchar(200), page_end varchar(200), page_count varchar(200) ); CREATE TABLE raw_data.wos_titles ( id varchar(200) NOT NULL, title_id integer NOT NULL, title varchar(200), title_type varchar(200), lang_id varchar(200), translated varchar(200), non_english varchar(200) ); CREATE TABLE raw_data.wos_summary_names ( id varchar(200) NOT NULL, name_id integer NOT NULL, role varchar(200) NOT NULL, seq_no varchar(200), addr_no_raw varchar(200), reprint varchar(200), lang_id varchar(200), r_id varchar(200), r_id_tr varchar(200), orcid_id varchar(200), orcid_id_tr varchar(200), dais_id varchar(200), display varchar(200), display_name varchar(200), full_name varchar(200), wos_standard varchar(200), prefix varchar(200), first_name varchar(200), middle_name varchar(200), initials varchar(200), last_name varchar(200), suffix varchar(200) );

3. API で取得する • Application Programming Interface • アプリケーション同士を接合するための仕組み •
汎用的な機能を提供する. • API を経由して機能を呼び出す形でプログラムを構成することにより, 同じAPI が実装されていれば, 別のソフトウェア上でそのまま動作できる. • データ形式にXML や JSON を利用する Web API も普及 http://e-words.jp/w/API.html

3. API で取得する • Crossref (学術論文の DOI 情報サイト) から, 原講師の出版物の情報を
取得する • DOI; コンテンツのディジタルオブジェクト識別子. インターネット上のドキュメントに恒久的に与えられる. • URLを指定し, 取得する DOI を設定する

3. API で取得する • JSON 形式で, 論文の書誌情報が与えられる.

3. API で取得する • Orcid から特定の研究者の情報をAPI 経由で取得する • 今回は
ORCID ID 0000-0001- 9500-1150 • Orcid Public API の Client ID や Cilient secret, token を取得し, API 経由で原講師の最近の論文情報を取得する

3. API で接続する • 以下の通り, 書誌情報を取得できる

3. API で接続する • 参考文献 • https://github.com/ORCID/python-orcid • https://support.orcid.org/hc/en-us/articles/360006897174 •
https://members.orcid.org/api/about-public-api • https://members.orcid.org/api/tutorial/read-orcid-records

4. Web アンケートで集める • アンケートを Google Docs などを使って, 集める •
卒論やMBA ペーパーでも見かけがち • 母集団がとても曖昧になりがち • 注.まどかマギカネタは古典

4. Web アンケートで集める https://forms.gle/ijgsd73PWJ8ZW1g68

4. Web アンケートでデータを集める • 懸念点1. データの母集団が, データの収集者の想定とは異なる可能性がある • ユースケース:
「女性の大学生の買うコスメの情報を集める」, 「起業への選好を調査する」調査者が想定している母集団= ◦◦大学の女性の大学1-4年生

4. Web アンケートでデータを集める • 懸念点1. データの母集団が, データの収集者の想定とは異なる可能性がある • アンケートのTOPページに「こ
のアンケートは女性の大学生限定です」と書いても, 回答者がそれを守る保証はどこにもない • 記名の場合も, アンケートサイトにBASIC なパスワードを掛ける場合にも同様実際のデータ集計結果= ◦◦大学の女性の大学1-4年生+α

4. Web アンケートでデータを集める • 懸念点2. アンケート調査の段階で適切な質問票を設計出来ていないと、分析にあたって必要な情報を入手できない可能性がある • 質問表の設計に不備があると, 質問者が欲しい結果に回答者を誘導してし
まう可能性 • 足りないデータをあとからアンケート調査しても, 調査時期が異なるので統計的に正しい解析とは言えなくなる • 質問表の設計手法の参考文献 • 『質問紙デザインの技法[第2版]』 • 『図解アンケート調査と統計解析がわかる本[新版]』

• 「国立のおいしいものアンケート」のツッコミポイント 1. Q1. の解答欄が複数選択可能である 2. Q1.
の選択肢の単位が絶妙に違う (“ザイカレー”と”すた丼” と”つり舟”) 3. Q2. および Q3. は必須回答であるか否か明記されていない 4. 誰が対象のアンケートか明記されていない。あとは？

5. Web スクレイピングする, RPA で処理する • Web スクレイピング •
Python etc… でコーディングすることで, Web ページ上から必要な情報を取ってくる • よくある例; Yahoo! ニュースやYahoo! ファイナンス, データを集約しているサイトからデータを取得し, 例えば口コミ解析や時系列分析に利用する • よく考えてみると • 株価データなどは, 実は大学図書館から「オフィシャルに」ダウンロードしてこれる例が多い • 経済学部の卒論/修論では実はあんまり出番がない(こともないかもしれない)

5. Web スクレイピングする, RPA で処理する • その1; Web スクレイピン
グの事例; 阪大Web サイト (http://stips.jp/) のタイトルを取得する • 右図の◦の部分を取ってくる https://qiita.com/Azunyan1111/items/9b3d16428d2bcc7c9406

5. Web スクレイピングする, RPA で処理する https://qiita.com/Azunyan1111/items/9b3d16428d2bcc7c9406 ・元のサイトの場合 python2.x 系でコーディ
ングしていたため, Python3 系に書き換えています・feedparser をpip でinstall が必要

5. Web スクレイピングする • その2; Panda の機能を用いて Web サイト上の表を取得する #女性アイドルのキャパ数
url = ‘https://wasteofpops.hatenablog.com/entry/2019/05/01/000000' dfs3 = pd.read_html(url) print(dfs3) URLを指定する Web ページ上のテーブルを取得する

5. Web スクレイピングする • Panda の機能を用いて Web サイト上の表を取得する

★山本彩乃木坂46 sherbet ★渡辺美優紀 ★高橋みなみ BABYMETAL 仮面女子 ★日向坂46 Perfume でんぱ組.inc
真野恵里菜モーニング娘。 AKB48（グループ）篠崎愛私立恵比寿中学鈴木愛理 BiSH ★有安杏果ももいろクローバーZ 欅坂46 吉田凜音椎名ぴかりんアンジュルムフェアリーズ Juice=Juice 夢みるアドレセンスカントリー・ガールズ小池美由 TEAM SHACHI（A.K.A.チームしゃちほこ）スリジエ ★=LOVE i☆Ris 柊木りお BiS【新】こぶしファクトリーバンドじゃないもん！MAXX NAKAYOSHI たこやきレインボーつばきファクトリー風男塾寺嶋由芙東京女子流ゆるめるモ！ LADYBABY ▲（活動停止）9nine ベッド・インまねきケチャさくら学院ラストアイドル（ファミリー） PassCode GANG PARADE （活動停止）ベイビーレイズJAPAN ときめき宣伝部（活動停止）PASSPO☆ KissBee ばってん少女隊武藤彩未 EMPiRE ぜんぶ君のせいだ。虹のコンキスタドール眉村ちあき ▲（活動停止）妄想キャリブレーション Negicco 2o Love to Sweet Bullet ▲（活動停止）THE HOOPERS CY8ER 吉川友神宿わーすた Q'ulle SUPER☆GiRLS 純情のアフィリアアップアップガールズ（仮） predia Maison book girl A応P BILLIE IDLE アイドル教室 sora tob sakana マジカル・パンチライン ▲（活動停止）つりビットアキシブproject notall （活動停止）Cheeky Parade Dorothy Little Happy 東京パフォーマンスドール LinQ Task have Funフィロソフィーのダンス PINK CRES. ★J☆Dee'Z lyrical school Party Rockets GT ▲（活動停止）ロッカジャポニカじゅじゅ演歌女子ルピナス組 FES☆TIVE あゆみくりかまき Dancing Dolls 天晴れ！原宿さんみゅ～アンダービースティー劇場版ゴキゲン帝国 hy4_4yh （活動停止）バニラビーンズ神使轟く、激情の如く。里咲りさ Run Girls, Run! 伊藤桃 ★なんきんペッパー ▲（活動停止）X21 絶叫する60度 kolme（A.K.A.callme） OS☆U RHYMEBERRY なんキニ！ Bitter & Sweet uijin 転校少女*（A.K.A.転校少女歌撃団）ヤなことそっとミュート Luce Twinkle Wink☆ CHERRSEE おやすみホログラムナナランドミライスカート ONEPIXCEL 絶対直球女子！プレイボールズひめキュンフルーツ缶放課後プリンセスはちみつロケット Pimm's CROWN POP RYUTist ゆくえしれずつれづれハコイリムスメ Aphrodite 大阪☆春夏秋冬煌めき☆アンフォレント愛乙女☆DOLL （活動停止）チャオベッラチンクエッティ ANNA☆S アイドルカレッジ monogatari（A.K.A.原宿物語）病ンドル（活動停止）ベボガ！柳田絵美花パクスプエラ上月せれな MIGMA SHELTER （活動停止）Cupitron せのしすたぁ DESURABBITS いちごみるく色に染まりたい。 STARMARIE ▲（活動停止）ハッピーくるくる NEO JAPONISM Kus Kus Chu-Z バクステ外神田一丁目 READY TO KISS 真っ白なキャンバス ▲（活動停止）THERE THERE THERES Devil ANTHEM. さくらシンデレラ NECRONOMIDOL 3776 ワンダーウィード Ange☆Reve WHY@DOLL Chu☆Oh!Dolly みんなのこどもちゃんクマリデパート ▲（活動停止）Chubbiness ▲（活動停止）S☆スパイシー ▲（活動休止）東京CLEAR'S Broken By The Scream ▲（活動停止）CHOCO★MILQ キセキレイ Fullfull Pocket SIR 幽世テロルArchitect はちきんガールズ amiinA SAY-LA フルーレットイケてるハーツ（活動停止）少女隊平成琴姫川崎純情小町 TEARS-ティアーズ- Yamakatsu（A.K.A.山口活性学園） tipToe. ▲（活動停止）・・・・・・・・・（活動停止）KNU KOTO ぴゅあ娘リローデッド Jewel☆Neige ミルクス本物ピュアリーモンスター桃色革命パンダみっく avandoned（A.K.A.あヴぁんだんど）サクヤコノハナ CYNHN ヲルタナティヴエルフロートはっぴっぴステーション♪ あかぎ団キャンディzoo （活動停止）MAPLEZ 愛夢GLTOKYO DEAR KISS まじばんch（A.K.A.Magical Ban☆Bang）（活動停止）ハニーゴーランとちおとめ25 TAKENOKO▲ エレクトリックリボン ★つぼみ大革命 ★星歴13夜 ▲（活動停止）さきどり発進局あっとせぶんてぃーん（活動停止）アモレカリーナ東京全力少女R P.IDL DREAMING MONSTER HAMIDASYSTEM Star☆T Tokyo Rockets Stella☆Beats KOBerrieS アイドル諜報機関LEVEL7 SPARK SPEAKER 青SHUN学園 81moment （活動停止）リナチックステイトまなみのりさエラバレシ CoverGirls （活動停止）フラップガールズスクールシンセカイセン蜂蜜★皇帝 TOY SMILEY （活動停止）PREDIANNA Nゼロ SO.ON project グーグールル赤マルダッシュ☆ FLOWLIGHT 東京CuteCute HIGHSPIRITS PiXMiX ▲（活動停止）きみがわたしだけのおうじさまだったら（活動停止）HR きゃわふるTORNADO ★三代目 KONAMON シブヤDOMINION i*chip_memory Malcolm Mask McLaren ROSARIO+CROSS d-girls （活動停止）DISDOL PLC （活動停止）WenDee （活動停止）PrincessGarden-姫庭- RY'S（A.K.A.アイドルオーケストラRY'S） AH（嗚呼）閃光プラネタゲートヤンチャン学園音楽部きゅい～ん'ズ手羽先センセーション DDプリンセス eyes われらがプワプワプーワプワ ▲（活動停止）恥じらいレスキューJPN ▲（活動停止）JK21 （活動停止）ダイヤモンドルフィー（活動停止）Sola Sound （活動停止）on and Go! ★HIROSHIMA GO!GO! ★Jewel☆Ciel ▲（活動停止）ユメオイ少女 Needs 少女交響曲～GirlsSymphony～ IVOLVE Q-pitch カラフルスクリーム校庭カメラガールドライ ▲（活動停止）月と太陽 ★MONSTER GIRLFRIEND ★綺星★フィオレナード Splash! ワガママきいて?? QUEENS expiece （活動停止）WiLL ★143∞ ★ティーンズ☆ヘブン（活動停止）東京イルミナティ NEO BREAK HAPPY ANNIVERSARY ULTRA BUZZ ▲（活動停止）Dear L mana パステル☆ジョーカー東京23区ガールズ（活動停止）カプ式会社ハイパーモチベーション狂い咲けセンターロード（活動停止）アリスインアリス ZOMBIE POWDER ▲（活動停止）なめんなよ原宿 G-COMPLEx ▲（活動停止）渡良瀬橋43 CANDY GO!GO! Shine Fine Movement gra-DOLL （活動停止）ULTRA FRUITPOCHETTE ★Fragrant Drive 女子独身倶楽部 100 1000 10000 100000 1000000 10000000 100 1000 10000 100000 1000000 10000000

import seaborn as sns sns.jointplot(followers,cd) sns.jointplot(followers, cd, xlim=(0,10000), ylim=(0,10000), kind="scatter")

equation_df=pd.concat([cd, followers], axis=1) sns.heatmap(equation_df, vmax=5000) filtered = cd[(cd >= 0)
& (cd < 10000)] ax = sns.distplot(filtered, kde=False);

import seaborn as sns import matplotlib.pyplot as plt import pandas
as pd %matplotlib inline df_iris=input_sheet_df #print(df_iris) ax = sns.lmplot('Followers', # Horizontal axis 'CD_SALES', # Vertical axis data=df_iris, # Data source fit_reg=False, # Don't fix a regression line size = 10, aspect =2 ) # size and dimension plt.title('CD Sales and Followers') # Set x-axis label plt.xlabel('Followers') # Set y-axis label plt.ylabel('CD Sales') def label_point(x, y, val, ax): a = pd.concat({'x': x, 'y': y, 'val': val}, axis=1) for i, point in a.iterrows(): ax.text(point['x']+.02, point['y'], str(point['val'])) label_point(df_iris.CD_SALES, df_iris.Followers, df_iris.IDOL_NAME, plt.gca()) https://codeday.me/jp/qa/20190326/481623.html

5. Web スクレイピングする • その3. 食べログのレビュー情報を取得して, 東京のラーメン店/フレ
ンチレストランなランキングを作成する引用; https://qiita.com/toshiyuki_tsutsui/items/f143946944a428ed105b?fbclid=IwAR1xYwmpS0xGbmbyAz7SVlETwhyguMFEYsgdg- Niap27Mj3XurUHjJoG-Bk

5. Web スクレイピングする • 取ってきたいデータ • 店舗名：store_name • 食べログ点数：score •
口コミ件数：review_cnt • 口コミ文章：review

5. Web スクレイピングする • 店名の一覧を取得する

5. Web スクレイピングする • 引数として, self, list_url, mode を指定する
• requests.get で当該URL からデータが取得できるか確認する • BeautifulSoup を用い, html の parse を行う. • soup_a_list で店名のリストを一括して取得する • A タグの list-rst__rst-name-target 部分からデータを取得する

5. Web スクレイピングする • (Google Chromeの場合) F12 を押して, ソースコードを参照する •
タグを確認する

5. Web スクレイピングする店舗名称の部分のソースコードを確認し, store_name_tag に, データの取得範囲を指定し, store_name で span内のstring
を取得することを指定する

5. Web スクレイピングする • 得点に関連するソースコードを確認する

5. Web スクレイピングする • 評価点数の部分のソースコードを確認し, rating_score_tag に, データの取得範囲を指定 (bタグの, c-rating_val
クラスから取得する) し, rating_score で span内のstring を取得することを指定する

5. Web スクレイピングする Tabelog 関数にラーメンのお店一覧のURLを渡す

5. Web スクレイピングする 3.65 3.7 3.75 3.8 3.85 3.9 3.95
4 4.05 4.1 4.15 中華そばしば田麺尊 RAGE 饗くろ喜ラーメン屋トイ・ボックスほっこり中華そばもつけらーめん改中華ソバ伊吹八雲真鯛らーめん麺魚本店 Japanese Soba Noodles 蔦麺みつヰ純手打ちだるまらぁ麺やまぐち麺屋吉左右中華そば屋伊藤中華蕎麦蘭鋳中華蕎麦にし乃 MENSHO 迂直煮干鰮らーめん圓はつね中華そば満鶏軒町田汁場しおらーめん進化町田駅前店麺処びぎ屋らぁ麺やまぐち辣式

麺尊RAGE

5. Web スクレイピングする ※. 著作権の都合上、口コミ内容は薄消しで

5. Web スクレイピングする • Web スクレイピングの注意 • データをダウンロードするとき • 目的は下記のものに限る。
• * 個人や家族間で使用する * Web検索サービスを提供する * 情報解析をする ※参考：著作権法第30条・著作権法第 47条(6,7) • 対象コンテンツは下記のものに限る。 • * 文章（データベースのコンテンツの場合はコンテンツの一部のみに留めておく） * 画像（同上） * 音声（パブリックドメイン等のオープンなライセンスの物に限る） * 映像（同上） ※参考：著作権法第30条・著作権法第 47条(7) • Webサイトへアクセスする時は下記の制限を守る。 • * robots.txt/robotsメタタグのアクセス制限内容を守る。 * robots.txtがない場合でも、サーバアクセスの間隔を1秒以上空けるようにする。 * Pragma:No-cacheメタタグが設定されているページはダウンロードしない。 * rel=”nofollow”が設定されているリンクはクローラーで辿らない。 * 会員のみが閲覧できるページの場合は利用規約を守る。 * 情報収集を禁止する措置（ex.アクセス制限）がクローリング時に取られていた場合は、既に取得していた情報を含めて削除する。 ※参考：著作権法第47条(6) https://qiita.com/nezuq/items/c5e827e1827e7cb29011

5-2. RPA で処理する • RPA(Robotics Process Automation; ロボティクスプロセスオートメーション)とは、現代のホワイトカラーの主要業務である定型的パソコン作業の効率化を図る、ルールエンジンを活用
したソフトウェアロボットである。作業時間を圧倒的に短縮することができ、作業ミス無しで連続稼働が可能であるため、オペレーションプロセスの限界費用を低下させることができる。 • RPAはソフトウェアロボットの特徴を最大限に発揮するもので、具体的には、定型化された表計算ソフト間のデータのやりとり、メールのやりとり、ウェブ情報のリアルタイム収集や確認作業、そして、それら各作業間の連携などを、プログラミングする必要もなくマクロを作成し実行することができる. http://www.jsse.jp/~kenkyu/201631/04/20163104_115-118.pdf

5-2. RPA で処理する • “人力で1件約5分かかっていた作業が、ロボットなら1分30秒で処理できる • 2017年12月にBizRobo!を導入し、データ管理チームの江川氏と田坂氏の2名の担当者が1カ月間の研修を受けた後、ロボット開発を進めていった。まず、Web経由で申し込みのあった顧客情報をSalesforceに
登録する「顧客登録」と、セミナーへ申し込みのあった顧客情報を同じくSalesforceにセミナー参加者情報として登録する「参加登録」を RPA化した。その導入効果は目を見張るものがあった。 • 「顧客登録は従来、人力で1件当たり約5分かかっていましたが、ロボットなら1分30秒で処理できるようになりました。今では全件数のうち約60％をロボットが処理しています。参加登録は人力で1件当たり約3分かかっていたものが、ロボットなら約30秒で処理でき、全体の99％以上をロボットが担っています」（江川氏）” ソース; https://rpa-technologies.com/case/case011/

6. 手入力で作成する • 人力で、雑誌や本からデータセットを作成する • 古いデータ (1980年以前) だとこの手法がどうしても中心に • 一橋大学経済研究所にはデータベース化されたデータもかなり存在
• 極めてめんどくさいし, 入力ミスが発生する可能性

2. ということで、実際にデータを作ってみよう

今回作るデータセット • dancyu 3月号 • 日本酒の酒蔵に関するアンケート調査の Raw Data が掲載
• きっかけ; 入山章栄さん (早稲田ビジネススクール教授; aka 妻の指導教官) のフェイスブック投稿

日本酒の分析でわかりそうなこと; リサーチクエスチョン • 世界的な認知が進む(進みつつある)日本酒を供給するサイドの蔵元が, どのように形成されているか？ • クラスターは, 伝統産業でどのように形成されているか？ •
なぜ伝統的な杜氏と蔵元システムが継続されているのか？大規模生産システムは成立しないのか？規模の経済性は成り立たないのか？

データの中身 • 代表銘柄 • お酒の名前 • 酒造名 • 会社名 •
所在地 • 都道府県名 • 郡名+市町村名 • 創業年 • 元号年 • 西暦年 • 石高 • 一石=一升瓶100本 • 蔵元の名前 • 年齢 • 杜氏または製造責任者 • 年齢 • 造りに関わる人数 • 蔵の考えるスタンダード商品 • 具体的な種類

データの中身(cont.) • 杜氏 • “日本酒の醸造工程を行う職人集団、すなわち蔵人の監督者であり、なおかつ酒蔵の最高製造責任者をいう” • 杜氏になるには、飯焚（かしき /
ままたき / めしたき）から始め、全工程に習熟するまで数十年を要したが、その仕事の内容にふさわしい敬意を払われ、収入面でも恵まれ、「杜氏になれば御殿が建つ」などと言われたものだから、戦前の貧しい農漁村では青少年たちは競って杜氏を志した。手がけた酒の評判が高まれば、どんどん恵まれた環境への引き抜きがあるが、失敗すれば翌年の契約はされないという厳しい実力主義の世界であった。ちょうど現代のベンチャー起業家のような側面を持っていたといえる。 • 日本酒の長期的な消費低迷により、杜氏の数も劇的に減少したが、1980年代以降、若者であらためて日本酒文化を見直し杜氏になろうとする人が増えてきている。また流派ごとに専門学校や訓練所を創設したり、石川県菊姫合資会社による酒マイスター制度のように、蔵単位で後継者の育成に励んでいるところもある。 • 蔵元 • “酒・醤油・味噌・酢などの醸造元をいい、オーナー家を指す総称” • 蔵元の主業は蔵物の委託販売である。蔵元は初め諸藩の米穀を引受け、これを取り扱う蔵役人の称呼で、藩吏がこれに当たっていたが彼等の無能なことから、寛文年間（1661年-1673年）の頃より蔵元の職を藩邸に出入りする町人に委ね、別に留守居役を定詰または年番として蔵元および掛屋を監督させた。 • 江戸時代初期は、各藩から派遣された武士の蔵元が多かったが、寛永年間（1624年-1644年）以降、しだいに町人蔵元が主流となり、寛文年間以降、一般的なものとなった。初期の町人蔵元は、大名や旗本など諸領主が主要都市の大阪・大津・堺などに置いた年貢米の販売業者であった。 Source: https://ja.wikipedia.org/wiki/%E8% 94%B5%E5%85%83 Source: https://ja.wikipedia.org/wiki/ %E6%9D%9C%E6%B0%8F

データの中身 • 杜氏 • “酒造りの最高責任者である杜氏は、蔵内の管理はもちろん、原料の扱いから、酒しぼり、貯蔵、熟成まで、全ての工程に目を配っています。杜氏のもとで酒造りに携わる蔵人は10名ほどで、作業別に役職が決められています。杜氏の補佐役となる頭（か
しら）は、実際の作業の指揮をとり、人員の配置を担当します。麹造りの責任者は代師（だいし）、酒母製造工程の責任者は、もと廻り、もと屋と呼ばれます。この杜氏・頭・代師、あるいは頭・代師・もと廻りの3人を三役と呼んでいます。 • 三役以下の役人（やくびと）としては、米を洗ってから蒸すまでの作業を担当する釜屋（かまや）、出来上がったモロミをしぼる係を船頭（せんどう）、炊事の担当者は広敷番、飯屋（ままや）と呼ばれます。酒蔵に入りたての蔵人は炊事の仕事などからはじめ、厳しい作業に耐えながら仕事を一つひとつ覚えていったのです。” http://www.gekkeikan.co.jp/enjoy/sake/industry/industry03.html

分析出来そうなこと • このデータのみで出来そうなこと • 石高の分布 • 地域ごとの生産量の累計 • 都道府県ごとの特性の解析
• 酒造ごとの特性 (テキスト分析) • ひとりあたりの生産量 • 蔵元と杜氏の関係性 • 親子関係や兄弟関係の有無 (Family Firm か否か) • 年齢の差分 • このデータと他のデータを組み合わせることで出来そうなこと • 杜氏の特性が石高に与える影響 • 杜氏組合 • 地域特性が酒造りに与える影響 • RESAS • 他の産業との関係性の分析

データベース化の手法 • Web スクレイピング • 紙/雑誌ベースなので難しい • RPA • 紙/雑誌ベースなので難しい
• OCR • もしかしたら出来るかもしれない • 手入力 • 出来ればやりたくないけど、確実

いつでも探しているよ、どっかに dancyu の姿を • 3/31 の日本帰国後, 以下の本屋で探してみる • 愛知 •
国立 • 吉祥寺 • 羽田 • みつからない • たぶん、dancyu のバックナンバーが売っている本屋ではないと見つからない

皆様に聞いてみる

結果、みつかりました • 東京駅の丸善

入手しました

データセットを実際に確認する実際のデータを観るとわかること • 表形式になっていない • 途中で改行されている • 空欄のデータが存在する •
表記ゆれが存在する

そこで • OCR で文字を認識できるように、コピーしてスキャナで取り込めるようにする

スキャナーを使って、PDFにする (as known as 「自炊する」) • スキャンしようとすると、紙が詰まったりする • 少し曲がっていたりする

スキャンしたデータをとりあえず, フォント埋め込み型のPDF にする

PDF をテキストデータにする • 最初は調子が良い感じがするが

PDF をテキストデータにする文字は取り出せたが, かなり歪んでいるこのまま利用するのはかなり難しい → そこで, 手打ちで入力することに

今日のソーシャルコーディング

みんなでデータ入力を (20分) • https://docs.google.com/spreadsheets/d/1BkgknWKHeQqW nqCs1uaca7ZFvoBF8x44MWr2EuCclnQ/edit?fbclid=IwAR1q6 UynBqICJxbcHaOJ7Cj7RfN_KNGkyK1G3xDfwGb9ThRxwcIZc MKHXT4 にアクセスしてください (一橋IDを利用してログインしてください)
• 紙に記載された, 以下の情報を入力しましょう • 代表銘柄, 酒造名, 所在地, モットー, 創業年, 石高, 蔵元の名前, 杜氏, 造りに関わる人数, 蔵の考えるスタンダード商品

担当の割り振りスクリーン岩手, 秋田, 宮城, 福島, 茨城, 栃木担当 (5-6人) 群馬,千葉東京,
神奈川, 長野, 新潟担当 (5-6人) 富山, 石川, 福井, 静岡, 愛知, 岐阜,三重担当 (5-6人) 滋賀, 京都, 大阪, 兵庫, 奈良, 和歌山担当 (5-6人) 岡山, 広島, 鳥取, 島根, 山口担当 (5-6人) 徳島, 香川, 愛媛, 高知, 福岡, 佐賀, 長崎, 熊本, 大分担当 (5-6人)

Start!

Tips • 役割分担は即席グループ内で適宜調整を • 打ち込む順番などを考えると楽です

おつかれさまでした

とりあえず現時点のデータセットを確認 • 分布や基礎統計は, Google Docs の機能で確認可能 • 必要に応じて, Jupyter Notebook
+ Python で解析する

いざ入力すると気づくこと • 例外的な表記が, 定型なデータになっているはずなのに, とてもたくさんある • 長い社訓の表記 • 抜けている情報をどう表記するか
• 「主な商品」のカッコ内をどう処理するか • 名前の姓と名の間の空白は全角にすべきか、半角にすべきか • 難しい名前をどう処理するか • 元号はデータとして起こしたほうがよいか？ • 打ち込んだデータが正しく入力されているかのダブルチェックが必要

データベース設計の重要性 • データをどういった形式で, どう分割して保存するか • SQL の場合; データの形式を細かく指定 (前回講義参照) •
文字起こしの場合も, スクレイピングやRPA でデータを取得する場合も, • 1. 元データからどのデータを取得するか • 2. 取得する場合, どういった形式でデータを取得するか • 3. 例外的なデータ/データが入力されていない場合, どう処理するかそれぞれ検討する必要がある

dancyu データセットと組み合わせられるデータセット • a.) 杜氏連合データ • 下野杜氏会 • 長野県醸友会
• 新潟酒造技術研究会 • 丹波杜氏組合 • 但馬杜氏組合 • 南但杜氏組合 • 大和杜氏会 • 南部杜氏協会 • 会津杜氏組合 • 山内杜氏組合 • 能登杜氏組合 • 富山県杜氏会 • 広島杜氏組合 • 大津杜氏組合 • 備中杜氏組合 • 出雲杜氏組合 • 石見杜氏組合 • 高知県杜氏組合 • 九州酒造杜氏組合 • b.) 杜氏の叙勲褒章者リスト • https://nittoren.com/pdf/02_01_190215.pdf

Dancyu データセットと組み合わせられるデータセット (cont.) • c.) 醸いいかも！ • http://www.jozo.or.jp/iikamo/%E6%B5%85%E8%88 %9E%E9%85%92%E9%80%A0%E6%A0%AA%E5%BC
%8F%E4%BC%9A%E7%A4%BE%E6%A3%AE%E8%B0 %B7%E5%BA%B7%E5%B8%82

Dancyu データセットと組み合わせられるデータセット (cont.) • c-2.) 蔵元紀行 • https://www.kuramotokai.com /kikou/
• 蔵主紹介や歴史背景などのテキストデータを, Dancyu データセットと接合して, 企業の特性を解析可能

Dancyu データセットと組み合わせられるデータセット (cont.) • d.) RESAS • 地域経済分析システム •
https://resas.go.jp/#/13/1310 1 • データのダウンロードが可能 • 利用方法は後の講義で解説予定

Dancyu データセットと組み合わせられるデータセット (cont.) • e.) 特許データベース • 酒蔵の研究開発が石高や売上に影響を与えているか •
f.) 企業データベース (DBJ やTDB データベースなど) • 倒産した酒蔵との比較 (サバイバル分析; TDB データベース) • 酒蔵の売上や資本回転率, ROA やROI など

今日のまとめ: データ分析はデータ設計・収集までの作業で70-80％

4. 成績評価の方法

成績評価(1) • 平常レポート (40パーセント; 必須) • 講義計画に示したように、複数の回で学生にはレポートを課します。レポートは Word/PowerPoint形式のメールあるいは, github
経由での提出が求められます(どの方法を採用するかは、初回の講義で決定します)。 • レポートには、(A.) 利用したデータセットとその内容, (B.) 分析の問い, (C.) 分析手法, (D.) 分析結果を明記する必要があります。ページ数や文字数は問いませんが, これらの内容が含まれており, 講義中にアナウンスする評価手法を満たす場合, 高い得点を得ることが出来ます。 • 平常点 (10パーセント) • 本講義は実習が多く含まれており, また取り扱うデータセットや内容も多彩です。そのため、受講者同士が協力する必要があります。こうした受講者の態度を評価するために、平常点を設けます。

成績評価(2) • 最終レポート (40パーセント; 必須) • 講義の最終回では最終レポートの報告会を行います。受講者は3名から4名から構成されるグループで、最終レポートの報告を行う必要があります(人数は受講者の人数により変更される可能性があります)。最終レポートでは、プレゼンテーションの方法を学生は自由に選ぶことが出来ます。PowerPoint
以外にも、Prezi などのアクティブプレゼンテーションツールや、他のプレゼンテーション手法を用いることが出来ます(プレゼンテーションツールについては、必要であれば講義内で説明する機会を設けます)。最終レポートでは、以下の点について評価を行います。 (A.) グループ内の役割分担 (B.) データセットのユニークさおよび、それが適切に処理されているか (C.) 分析手法のユニークさおよび、それが適切に解析されているか (D.) プレゼンテーションのユニークさ (E.) 質疑応答にうまくリプライすることが出来ているか • 最終レポートの360°グループ評価 (10パーセント) • 3. の最終レポートについて、グループの自己評価および他のグループからの評価を行います。3. で挙げた評価ポイントに基づき、グループメンバーおよび他のグループは評価を行います。

次回: データベースを用いた分析(2) 論文データベース [座学、実習] • Clarivate Analytics 社が提供する Web
of Science (https://clarivate.com/products/web-of-science/) では、論文の書誌情報を取得することが出来ます。 • こうしたデータを用いることで、例えば、「日本の大学で最も年ごとの論文数が多いのは何処か？」、「(指導教官の)◦◦先生が書いた論文はt年にx本で、その論文は累計 y 回引用された」などの情報を取得することが出来ます。 • 前回と同様、学生は問いを立てた上で、データベースから必要な情報を取得し解析を行い、レポートに取りまとめる必要があります。

論文データでわかること • 1905年にアインシュタインが出した論文が、誰にどのくらい引用されているのか？ • 企業が基礎研究にどのくらい注力しているのか？ • 大学はどのくらい論文を生産しているのか？ • 「△△学部の◦◦先生」はy年にx個論文を出していて、それがt
回引用されているか？ • Web of Science; • 一橋学部生/院生は学内ネットワークよりアクセス可能

Schumpeter 1947 の後方引用数推移(Web of knowledge) 6/18/2019 91

THANKS [email protected]

#経済学のための実践的データ分析 6.1 データを取得するための5から6の方法

#経済学のための実践的データ分析 6.1 データを取得するための5から6の方法

More Decks by yasushihara

Other Decks in Education

Featured

Transcript