Slide 1

Slide 1 text

住まい探しの利便性向上に データベース・情報アクセス技術が 果たした役割 株式会社LIFULL AI戦略室 主席研究員 博⼠(情報学) 清⽥ 陽司 DBSJ 最強データベース講義シリーズ #22 2023年1⽉18⽇ 1

Slide 2

Slide 2 text

清⽥ 陽司 博⼠(情報学) 株式会社LIFULL AI戦略室 主席研究員 兼 東京⼤学空間情報科学研究センター 客員研究員 麗澤⼤学AI・ビジネス研究センター 客員准教授 1975年 福岡県⽣まれ 2004年 京都⼤学⼤学院情報学研究科 博⼠課程修了 2004-2012年 東京⼤学情報基盤センター 助⼿・助教・特任講師 2007-2011年 株式会社リッテル 上席研究員・取締役CTO 2011年 株式会社LIFULL 主席研究員(バイアウト) 関⼼分野: ⾃然⾔語処理応⽤ → 検索・推薦 → 情報リテラシー (図書館) → ⽣活領域 (不動産、介護 etc.)、産学連携 主な対外的活動 • DEIM 2023産学連携委員⻑ • 情報処理学会 データベースシステム研究会 運営委員 (2020.4〜) • 情報科学技術協会(INFOSTA)会⻑ (2022.7〜) • ⼈⼯知能学会 理事/編集委員⻑ (2020.6〜2022.6)

Slide 3

Slide 3 text

No content

Slide 4

Slide 4 text

No content

Slide 5

Slide 5 text

株式会社LIFULL AI戦略室 • 2018年7⽉、社⻑直轄のAIビジネス実装部⾨として 設置 • 主なミッション • 物件画像への深層学習適⽤ • グローバル不動産市場における物件価値推定 • 不動産マーケティングの⾃動化 • etc.

Slide 6

Slide 6 text

6

Slide 7

Slide 7 text

7

Slide 8

Slide 8 text

LIFULL HOME’S PRICE MAP 8

Slide 9

Slide 9 text

Walkability Index(住みやすさ指標) 9

Slide 10

Slide 10 text

10

Slide 11

Slide 11 text

本⽇のテーマ • データベース・情報アクセス技術が、不動産テッ クの発展にどういう役割を果たしてきたか? • そもそも、どういった歴史的経緯で⽣まれてきた のか? • データベース技術、情報アクセス技術を不動産市 場の健全な発展につなげるポイントは何か?

Slide 12

Slide 12 text

朝倉書店「不動産テック」

Slide 13

Slide 13 text

1. 不動産市場とテクノロジー 1.1 AIと不動産業 1.2 不動産のマッチング 1.3 不動産テックによる社会課題解決 1.4 良質なデータ資源の重要性:Garbage in garbage out 2. 不動産市場分析の理論 2.1 ヘドニックアプローチによる不動産価格分析 2.2 ヘドニック価格関数の推定 2.3 不動産価格の分解と予測 2.4 不動産価格の実際の推計 3. 不動産テックにおける機械学習の数理 3.1 不動産市場分析と機械学習 3.2 勾配降下法 3.3 線形回帰 3.4 分類(ロジスティック回帰) 3.5 ニューラルネットワーク 3.6 ノーフリーランチ定理 4. 不動産市場分析における統計・機械学習の利⽤ 4.1 不動産市場分析における統計・機械学習の⼿法 4.2 線形回帰モデル 4.3 分位点回帰 4.4 ニューラルネットワーク 4.5 その他の⼿法 4.6 ⼿法の適⽤ 5. 不動産市場への機械学習の応⽤ 5.1 不動産市場分析の実際 5.2 予測モデルのための不動産価格データの⽤意 5.3 推計⼿法の選択肢 5.4 不動産価格の予測モデル 5.5 不動産市場における介⼊効果の測定 5.6 傾向スコアを⽤いた実証分析の事例 5.7 不動産市場分析における機械学習の応⽤と課題 6. 不動産市場分析におけるGISの活⽤ 6.1 不動産市場分析とGIS 6.2 GIS の活⽤ 6.3 空間集計における基本操作 6.4 空間データの相関と補間 6.5 空間特性に配慮した不動産価格構造の推定 6.6 空間構造の取り扱い 6.7 実データを⽤いた推計例 6.8 推計結果 6.9 不動産市場分析の発展可能性 7. GISを⽤いたエリア指標の開発 7.1 エリア指標と不動産テック 7.2 不動産の価値評価 7.3 「Walkability Index」の開発 7.4 Walkability Index研究の発展可能性 8. 不動産間取り図の認識と応⽤ 8.1 市場探索⾏動における不動産間取り図 8.2 関連研究 8.3 間取り画像のグラフ化⼿法 8.4 実験 8.5 不動産間取り図の認識と応⽤に関するまとめ 9. 不動産物件情報の流通と活⽤を⽀えるデータベース・情報ア クセス技術 9.1 データベース・情報アクセス技術の発展 9.2 不動産物件情報へのデータベース・情報アクセス技術の応 ⽤ 9.3 RDBMSの仕組み 9.4 不動産物件画像への深層学習の適⽤ 9.5 質の⾼い不動産物件データベースの構築 10. 官⺠ビッグデータを⽤いた空き家分布把握⼿法の開発 10.1 わが国における空き家の増加とその問題背景 10.2 既存の空き家分布把握の⼿法 10.3 空き家分布把握に有⽤なデータ 10.4 ⿅児島県⿅児島市の事例 10.5 群⾺県前橋市の事例 10.6 空き家は予測できるのか? 11. 不動産⾦融市場における不動産テック 11.1 不動産投資信託(REIT)市場におけるデータ資源 11.2 REIT市場データとREIT研究の動向 11.3 ⻑期的な資産⼊替の分析 11.4 REIT情報を⽤いた不動産市場分析の⽅向性

Slide 14

Slide 14 text

14

Slide 15

Slide 15 text

15

Slide 16

Slide 16 text

16

Slide 17

Slide 17 text

Agenda 1. データベース・情報アクセス技術と不動産テック の発展の歴史 2. データベース技術の基本的な概念 3. 質の⾼い不動産データベース構築に向けた取り組 みの事例紹介 4. 不動産テックの健全な発展に必要なこと 17

Slide 18

Slide 18 text

Agenda 1. データベース・情報アクセス技術と不動産テック の発展の歴史 2. データベース技術の基本的な概念 3. 質の⾼い不動産データベース構築に向けた取り組 みの事例紹介 4. 不動産テックの健全な発展に必要なこと 18

Slide 19

Slide 19 text

主な出来事 データベース・情報アクセス技術 不動産情報と不動産テック 18世紀〜 19世紀 産業⾰命 (蒸気機関、鉄道など) 図書⽬録(カード式) ※機械式計算機の時代 不動産取引業者による定期的 な情報交換の場(⽶国、MLSの 起源?) 1900年代 真空管の発明 全⽶リアルター協会(NAR)の 成⽴ 1930年代 チューリングによる「知能 機械」の概念の提唱 ⽶国におけるMLSの普及 1940年代 第⼆次世界⼤戦 ENIACの開発 マンハッタン計画(原爆) ドキュメンテーション研究の端緒 Vannevar Bushによる「memex」構想(現在の Webにつながる概念?) 1950年代 世界初の⼈⼯衛星スプート ニク1号の打ち上げ(ソ連) Young and Kentによるデータベースに関する先 駆的研究 IBMのLuhnによる⽂献検索の研究 1960年代 ⽶ソ間の冷戦の激化 (キューバ危機など) ARPANETの開発 IBMのCoddによる関係データベースの提案 医学⽂献検索システムMEDLARSの実⽤化 SaltonらによるSMARTシステムの開発 1970年代 世界初の商⽤マイクロプロ セッサ(Intel 4004) パソコンの販売開始 関係データベースの実装(SQLデータベー ス)の商⽤化(Oracleなど) MLSのデータベース化 1980年代 パソコン通信の実⽤化 冷戦の終結 各種⽂献検索サービスの発達 商⽤データベースサービスのビジネス拡⼤ MLSのオンラインサービス化 1990年代 インターネットの商⽤開 放・爆発的普及 マルチメディア技術(画像や動画)の発展 Googleのサービス開始(PageRank) REINSのサービス開始 不動産情報サイトの出現 2000年代 SNSやスマートフォンの出現 ビッグデータに対応したデータベース技術 (NoSQL)の開発 Zillow設⽴(Microsoftからのス ピンオフ) 2010年代 ⽶GAFAMや中BATの台頭 深層学習による画像・動画処理 不動産テック企業群の増加 2020年代 (⽶中対⽴の激化?) ? ? 19

Slide 20

Slide 20 text

20 https://commons.wikimedia.org/wiki/File:SML-Card-Catalog.jpg

Slide 21

Slide 21 text

21 https://commons.wikimedia.org/wiki/File:Schlagwortkatalog.jpg

Slide 22

Slide 22 text

ENIAC (1946) 22 https://commons.wikimedia.org/wiki/File:Eniac.jpg

Slide 23

Slide 23 text

マンハッタン計画 (1942-1947) 23 https://commons.wikimedia.org/wiki/File:Manhttan_Project_Organization_Chart.gif

Slide 24

Slide 24 text

memex (1945) 24 https://hpc-internal.carnegiescience.edu/

Slide 25

Slide 25 text

Young and Kent (1958) 25 https://doi.org/10.1145/610937.610967

Slide 26

Slide 26 text

26 Codd, E.F. (1970). “A Relational Model of Data for Large Shared Data Banks”. Communications of the ACM 13 (6): 377–387. doi:10.1145/362384.36268

Slide 27

Slide 27 text

主な出来事 データベース・情報アクセス技術 不動産情報と不動産テック 18世紀〜 19世紀 産業⾰命 (蒸気機関、鉄道など) 図書⽬録(カード式) ※機械式計算機の時代 不動産取引業者による定期的 な情報交換の場(⽶国、MLSの 起源?) 1900年代 真空管の発明 全⽶リアルター協会(NAR)の 成⽴ 1930年代 チューリングによる「知能 機械」の概念の提唱 ⽶国におけるMLSの普及 1940年代 第⼆次世界⼤戦 ENIACの開発 マンハッタン計画(原爆) ドキュメンテーション研究の端緒 Vannevar Bushによる「memex」構想(現在の Webにつながる概念?) 1950年代 世界初の⼈⼯衛星スプート ニク1号の打ち上げ(ソ連) Young and Kentによるデータベースに関する先 駆的研究 IBMのLuhnによる⽂献検索の研究 1960年代 ⽶ソ間の冷戦の激化 (キューバ危機など) ARPANETの開発 IBMのCoddによる関係データベースの提案 医学⽂献検索システムMEDLARSの実⽤化 SaltonらによるSMARTシステムの開発 1970年代 世界初の商⽤マイクロプロ セッサ(Intel 4004) パソコンの販売開始 関係データベースの実装(SQLデータベー ス)の商⽤化(Oracleなど) MLSのデータベース化 1980年代 パソコン通信の実⽤化 冷戦の終結 各種⽂献検索サービスの発達 商⽤データベースサービスのビジネス拡⼤ MLSのオンラインサービス化 1990年代 インターネットの商⽤開 放・爆発的普及 マルチメディア技術(画像や動画)の発展 Googleのサービス開始(PageRank) REINSのサービス開始 不動産情報サイトの出現 2000年代 SNSやスマートフォンの出現 ビッグデータに対応したデータベース技術 (NoSQL)の開発 Zillow設⽴(Microsoftからのス ピンオフ) 2010年代 ⽶GAFAMや中BATの台頭 深層学習による画像・動画処理 不動産テック企業群の増加 2020年代 (⽶中対⽴の激化?) ? ? 27

Slide 28

Slide 28 text

28

Slide 29

Slide 29 text

不動産情報のデータベース化の 始まり • 18世紀の⽶国で、不動産取引業者同⼠が定期的に 集まって情報交換を始めたとされる • Multiple Listing Service(MLS) • 不動産の売り情報をリスト化、共有化して取引を⽀援す る仕組み • 20世紀初頭から、⽶国を中⼼に発達 • 1970年代からデータベースサービス開始 • ⽇本でも、1990年代より不動産流通機構(レイン ズ)によるオンラインサービス開始 29

Slide 30

Slide 30 text

インターネットの普及が 不動産情報流通に与えた影響 • ⼀般消費者の物件探しの⽅法が⼤きく変化 • 物件サイトなどで検索することが当たり前になった • 不動産テック企業の出現 • Zillowの創業(2006年、Microsoftからのスピンオフ) 30

Slide 31

Slide 31 text

空室 (売物件) オーナー (売主) 指定流通機構 (REINS) 不動産 管理会社 (売⼿媒介) 不動産 仲介会社 物件情報 コンバーター 運営会社 不動産ポータル 運営会社 借主 (買主) (1) (2) (3) (4) (5) (6) (7) 物件情報が届く仕組み

Slide 32

Slide 32 text

不動産テックにおけるデータベース・ 情報アクセス技術の役割 • 良質なデータ資源の形成(1.4章, p. 12) • 「いくらゴミを学習させてもゴミしか出てこない」 (Garbage in, Garbage out) • 不動産情報の「⺠主化」 • 専⾨家(不動産会社の社員や不動産鑑定⼠)だけがアク セスする情報から、不動産物件を取引する誰もがアクセ スする情報へ 32

Slide 33

Slide 33 text

ポイント • データベース・情報アクセス技術は、軍事・科学 上のニーズと軌を⼀にして発展 • パソコンやインターネットの普及以降は、⺠間主導で発 達 • MLS(Multiple Listing Service)の発達、不動産情報 の⺠主化も、上記の動きに密接に連動 • 相互の影響は近年ますます密接に 33

Slide 34

Slide 34 text

Agenda 1. データベース・情報アクセス技術と不動産テック の発展の歴史 2. データベース技術の基本的な概念 3. 質の⾼い不動産データベース構築に向けた取り組 みの事例紹介 4. 不動産テックの健全な発展に必要なこと 34

Slide 35

Slide 35 text

参考図書 35 データサイエンスのためのデータベース (データサイエンス⼊⾨シリーズ) 吉岡 真治 (著), 村井 哲也 (著), ⽔⽥ 正弘 (編集) リレーショナルデータベース⼊⾨ ―データモデル・SQL・管理システム・NoSQL 増永 良⽂ (著)

Slide 36

Slide 36 text

データベースシステムの分類 • 関係データベース(relational database) • IBMのCoddによる関係モデル概念の提唱(1970年) • 関係データベース管理システムとしての実装(RDBMS = Relational DataBase Management System) • 問い合わせ⾔語の開発 • SEQUEL(Structured English QUEry Language)→ SQL • SQLの標準化 (SQL-86, SQL-92, …, SQL:2006) • NoSQL:関係モデルによらないデータベース実装 • インターネットに適したデータベースの開発(XML、 ビッグデータ、…) 36

Slide 37

Slide 37 text

RDBMSにおけるテーブル 37

Slide 38

Slide 38 text

テーブルにおける主キー (primary key)の設定 38

Slide 39

Slide 39 text

テーブルの正規形、正規化 • 第1正規形 • テーブル内のすべての関係が単⼀の値をもつ • 第2正規形 • 第1正規形で、かつすべての⾮キー属性が主キーに完全 関数従属する • 第3正規形 • 第2正規形で、かつ⾮キー属性間に⾃明でない関数従属 性が存在しない 39

Slide 40

Slide 40 text

40

Slide 41

Slide 41 text

登記件数データの正規化 41

Slide 42

Slide 42 text

CAP定理 E. Brewerによる整理(2002年) • C: Consistency:データの⼀貫性の確保 • A: Availability:データの⾼い可⽤性(データをいつ でも利⽤可能にすること) • P: Torrelance to network Partitions:データの分散に 対する⾼い許容度 上記の3つの性質を同時に成り⽴たせるシステムは存 在しない (多くのRDBMSは、C, Aを満たすがPは満たさない) 42

Slide 43

Slide 43 text

Web規模のビッグデータへの対応 • A, Pを同時に満たすシステムへのニーズ増⼤ • ⼤規模なWebサービスにとっては必須の要件 • その代わり、Cはある程度あきらめる • RDBMSでないデータベースシステムの開発 • 2000年代に多くの分散型データベースが提案、実装 • 総称としてNoSQLが提案(2009年) 43

Slide 44

Slide 44 text

主なNoSQLデータベース • Key-Value Storeデータベース • ⼤量のKeyとValueの組み合わせを保存する • 代表例: Redis, Memcached • 列指向データベース • 疎な(sparse)データに適したデータベース(⽂書-単語 の関係など) • 代表例: Apache Cassandra, Google Bigtable • ドキュメント指向データベース • XMLやJSONなどの半構造化データに適したデータベース • 代表例: MongoDB, Couchbase • RDFデータベース • Linked Open Dataやナレッジグラフの扱いに適したデータ ベース • 代表例: Neo4j, JanusGraph 44

Slide 45

Slide 45 text

ポイント • データのライフサイクルや再利⽤可能性を考慮し たデータ構造の定義、システムの選択が重要 • データベースは基礎教養の⼀つになりつつある • 平成30年施⾏の新学習指導要領では、⾼等学校「情報 科」の専⾨教科の⼀つに位置づけられた 45

Slide 46

Slide 46 text

cf. ⾼校「情報科」の構成 46 ⽂部科学省: ⾼等学校学習指導要領(平成30年告⽰)解説 情報編 平成30年7⽉ https://www.mext.go.jp/content/1407073_11_1_2.pdf

Slide 47

Slide 47 text

Agenda 1. データベース・情報アクセス技術と不動産テック の発展の歴史 2. データベース技術の基本的な概念 3. 質の⾼い不動産データベース構築に向けた取り組 みの事例紹介 4. 不動産テックの健全な発展に必要なこと 47

Slide 48

Slide 48 text

空室 (売物件) オーナー (売主) 指定流通機構 (REINS) 不動産 管理会社 (売⼿媒介) 不動産 仲介会社 物件情報 コンバーター 運営会社 不動産ポータル 運営会社 借主 (買主) (1) (2) (3) (4) (5) (6) (7) 物件情報の 棟寄せ・⼾寄せ問題

Slide 49

Slide 49 text

No content

Slide 50

Slide 50 text

物件情報精度向上の試み • 情報の誤りの機械学習による検出 • 他社と同⼀の物件情報だと思われる場合は、是正を促す • 画像なども棟寄せ・⼾寄せの⼿がかりとなる • 表記揺れなどを吸収したマッチング • 住所表記(○○町3丁⽬2-5 ⇔ ○○町3-2-5) • 物件名(△△APARTMENT 1番館 ⇔ △△アパートメント 壱番館) • …

Slide 51

Slide 51 text

No content

Slide 52

Slide 52 text

レコード同定(record linkage) • 図書⽬録の典拠管理(18世紀〜) • 「ウィリアム・シェイクスピア」「Shakespeare, William」「沙⼠⽐阿」を同⼀著者として扱う • 個⼈のレコード同定⽅法の提案 [Dunn 46] • 疫学調査のため、出⽣から死亡までの⼀貫した記録管理 が必要とされた • レコード同定の数学的定義 [Newcombe 59, Fellegi 69]

Slide 53

Slide 53 text

No content

Slide 54

Slide 54 text

提案⼿法のフロー

Slide 55

Slide 55 text

物件間相違度の閾値による 適合率-再現率グラフ

Slide 56

Slide 56 text

Agenda 1. データベース・情報アクセス技術と不動産テック の発展の歴史 2. データベース技術の基本的な概念 3. 質の⾼い不動産データベース構築に向けた取り組 みの事例紹介 4. 不動産テックの健全な発展に必要なこと 56

Slide 57

Slide 57 text

不動産テックの健全な発展に 必要なこと • 質の⾼いデータベースの構築と利⽤が、すべての ステークホルダーの利益になることについての認 識の共有 • データベースの基礎があらゆる産業で必須の教養 とされつつあることへの認識 • データの提供者=利⽤者の間の信頼関係の構築 57

Slide 58

Slide 58 text

信頼関係を構築していくために • データ資源の整備・共有 • さまざまなステークホルダーとの連携 • 対エンドユーザー、対クライアント企業 • 業界団体 • ⾏政(国・地⽅⾃治体) • アカデミア • etc. • 異分野の⼈々どうしの建設的な対話の場

Slide 59

Slide 59 text

国⽴情報学研究所 情報学研究データリポジトリ (NII-IDR) LIFULL HOME’Sデータセット • 2015年11⽉より提供開始 • データセットの内容 • スナップショット • 2015年8⽉現在の全賃貸物件 データ • 上記に紐付く画像データ • ⽉次データ • 2015年7⽉〜2017年6⽉の24ヶ ⽉分 • 緯度・経度が付与 2019年10⽉、延べ利⽤申し込み数が 100を超えました (⽇本国内のほか、⽶国・カナダ・ 中国)

Slide 60

Slide 60 text

https://www.sumave.com/20180926_6566/

Slide 61

Slide 61 text

「たとえば、クローリングです。この25年間をかけて、私たち は不動産価格を推計するための新しい⼿法を多く開発してきま した。新しい推計⼿法ができれば論⽂として公開し、作った ソースコードをインターネット上に絶えず公開してきたんです。 こうした技術⾰新は、「研究、開発、公開、共有のサイクル」 が繰り返されました。その結果、AIによる機械学習の精度は、 以前とは⽐べ物にならないくらいに⾼精度です。精度が⾼いだ けではありません、⼿軽にもなったのです。 (中略) IT化の進んでいない不動産業界において、テクノロジー活⽤か ら得られる恩恵は、今後も⼤きくなるでしょう。不動産テック は、不動産市場を活性化したり、業界関係者の業務効率を改善 したりする、⼤きな可能性をまだまだ秘めています。同時に、 想像もしていない、望まないような事態を招く危険性もあるの です。その危険が、消費者にふりかかることを危惧していま す」

Slide 62

Slide 62 text

私たち研究者は、多くの先⼈たちと⼀緒に研究開発をしてきま した。それは、消費者をだますためではありません。⽣活を便 利にしたり、豊かにしたりするためです。 不動産業界には、いま、いろいろな組織が⽴ち上がる動きもあ るようですが、既存の業界や先⼈たちへの敬意を持ち、消費者 が不利益をこうむらないよう、配慮を続けてほしいなというの が、私の個⼈的な想いです。今後は、これまで以上に、研究者、 企業、業界組織、官公庁が⼿を取り合う時代となるでしょう。 そのとき、どの⽴場においても、「相⼿への敬意」は重要だと 考えています。敬意が⽋けることで⽣まれてしまうのが、⼀⽅ 的な想いです。それぞれが⼀⽅的になることで、「消費者が望 まないような、おかしな⽅向へ、⼈間社会が進んでしまうので はないか」と憂慮します。では、おかしくない⽅向、正しい⽅ 向とはどこかというと、テクノロジーが⼈の幸せに寄与する⽅ 向です。たとえば、企業なら、「テクノロジーが⽣かされたこ のサービスは、⼈の幸せに寄与しているか」という点にありま す」

Slide 63

Slide 63 text

⻑尾 真 先⽣ (1936-2021) インタビュー “⼤学には⾊々な研究者がいるし、いろいろな学問もありますが、 異分野の⼈たちと真剣に議論する場がすごく⼤事だと思いますね。 私なんかはどちらかというと、⼀⼈で考えて⾒つけることが多い のですが、⼈と議論をしていると、⾃分⾃⾝で⾯⽩いことを⾔っ ている時があって、なんで⾃分はこんな⾯⽩いことを⼝⾛ったの かなあと思うこともありますね。異分野の⼈との対話が⼤切です。 総合⼤学は、異分野の⼈と徹底的に議論するということをもっと もっとやってく必要があると思います。私が教授になった時、35、 6歳の頃から、⾔語学や⼼理学の⼈たちや医学の⼈たちと⽉に⼀ 回、徹底的な議論をしました。そういうところからも⾯⽩いテー マが出てきます。総合⼤学はそういうことを積極的にやって、新 しいものの考え⽅を切り拓いていかないと、タコ壺みたいなこと をやっていたら、総合⼤学の意味はない。そういう余裕を持って もらいたいです。やっぱり、研究はロマンを持たないと。それが ⼀番⼤事なんじゃないかと思います。” 弁護⼠ドットコムニュース: 「未来から来た」情報⼯学者・⻑尾真、飽くなき⼈間への興味と哲学への回帰. 2019年1⽉24⽇掲載. https://www.bengo4.com/c_23/n_9133/