日本データベース学会主催 最強データベース講義 #22 2023年1月18日 https://dblectures.connpass.com/
住まい探しの利便性向上にデータベース・情報アクセス技術が果たした役割株式会社LIFULL AI戦略室 主席研究員博⼠(情報学)清⽥ 陽司DBSJ 最強データベース講義シリーズ #222023年1⽉18⽇1
View Slide
清⽥ 陽司 博⼠(情報学)株式会社LIFULL AI戦略室 主席研究員兼 東京⼤学空間情報科学研究センター 客員研究員麗澤⼤学AI・ビジネス研究センター 客員准教授1975年 福岡県⽣まれ2004年 京都⼤学⼤学院情報学研究科 博⼠課程修了2004-2012年 東京⼤学情報基盤センター 助⼿・助教・特任講師2007-2011年 株式会社リッテル 上席研究員・取締役CTO2011年 株式会社LIFULL 主席研究員(バイアウト)関⼼分野: ⾃然⾔語処理応⽤ → 検索・推薦→ 情報リテラシー (図書館) → ⽣活領域 (不動産、介護 etc.)、産学連携主な対外的活動• DEIM 2023産学連携委員⻑• 情報処理学会 データベースシステム研究会 運営委員 (2020.4〜)• 情報科学技術協会(INFOSTA)会⻑ (2022.7〜)• ⼈⼯知能学会 理事/編集委員⻑ (2020.6〜2022.6)
株式会社LIFULL AI戦略室• 2018年7⽉、社⻑直轄のAIビジネス実装部⾨として設置• 主なミッション• 物件画像への深層学習適⽤• グローバル不動産市場における物件価値推定• 不動産マーケティングの⾃動化• etc.
6
7
LIFULL HOME’S PRICE MAP8
Walkability Index(住みやすさ指標)9
10
本⽇のテーマ• データベース・情報アクセス技術が、不動産テックの発展にどういう役割を果たしてきたか?• そもそも、どういった歴史的経緯で⽣まれてきたのか?• データベース技術、情報アクセス技術を不動産市場の健全な発展につなげるポイントは何か?
朝倉書店「不動産テック」
1. 不動産市場とテクノロジー1.1 AIと不動産業1.2 不動産のマッチング1.3 不動産テックによる社会課題解決1.4 良質なデータ資源の重要性:Garbage in garbage out2. 不動産市場分析の理論2.1 ヘドニックアプローチによる不動産価格分析2.2 ヘドニック価格関数の推定2.3 不動産価格の分解と予測2.4 不動産価格の実際の推計3. 不動産テックにおける機械学習の数理3.1 不動産市場分析と機械学習3.2 勾配降下法3.3 線形回帰3.4 分類(ロジスティック回帰)3.5 ニューラルネットワーク3.6 ノーフリーランチ定理4. 不動産市場分析における統計・機械学習の利⽤4.1 不動産市場分析における統計・機械学習の⼿法4.2 線形回帰モデル4.3 分位点回帰4.4 ニューラルネットワーク4.5 その他の⼿法4.6 ⼿法の適⽤5. 不動産市場への機械学習の応⽤5.1 不動産市場分析の実際5.2 予測モデルのための不動産価格データの⽤意5.3 推計⼿法の選択肢5.4 不動産価格の予測モデル5.5 不動産市場における介⼊効果の測定5.6 傾向スコアを⽤いた実証分析の事例5.7 不動産市場分析における機械学習の応⽤と課題6. 不動産市場分析におけるGISの活⽤6.1 不動産市場分析とGIS6.2 GIS の活⽤6.3 空間集計における基本操作6.4 空間データの相関と補間6.5 空間特性に配慮した不動産価格構造の推定6.6 空間構造の取り扱い6.7 実データを⽤いた推計例6.8 推計結果6.9 不動産市場分析の発展可能性7. GISを⽤いたエリア指標の開発7.1 エリア指標と不動産テック7.2 不動産の価値評価7.3 「Walkability Index」の開発7.4 Walkability Index研究の発展可能性8. 不動産間取り図の認識と応⽤8.1 市場探索⾏動における不動産間取り図8.2 関連研究8.3 間取り画像のグラフ化⼿法8.4 実験8.5 不動産間取り図の認識と応⽤に関するまとめ9. 不動産物件情報の流通と活⽤を⽀えるデータベース・情報アクセス技術9.1 データベース・情報アクセス技術の発展9.2 不動産物件情報へのデータベース・情報アクセス技術の応⽤9.3 RDBMSの仕組み9.4 不動産物件画像への深層学習の適⽤9.5 質の⾼い不動産物件データベースの構築10. 官⺠ビッグデータを⽤いた空き家分布把握⼿法の開発10.1 わが国における空き家の増加とその問題背景10.2 既存の空き家分布把握の⼿法10.3 空き家分布把握に有⽤なデータ10.4 ⿅児島県⿅児島市の事例10.5 群⾺県前橋市の事例10.6 空き家は予測できるのか?11. 不動産⾦融市場における不動産テック11.1 不動産投資信託(REIT)市場におけるデータ資源11.2 REIT市場データとREIT研究の動向11.3 ⻑期的な資産⼊替の分析11.4 REIT情報を⽤いた不動産市場分析の⽅向性
14
15
16
Agenda1. データベース・情報アクセス技術と不動産テックの発展の歴史2. データベース技術の基本的な概念3. 質の⾼い不動産データベース構築に向けた取り組みの事例紹介4. 不動産テックの健全な発展に必要なこと17
Agenda1. データベース・情報アクセス技術と不動産テックの発展の歴史2. データベース技術の基本的な概念3. 質の⾼い不動産データベース構築に向けた取り組みの事例紹介4. 不動産テックの健全な発展に必要なこと18
主な出来事 データベース・情報アクセス技術 不動産情報と不動産テック18世紀〜19世紀産業⾰命(蒸気機関、鉄道など)図書⽬録(カード式)※機械式計算機の時代不動産取引業者による定期的な情報交換の場(⽶国、MLSの起源?)1900年代 真空管の発明 全⽶リアルター協会(NAR)の成⽴1930年代 チューリングによる「知能機械」の概念の提唱⽶国におけるMLSの普及1940年代 第⼆次世界⼤戦ENIACの開発マンハッタン計画(原爆)ドキュメンテーション研究の端緒Vannevar Bushによる「memex」構想(現在のWebにつながる概念?)1950年代 世界初の⼈⼯衛星スプートニク1号の打ち上げ(ソ連)Young and Kentによるデータベースに関する先駆的研究IBMのLuhnによる⽂献検索の研究1960年代 ⽶ソ間の冷戦の激化(キューバ危機など)ARPANETの開発IBMのCoddによる関係データベースの提案医学⽂献検索システムMEDLARSの実⽤化SaltonらによるSMARTシステムの開発1970年代 世界初の商⽤マイクロプロセッサ(Intel 4004)パソコンの販売開始関係データベースの実装(SQLデータベース)の商⽤化(Oracleなど)MLSのデータベース化1980年代 パソコン通信の実⽤化冷戦の終結各種⽂献検索サービスの発達商⽤データベースサービスのビジネス拡⼤MLSのオンラインサービス化1990年代 インターネットの商⽤開放・爆発的普及マルチメディア技術(画像や動画)の発展Googleのサービス開始(PageRank)REINSのサービス開始不動産情報サイトの出現2000年代 SNSやスマートフォンの出現 ビッグデータに対応したデータベース技術(NoSQL)の開発Zillow設⽴(Microsoftからのスピンオフ)2010年代 ⽶GAFAMや中BATの台頭 深層学習による画像・動画処理 不動産テック企業群の増加2020年代 (⽶中対⽴の激化?) ? ? 19
20https://commons.wikimedia.org/wiki/File:SML-Card-Catalog.jpg
21https://commons.wikimedia.org/wiki/File:Schlagwortkatalog.jpg
ENIAC (1946)22https://commons.wikimedia.org/wiki/File:Eniac.jpg
マンハッタン計画 (1942-1947)23https://commons.wikimedia.org/wiki/File:Manhttan_Project_Organization_Chart.gif
memex (1945)24https://hpc-internal.carnegiescience.edu/
Young and Kent (1958)25https://doi.org/10.1145/610937.610967
26Codd, E.F. (1970). “A Relational Model of Data for Large Shared Data Banks”. Communications of the ACM 13 (6): 377–387.doi:10.1145/362384.36268
主な出来事 データベース・情報アクセス技術 不動産情報と不動産テック18世紀〜19世紀産業⾰命(蒸気機関、鉄道など)図書⽬録(カード式)※機械式計算機の時代不動産取引業者による定期的な情報交換の場(⽶国、MLSの起源?)1900年代 真空管の発明 全⽶リアルター協会(NAR)の成⽴1930年代 チューリングによる「知能機械」の概念の提唱⽶国におけるMLSの普及1940年代 第⼆次世界⼤戦ENIACの開発マンハッタン計画(原爆)ドキュメンテーション研究の端緒Vannevar Bushによる「memex」構想(現在のWebにつながる概念?)1950年代 世界初の⼈⼯衛星スプートニク1号の打ち上げ(ソ連)Young and Kentによるデータベースに関する先駆的研究IBMのLuhnによる⽂献検索の研究1960年代 ⽶ソ間の冷戦の激化(キューバ危機など)ARPANETの開発IBMのCoddによる関係データベースの提案医学⽂献検索システムMEDLARSの実⽤化SaltonらによるSMARTシステムの開発1970年代 世界初の商⽤マイクロプロセッサ(Intel 4004)パソコンの販売開始関係データベースの実装(SQLデータベース)の商⽤化(Oracleなど)MLSのデータベース化1980年代 パソコン通信の実⽤化冷戦の終結各種⽂献検索サービスの発達商⽤データベースサービスのビジネス拡⼤MLSのオンラインサービス化1990年代 インターネットの商⽤開放・爆発的普及マルチメディア技術(画像や動画)の発展Googleのサービス開始(PageRank)REINSのサービス開始不動産情報サイトの出現2000年代 SNSやスマートフォンの出現 ビッグデータに対応したデータベース技術(NoSQL)の開発Zillow設⽴(Microsoftからのスピンオフ)2010年代 ⽶GAFAMや中BATの台頭 深層学習による画像・動画処理 不動産テック企業群の増加2020年代 (⽶中対⽴の激化?) ? ? 27
28
不動産情報のデータベース化の始まり• 18世紀の⽶国で、不動産取引業者同⼠が定期的に集まって情報交換を始めたとされる• Multiple Listing Service(MLS)• 不動産の売り情報をリスト化、共有化して取引を⽀援する仕組み• 20世紀初頭から、⽶国を中⼼に発達• 1970年代からデータベースサービス開始• ⽇本でも、1990年代より不動産流通機構(レインズ)によるオンラインサービス開始29
インターネットの普及が不動産情報流通に与えた影響• ⼀般消費者の物件探しの⽅法が⼤きく変化• 物件サイトなどで検索することが当たり前になった• 不動産テック企業の出現• Zillowの創業(2006年、Microsoftからのスピンオフ)30
空室(売物件)オーナー(売主)指定流通機構(REINS)不動産管理会社(売⼿媒介)不動産仲介会社物件情報コンバーター運営会社不動産ポータル運営会社借主(買主)(1)(2)(3)(4)(5)(6)(7)物件情報が届く仕組み
不動産テックにおけるデータベース・情報アクセス技術の役割• 良質なデータ資源の形成(1.4章, p. 12)• 「いくらゴミを学習させてもゴミしか出てこない」(Garbage in, Garbage out)• 不動産情報の「⺠主化」• 専⾨家(不動産会社の社員や不動産鑑定⼠)だけがアクセスする情報から、不動産物件を取引する誰もがアクセスする情報へ32
ポイント• データベース・情報アクセス技術は、軍事・科学上のニーズと軌を⼀にして発展• パソコンやインターネットの普及以降は、⺠間主導で発達• MLS(Multiple Listing Service)の発達、不動産情報の⺠主化も、上記の動きに密接に連動• 相互の影響は近年ますます密接に33
Agenda1. データベース・情報アクセス技術と不動産テックの発展の歴史2. データベース技術の基本的な概念3. 質の⾼い不動産データベース構築に向けた取り組みの事例紹介4. 不動産テックの健全な発展に必要なこと34
参考図書35データサイエンスのためのデータベース(データサイエンス⼊⾨シリーズ)吉岡 真治 (著), 村井 哲也 (著), ⽔⽥ 正弘 (編集)リレーショナルデータベース⼊⾨―データモデル・SQL・管理システム・NoSQL増永 良⽂ (著)
データベースシステムの分類• 関係データベース(relational database)• IBMのCoddによる関係モデル概念の提唱(1970年)• 関係データベース管理システムとしての実装(RDBMS =Relational DataBase Management System)• 問い合わせ⾔語の開発• SEQUEL(Structured English QUEry Language)→ SQL• SQLの標準化 (SQL-86, SQL-92, …, SQL:2006)• NoSQL:関係モデルによらないデータベース実装• インターネットに適したデータベースの開発(XML、ビッグデータ、…)36
RDBMSにおけるテーブル37
テーブルにおける主キー(primary key)の設定38
テーブルの正規形、正規化• 第1正規形• テーブル内のすべての関係が単⼀の値をもつ• 第2正規形• 第1正規形で、かつすべての⾮キー属性が主キーに完全関数従属する• 第3正規形• 第2正規形で、かつ⾮キー属性間に⾃明でない関数従属性が存在しない39
40
登記件数データの正規化41
CAP定理E. Brewerによる整理(2002年)• C: Consistency:データの⼀貫性の確保• A: Availability:データの⾼い可⽤性(データをいつでも利⽤可能にすること)• P: Torrelance to network Partitions:データの分散に対する⾼い許容度上記の3つの性質を同時に成り⽴たせるシステムは存在しない(多くのRDBMSは、C, Aを満たすがPは満たさない)42
Web規模のビッグデータへの対応• A, Pを同時に満たすシステムへのニーズ増⼤• ⼤規模なWebサービスにとっては必須の要件• その代わり、Cはある程度あきらめる• RDBMSでないデータベースシステムの開発• 2000年代に多くの分散型データベースが提案、実装• 総称としてNoSQLが提案(2009年)43
主なNoSQLデータベース• Key-Value Storeデータベース• ⼤量のKeyとValueの組み合わせを保存する• 代表例: Redis, Memcached• 列指向データベース• 疎な(sparse)データに適したデータベース(⽂書-単語の関係など)• 代表例: Apache Cassandra, Google Bigtable• ドキュメント指向データベース• XMLやJSONなどの半構造化データに適したデータベース• 代表例: MongoDB, Couchbase• RDFデータベース• Linked Open Dataやナレッジグラフの扱いに適したデータベース• 代表例: Neo4j, JanusGraph 44
ポイント• データのライフサイクルや再利⽤可能性を考慮したデータ構造の定義、システムの選択が重要• データベースは基礎教養の⼀つになりつつある• 平成30年施⾏の新学習指導要領では、⾼等学校「情報科」の専⾨教科の⼀つに位置づけられた45
cf. ⾼校「情報科」の構成46⽂部科学省: ⾼等学校学習指導要領(平成30年告⽰)解説 情報編 平成30年7⽉ https://www.mext.go.jp/content/1407073_11_1_2.pdf
Agenda1. データベース・情報アクセス技術と不動産テックの発展の歴史2. データベース技術の基本的な概念3. 質の⾼い不動産データベース構築に向けた取り組みの事例紹介4. 不動産テックの健全な発展に必要なこと47
空室(売物件)オーナー(売主)指定流通機構(REINS)不動産管理会社(売⼿媒介)不動産仲介会社物件情報コンバーター運営会社不動産ポータル運営会社借主(買主)(1)(2)(3)(4)(5)(6)(7)物件情報の棟寄せ・⼾寄せ問題
物件情報精度向上の試み• 情報の誤りの機械学習による検出• 他社と同⼀の物件情報だと思われる場合は、是正を促す• 画像なども棟寄せ・⼾寄せの⼿がかりとなる• 表記揺れなどを吸収したマッチング• 住所表記(○○町3丁⽬2-5 ⇔ ○○町3-2-5)• 物件名(△△APARTMENT 1番館 ⇔ △△アパートメント壱番館)• …
レコード同定(record linkage)• 図書⽬録の典拠管理(18世紀〜)• 「ウィリアム・シェイクスピア」「Shakespeare,William」「沙⼠⽐阿」を同⼀著者として扱う• 個⼈のレコード同定⽅法の提案 [Dunn 46]• 疫学調査のため、出⽣から死亡までの⼀貫した記録管理が必要とされた• レコード同定の数学的定義 [Newcombe 59, Fellegi69]
提案⼿法のフロー
物件間相違度の閾値による適合率-再現率グラフ
Agenda1. データベース・情報アクセス技術と不動産テックの発展の歴史2. データベース技術の基本的な概念3. 質の⾼い不動産データベース構築に向けた取り組みの事例紹介4. 不動産テックの健全な発展に必要なこと56
不動産テックの健全な発展に必要なこと• 質の⾼いデータベースの構築と利⽤が、すべてのステークホルダーの利益になることについての認識の共有• データベースの基礎があらゆる産業で必須の教養とされつつあることへの認識• データの提供者=利⽤者の間の信頼関係の構築57
信頼関係を構築していくために• データ資源の整備・共有• さまざまなステークホルダーとの連携• 対エンドユーザー、対クライアント企業• 業界団体• ⾏政(国・地⽅⾃治体)• アカデミア• etc.• 異分野の⼈々どうしの建設的な対話の場
国⽴情報学研究所情報学研究データリポジトリ (NII-IDR)LIFULL HOME’Sデータセット• 2015年11⽉より提供開始• データセットの内容• スナップショット• 2015年8⽉現在の全賃貸物件データ• 上記に紐付く画像データ• ⽉次データ• 2015年7⽉〜2017年6⽉の24ヶ⽉分• 緯度・経度が付与2019年10⽉、延べ利⽤申し込み数が100を超えました(⽇本国内のほか、⽶国・カナダ・中国)
https://www.sumave.com/20180926_6566/
「たとえば、クローリングです。この25年間をかけて、私たちは不動産価格を推計するための新しい⼿法を多く開発してきました。新しい推計⼿法ができれば論⽂として公開し、作ったソースコードをインターネット上に絶えず公開してきたんです。こうした技術⾰新は、「研究、開発、公開、共有のサイクル」が繰り返されました。その結果、AIによる機械学習の精度は、以前とは⽐べ物にならないくらいに⾼精度です。精度が⾼いだけではありません、⼿軽にもなったのです。(中略)IT化の進んでいない不動産業界において、テクノロジー活⽤から得られる恩恵は、今後も⼤きくなるでしょう。不動産テックは、不動産市場を活性化したり、業界関係者の業務効率を改善したりする、⼤きな可能性をまだまだ秘めています。同時に、想像もしていない、望まないような事態を招く危険性もあるのです。その危険が、消費者にふりかかることを危惧しています」
私たち研究者は、多くの先⼈たちと⼀緒に研究開発をしてきました。それは、消費者をだますためではありません。⽣活を便利にしたり、豊かにしたりするためです。不動産業界には、いま、いろいろな組織が⽴ち上がる動きもあるようですが、既存の業界や先⼈たちへの敬意を持ち、消費者が不利益をこうむらないよう、配慮を続けてほしいなというのが、私の個⼈的な想いです。今後は、これまで以上に、研究者、企業、業界組織、官公庁が⼿を取り合う時代となるでしょう。そのとき、どの⽴場においても、「相⼿への敬意」は重要だと考えています。敬意が⽋けることで⽣まれてしまうのが、⼀⽅的な想いです。それぞれが⼀⽅的になることで、「消費者が望まないような、おかしな⽅向へ、⼈間社会が進んでしまうのではないか」と憂慮します。では、おかしくない⽅向、正しい⽅向とはどこかというと、テクノロジーが⼈の幸せに寄与する⽅向です。たとえば、企業なら、「テクノロジーが⽣かされたこのサービスは、⼈の幸せに寄与しているか」という点にあります」
⻑尾 真 先⽣ (1936-2021) インタビュー“⼤学には⾊々な研究者がいるし、いろいろな学問もありますが、異分野の⼈たちと真剣に議論する場がすごく⼤事だと思いますね。私なんかはどちらかというと、⼀⼈で考えて⾒つけることが多いのですが、⼈と議論をしていると、⾃分⾃⾝で⾯⽩いことを⾔っている時があって、なんで⾃分はこんな⾯⽩いことを⼝⾛ったのかなあと思うこともありますね。異分野の⼈との対話が⼤切です。総合⼤学は、異分野の⼈と徹底的に議論するということをもっともっとやってく必要があると思います。私が教授になった時、35、6歳の頃から、⾔語学や⼼理学の⼈たちや医学の⼈たちと⽉に⼀回、徹底的な議論をしました。そういうところからも⾯⽩いテーマが出てきます。総合⼤学はそういうことを積極的にやって、新しいものの考え⽅を切り拓いていかないと、タコ壺みたいなことをやっていたら、総合⼤学の意味はない。そういう余裕を持ってもらいたいです。やっぱり、研究はロマンを持たないと。それが⼀番⼤事なんじゃないかと思います。”弁護⼠ドットコムニュース: 「未来から来た」情報⼯学者・⻑尾真、飽くなき⼈間への興味と哲学への回帰. 2019年1⽉24⽇掲載.https://www.bengo4.com/c_23/n_9133/