Slide 1

Slide 1 text

不動産情報サービスの 研究開発における 共有データ資源 株式会社LIFULL グループデータ本部 主席研究員 清⽥ 陽司

Slide 2

Slide 2 text

清⽥ 陽司 博⼠(情報学) 株式会社LIFULL 主席研究員 1975年 福岡県⽣まれ 2004年 京都⼤学⼤学院情報学研究科 博⼠課程修了 2004-2012年 東京⼤学情報基盤センター 助⼿・助教・特任講師 2007-2011年 株式会社リッテル 上席研究員・取締役CTO(共同起業) 2011年- 株式会社LIFULL 主席研究員(バイアウト) 関⼼分野: ⾃然⾔語処理応⽤ → 検索・推薦 → 情報リテラシー (図書館) → ⽣活領域のAI研究 (不動産、介護 etc.) → 業界横断のAI社会実装 (医療、教育、⾦融 etc.) 主な対外的活動 ⼈⼯知能学会 編集委員⻑ (2020-2022)/情報科学技術協会(INFOSTA)会⻑ (2022-)

Slide 3

Slide 3 text

No content

Slide 4

Slide 4 text

国⽴情報学研究所 情報学研究データリポジトリ (NII-IDR) LIFULL HOMEʼSデータセット • 2015年11⽉より提供開始 • データセットの内容 • スナップショット • 2015年8⽉現在の全賃貸物件 データ • 上記に紐付く画像データ • ⽉次データ • 2015年7⽉〜2017年6⽉の24ヶ ⽉分 • 緯度・経度が付与

Slide 5

Slide 5 text

LIFULL HOMEʼS 3D間取り

Slide 6

Slide 6 text

⼈⼯知能学会誌, Vol. 38, No. 5, pp. 741-749 (2023)

Slide 7

Slide 7 text

共有データ資源をとりまく環境の変化 • Web普及以前(〜1990年代) • 公的研究資⾦で構築されたデータセットが、安価(もしくは無料)で 研究者に頒布されていた • Web普及以降(2000年代) • WikipediaやImageNetなどの⼤規模データ資源の登場が、⾔語モデル や深層学習など、AI研究の発展に⼤きく寄与 • Webビジネスの発展・巨⼤化(2010年代) • 「オープン」かつ「フリー」というデータセットの性質が⼤きく変容 • ⽣成AIの登場(2020年代) • データ囲い込みの加速(e.g. Twitter → X) • 国際政治に⼤きな影響(⽶中対⽴、2023年広島サミット、etc.)

Slide 8

Slide 8 text

共有データ資源をとりまく環境の変化 • Web普及以前(〜1990年代) • 公的研究資⾦で構築されたデータセットが、安価(もしくは無料)で 研究者に頒布されていた • Web普及以降(2000年代) • WikipediaやImageNetなどの⼤規模データ資源の登場が、⾔語モデル や深層学習など、AI研究の発展に⼤きく寄与 • Webビジネスの発展・巨⼤化(2010年代) • 「オープン」かつ「フリー」というデータセットの性質が⼤きく変容 • ⽣成AIの登場(2020年代) • データ囲い込みの加速(e.g. Twitter → X) • 国際政治に⼤きな影響(⽶中対⽴、2023年広島サミット、etc.)

Slide 9

Slide 9 text

Brown Corpus (1967) https://app.sketchengine.eu/#concordance

Slide 10

Slide 10 text

Penn Treebank (1993) https://dl.acm.org/doi/10.5555/972470.972475

Slide 11

Slide 11 text

京都⼤学テキストコーパス (1997) https://nlp.ist.i.kyoto-u.ac.jp/?%E4%BA%AC%E9%83%BD%E5%A4%A7%E5%AD%A6%E3%83%86%E3%82%AD%E3%82%B9%E3%83%88%E3%82%B3%E3%83%BC%E3%83%91%E3%82%B9

Slide 12

Slide 12 text

WordNet (1998) https://wordnet.princeton.edu/

Slide 13

Slide 13 text

NTT⽇本語語彙体系 (1997) https://www.rd.ntt/cs/team_project/icl/lirg/resources/GoiTaikei/

Slide 14

Slide 14 text

ATR⾳声⾔語データベース (1987-) https://www.atr-p.com/products/sdb.html

Slide 15

Slide 15 text

共有データ資源をとりまく環境の変化 • Web普及以前(〜1990年代) • 公的研究資⾦で構築されたデータセットが、安価(もしくは無料)で 研究者に頒布されていた • Web普及以降(2000年代) • WikipediaやImageNetなどの⼤規模データ資源の登場が、⾔語モデル や深層学習など、AI研究の発展に⼤きく寄与 • Webビジネスの発展・巨⼤化(2010年代) • 「オープン」かつ「フリー」というデータセットの性質が⼤きく変容 • ⽣成AIの登場(2020年代) • データ囲い込みの加速(e.g. Twitter → X) • 国際政治に⼤きな影響(⽶中対⽴、2023年広島サミット、etc.)

Slide 16

Slide 16 text

共有データ資源をとりまく環境の変化 • Web普及以前(〜1990年代) • 公的研究資⾦で構築されたデータセットが、安価(もしくは無料)で 研究者に頒布されていた • Web普及以降(2000年代) • WikipediaやImageNetなどの⼤規模データ資源の登場が、⾔語モデル や深層学習など、AI研究の発展に⼤きく寄与 • Webビジネスの発展・巨⼤化(2010年代) • 「オープン」かつ「フリー」というデータセットの性質が⼤きく変容 • ⽣成AIの登場(2020年代) • データ囲い込みの加速(e.g. Twitter → X) • 国際政治に⼤きな影響(⽶中対⽴、2023年広島サミット、etc.)

Slide 17

Slide 17 text

Richard Stallmanによる構想 (2000) https://www.gnu.org/encyclopedia/free-encyclopedia.html

Slide 18

Slide 18 text

WikiWikiWeb (1994-) https://en.wikipedia.org/wiki/WikiWikiWeb#/media/File:WikiWikiWeb_screenshot.png

Slide 19

Slide 19 text

Wikipedia (2001)

Slide 20

Slide 20 text

ImageNet (2009) https://www.image-net.org/

Slide 21

Slide 21 text

ILSVRC (2010) https://www.image-net.org/challenges/LSVRC/index.php

Slide 22

Slide 22 text

ILSVRCと深層学習の発展 Saeidi, Mahmoud & Arabsorkhi, Abouzar. (2022). A novel backbone architecture for pedestrian detection based on the human visual system. The Visual Computer. 38. 10.1007/s00371-021-02280-6.

Slide 23

Slide 23 text

共有データ資源をとりまく環境の変化 • Web普及以前(〜1990年代) • 公的研究資⾦で構築されたデータセットが、安価(もしくは無料)で 研究者に頒布されていた • Web普及以降(2000年代) • WikipediaやImageNetなどの⼤規模データ資源の登場が、⾔語モデル や深層学習など、AI研究の発展に⼤きく寄与 • Webビジネスの発展・巨⼤化(2010年代) • 「オープン」かつ「フリー」というデータセットの性質が⼤きく変容 • ⽣成AIの登場(2020年代) • データ囲い込みの加速(e.g. Twitter → X) • 国際政治に⼤きな影響(⽶中対⽴、2023年広島サミット、etc.)

Slide 24

Slide 24 text

共有データ資源をとりまく環境の変化 • Web普及以前(〜1990年代) • 公的研究資⾦で構築されたデータセットが、安価(もしくは無料)で 研究者に頒布されていた • Web普及以降(2000年代) • WikipediaやImageNetなどの⼤規模データ資源の登場が、⾔語モデル や深層学習など、AI研究の発展に⼤きく寄与 • Webビジネスの発展・巨⼤化(2010年代) • 「オープン」かつ「フリー」というデータセットの性質が⼤きく変容 • ⽣成AIの登場(2020年代) • データ囲い込みの加速(e.g. Twitter → X) • 国際政治に⼤きな影響(⽶中対⽴、2023年広島サミット、etc.)

Slide 25

Slide 25 text

⼈⼯知能学会誌, Vol. 27, No. 1, pp. 67-71 (2012)

Slide 26

Slide 26 text

共有データ資源をとりまく環境の変化 • Web普及以前(〜1990年代) • 公的研究資⾦で構築されたデータセットが、安価(もしくは無料)で 研究者に頒布されていた • Web普及以降(2000年代) • WikipediaやImageNetなどの⼤規模データ資源の登場が、⾔語モデル や深層学習など、AI研究の発展に⼤きく寄与 • Webビジネスの発展・巨⼤化(2010年代) • 「オープン」かつ「フリー」というデータセットの性質が⼤きく変容 • ⽣成AIの登場(2020年代) • データ囲い込みの加速(e.g. Twitter → X) • 国際政治に⼤きな影響(⽶中対⽴、2023年広島サミット、etc.)

Slide 27

Slide 27 text

⼤規模⾔語モデル Transformer (Google, 2017) GPT-1 (OpenAI, 2018)

Slide 28

Slide 28 text

Twitter (X)をめぐる最近の状況 https://techcrunch.com/2023/02/14/twitters-restrictive-api-may-leave-researchers-out-in-the-cold/

Slide 29

Slide 29 text

https://twitter.com/davidlazer/status/1624119774958714880

Slide 30

Slide 30 text

https://www.bbc.com/news/technology-66077195

Slide 31

Slide 31 text

…But platforms like Twitter and Reddit want to be paid for this data. In April, Reddit's chief executive Steve Huffman told the New York Times that he was unhappy with what AI companies were doing. "The Reddit corpus of data is really valuable," he said. "But we don't need to give all of that value to some of the largest companies in the world for free."

Slide 32

Slide 32 text

共有データ資源をとりまく環境の変化 • Web普及以前(〜1990年代) • 公的研究資⾦で構築されたデータセットが、安価(もしくは無料)で 研究者に頒布されていた • Web普及以降(2000年代) • WikipediaやImageNetなどの⼤規模データ資源の登場が、⾔語モデル や深層学習など、AI研究の発展に⼤きく寄与 • Webビジネスの発展・巨⼤化(2010年代) • 「オープン」かつ「フリー」というデータセットの性質が⼤きく変容 • ⽣成AIの登場(2020年代) • データ囲い込みの加速(e.g. Twitter → X) • 国際政治に⼤きな影響(⽶中対⽴、2023年広島サミット、etc.)

Slide 33

Slide 33 text

⺠間企業によるデータ資源共有の課題 • データを利⽤したい研究者とデータを提供したい⺠間企業の担 当者が互いを⾒つけるための体系的な⼿段が存在しない • データを提供した研究者が不適切な利⽤を⾏った場合に、⺠間 企業にはさまざまな損失が⽣じるリスクがある • ⺠間企業側の担当者が、研究者の利⽤⽬的と意義を解釈し、⾃ 社にとって利益になること、また不利益が⽣じないことを社内 で説明し、経営者や事業部⾨の理解を得なければならない • ⺠間企業にとっては、個々の研究者の要望に対応するための⼿ 間が過重な負担となる ⼤⼭ 敬三, ⼤須賀 智⼦. 国⽴情報学研究所における研究⽤データセットの共同利⽤. 情報管理, Vol. 59, No. 2, pp. 105-112(2016)

Slide 34

Slide 34 text

NII IDRのデータセット提供に関わる活動 ⼤須賀 智⼦, ⼤⼭ 敬三. 情報学研究データリポジトリIDRにおける研究⽤データセット共同利⽤の取り組み. 情報処理 学会論⽂誌 デジタルプラクティス, Vol. 2. No. 2, pp. 47-56(2021)

Slide 35

Slide 35 text

LIFULL HOMEʼSデータセット

Slide 36

Slide 36 text

データセット提供にあたって⾏った対応 • プライバシー侵害リスクへの対応(実在する物件の特定につな がる情報の公表禁⽌など) • 不動産領域特有の法的リスクへの対応(宅地建物取引業法、公 正競争規約など) • データのステークホルダー(家主、不動産会社、⾃社の経営陣 など)への配慮

Slide 37

Slide 37 text

データセット提供の意義 • 不動産・住まい探し分野の研究活性化 • 不動産・住まい探しに関する研究が活発になることで、今までにない住まいの探し ⽅など、新たなイノベーションが⽣まれてくることを期待 • 産学連携の機会創出 • 共通のデータセットを産学間で共有することによって、共同研究の取り組みを加速 するとともに、産学の垣根を越えて不動産・住まい探し分野にフォーカスする研究 コミュニティの創出を⽬指す • 情報学分野での⼈材育成への貢献 • 本データセットを⽤いたハッカソンやインターンシッププログラムを実施すること で、学⽣の⽅々が実世界のニーズに触れる機会を提供し、イノベーションに携わる 次世代の⼈材育成に貢献

Slide 38

Slide 38 text

共有データ資源の健全な発展のために • データ利⽤者と提供者の間を促進するコミュニケーションの場 • データ提供に関わるステークホルダーへのリスペクト • データ資源やAIによって⼤きな経済的利益を享受している企業 による貢献 • ⼈材育成に分野全体で取り組むこと • すべてのステークホルダーが仕組み作りを協⼒して進めること