Upgrade to Pro — share decks privately, control downloads, hide ads and more …

「俯瞰」可視化が情報探索・分析を変える

hayataka
December 27, 2022

 「俯瞰」可視化が情報探索・分析を変える

下記のイベントでLTした資料です。私はDay 1に「「俯瞰」可視化が情報探索・分析を変える」というテーマで発表しました。

データ可視化ショーケースイベント Data Visualization meetup 2022
https://peatix.com/event/3452708

「俯瞰」可視化に関する、①アルゴリズム、②背景思想、情報探索・分析を変える可能性、③関連プレイヤーを話しました。

hayataka

December 27, 2022
Tweet

More Decks by hayataka

Other Decks in Science

Transcript

  1. 「俯瞰」可視化が情報探索・分析を変える
    林 尚芳
    2022年12⽉27⽇
    データ可視化ショーケースイベント / Data Visualization Meetup 2022

    View full-size slide


  2. ⾃⼰紹介
    林 尚芳 | Takayoshi HAYASHI @VALUENEX株式会社 先進情報学研究所
    早稲⽥⼤学⼤学院 先進理⼯学研究科 修⼠課程修了後、NTT研究所、リクルートを
    経て、VALUENEXに⼊社。研究開発推進のための調査・データ分析と、データ分析ツール
    の研究開発に取り組んでいます。2022年、東京→関⻄移住し、 になりました。
    興味:科学計量学、Science of Science、科学技術商業化、データマイニング、データ
    可視化、データとデザイン
    ミッション:世界に氾濫する情報から「知」を創造する。
    事業:データ分析・可視化SaaS、受託データ分析・リサーチ
    Twitter:@hayataka88
    活動記録:notion

    View full-size slide


  3. 去年のMeetupでは「科学技術情報分析」をテーマに発表
    https://speakerdeck.com/hayataka88/ke-xue-ji-shu-qing-bao-fen-xi-falsemian-bai-sa
    https://peatix.com/event/3120368

    View full-size slide


  4. 前回は⼀事例として「俯瞰」可視化を紹介。本LTでは、この「俯瞰」可視化そのものをテーマとする。
    データ可視化に関する論⽂(約3万件)の俯瞰図。
    アブスト情報の類似性が⾼いものを近く、低いものを遠くに配置。1プロット=1論⽂。
    ※ VALUENEX Radarを⽤いて作成
    ① アルゴリズム
    ② 背景思想、情報探索・分析を変える可能性
    ③ 関連プレイヤー
    本LTで紹介したいこと

    View full-size slide


  5. ① アルゴリズム
    どうやって作っているのか?

    View full-size slide


  6. 各⽂書を特徴ベクトル化し、⾼次元上での関係性がなるべく保たれるように⼆次元圧縮している。
    クラスターA
    クラスターB
    クラスターC
    類似⽂書
    類似⽂書
    類似⽂書
    ⽂書を単語の組み合わせで表現・ベクトル化 ⾼次元空間における配置イメージ ⼆次元可視化
    TF-IDF (Term Frequency – Inverse Document Frequency)を計算。
    出現頻度 × 偏在度で重みづけした重要度スコアである。
    下記は3次元空間で表現しているが、実際は数千〜数
    万次元の空間
    ⾼次元での関係性がなるべく
    保たれるように⼆次元に圧縮
    ※TF-IDF以外にも、トピックモデル、Doc2Vec等、様々なベクトル化⼿法がある。
    ※次元圧縮⼿法は、多次元尺
    度構成法、主成分分析、T-
    SNE、UMAP等、いろんな⼿法
    が提案されている。

    View full-size slide


  7. ② 背景思想、情報探索・分析を変える可能性
    なぜ、「俯瞰」可視化が必要なのか?

    View full-size slide


  8. 私たちが慣れている検索結果のリスト表⽰では、視点の漏れや知識発⾒の機会損失の可能性がないか?
    Lens.orgでData Visualization等で検索した結果のリスト表⽰(約3万件ヒット)
    ① 3万件あるが全部は読めず、上位のものに⽬が⾏きがち
    ② 隣り合った検索結果間の関係性が⾒えない
    全体像が分からないまま、⼀部の情報だけを⾒ている。視
    点の漏れ、知識発⾒の機会損失の可能性はないか?
    https://link.lens.org/ggKBnwQfXRc

    View full-size slide


  9. 全ての情報を使って「俯瞰」可視化し、その上で情報探索・分析を⾏うアプローチを提案。
    Overview first, zoom and filter, then details-on-demand
    まずは全体を眺め、重要な局所に注視し、不要な局所は割愛
    し、そして必要に応じて詳細情報を探索しなさい。
    https://www.cs.umd.edu/~ben/papers/Shneiderman1996eyes.pdf
    Visual Information Seeking Mantra
    (Ben Shneiderman によって提唱された情報可視化の設計指針)
    「俯瞰」可視化
    ×

    View full-size slide


  10. 全ての情報を使って「俯瞰」可視化し、その上で情報探索・分析を⾏うアプローチを提案。
    Overview First, zoom and filter, then details-on-demand
    データ可視化に関する論⽂の全体
    像を把握する。この時点で、⾃分の
    知識と⽐較して、知らなかったもの
    があれば、視点の漏れがあったこと
    に気づく。

    View full-size slide


  11. 全ての情報を使って「俯瞰」可視化し、その上で情報探索・分析を⾏うアプローチを提案。
    Overview First, zoom and filter, then details-on-demand
    例えば、図書館におけるデータ可視化に関⼼
    があるケースを考える。Libraryを含む論⽂を検
    索してみる(左図はヒットした論⽂だけを表⽰)。
    ①「図書館情報」領域を中⼼に分布する。→
    まずはここを⾒てみる。
    ②周辺の⽂書・テキスト分析、検索エンジン、
    データマイニング・知識発⾒、ビッグデータにも
    分布している。→関連技術として要確認。
    Libraryが現れるものは然ることながら、現れな
    い論⽂でも使える技術があるかもしれない。

    View full-size slide


  12. 全ての情報を使って「俯瞰」可視化し、その上で情報探索・分析を⾏うアプローチを提案。
    Overview First, zoom and filter, then details-on-demand
    ■ 特徴語上位10
    library, resource, digital, collection, Information, catalog, knowledge, Web,
    community, science
    ■ 研究者上位
    Brad Eden, Hsuanwei Michelle Chen, Katy Börner; Chaomei Chen, Neng-Fa Zhou,
    Mohammad-Hossein Biglu; Mostafa Ghavami
    ■ 論⽂リスト
    • Visual interfaces to digital libraries: the first international workshop at the first
    ACM+IEEE joint conference on digital libraries
    • ACM Symposium on Document Engineering - Authoring graphics-rich and
    interactive documents in CGLIB: a constraint-based graphics library
    • CGLIB—a constraint-based graphics library
    • JCDL - Dynamically generating conceptual browsing interfaces for digital libraries
    図書館情報領域について、よく使われる特徴語や、研究者、論⽂リス
    トといった詳細情報を確認。次の探索の起点を⾒つけられる。例えば、
    新たに⾒つけたknowledgeというキーワードを軸に、図書館以外でのナ
    レッジ発⾒・マネジメントを探索して、図書館に使えるヒントを探す等。

    View full-size slide


  13. ③「俯瞰」可視化に取り組むプレイヤー

    View full-size slide


  14. ミッション:世界に氾濫する情報から「知」を創造する。
    事業:データ分析・可視化SaaS、受託データ分析・リサーチ
    沿⾰:2006年創業、2014年⽶国⼦会社設⽴、2018年グロース市場IPO
    https://japio.or.jp/00yearbook/files/2022book/22_2_09.pdf
    創業者がシンクタンク時代に感じた情報探索・分析の課題を元に、俯瞰解析というアプローチを考案した。
    ⽇本では、VALUENEXが俯瞰解析を提唱・事業化(2006年創業)
    Twitter:@VALUENEX
    note: https://note.com/valuenex/

    View full-size slide


  15. 東⼤・俯瞰経営学講座(現在は⼀般社団法⼈俯瞰⼯学研究所)
    https://www.fukan.jp/%E5%AD%A6%E8%A1%93%E7%9F%A5%E8%
    AD%98%E3%81%AE%E4%BF%AF%E7%9E%B0/
    https://amzn.asia/d/1C4oTmI https://amzn.asia/d/g8KmTRq

    View full-size slide


  16. Nomic is the world‘s first information cartography company. We are a collective of
    hackers, historians, linguists, librarians, and at least one acrobat. Together we create
    fine rhizomatic instruments.
    https://atlas.nomic.ai/map/russia_invasion_news_coverage
    Ben Schmidt
    Vice President of Information Design at Nomic
    元NYUのデジタル・ヒューマニティーズが専⾨の教授
    https://benschmidt.org/
    様々な制作物を公開している。
    • NeuroIPSで発表された論⽂
    • イーロン・マスクのツイッター
    • AIによる画像⽣成(Stable Diffusion)
    ⽶国ではNOMICというスタートアップが登場(2022年創業)。Twitterで制作物を随時公開。
    Twitter:@nomic_ai
    ロシアのウクライナ侵攻報道

    View full-size slide

  17. Contact
    Twitter:@hayataka88
    e-mail:[email protected]
    ご清聴ありがとうございました。
    良い年末年始をお過ごしください。

    View full-size slide