Upgrade to Pro — share decks privately, control downloads, hide ads and more …

「俯瞰」可視化が情報探索・分析を変える

Sponsored · Your Podcast. Everywhere. Effortlessly. Share. Educate. Inspire. Entertain. You do you. We'll handle the rest.
Avatar for hayataka hayataka
December 27, 2022

 「俯瞰」可視化が情報探索・分析を変える

下記のイベントでLTした資料です。私はDay 1に「「俯瞰」可視化が情報探索・分析を変える」というテーマで発表しました。

データ可視化ショーケースイベント Data Visualization meetup 2022
https://peatix.com/event/3452708

「俯瞰」可視化に関する、①アルゴリズム、②背景思想、情報探索・分析を変える可能性、③関連プレイヤーを話しました。

Avatar for hayataka

hayataka

December 27, 2022
Tweet

More Decks by hayataka

Other Decks in Science

Transcript

  1.  ⾃⼰紹介 林 尚芳 | Takayoshi HAYASHI @VALUENEX株式会社 先進情報学研究所 早稲⽥⼤学⼤学院

    先進理⼯学研究科 修⼠課程修了後、NTT研究所、リクルートを 経て、VALUENEXに⼊社。研究開発推進のための調査・データ分析と、データ分析ツール の研究開発に取り組んでいます。2022年、東京→関⻄移住し、 になりました。 興味:科学計量学、Science of Science、科学技術商業化、データマイニング、データ 可視化、データとデザイン ミッション:世界に氾濫する情報から「知」を創造する。 事業:データ分析・可視化SaaS、受託データ分析・リサーチ Twitter:@hayataka88 活動記録:notion
  2.  各⽂書を特徴ベクトル化し、⾼次元上での関係性がなるべく保たれるように⼆次元圧縮している。 クラスターA クラスターB クラスターC 類似⽂書 類似⽂書 類似⽂書 ⽂書を単語の組み合わせで表現・ベクトル化 ⾼次元空間における配置イメージ

    ⼆次元可視化 TF-IDF (Term Frequency – Inverse Document Frequency)を計算。 出現頻度 × 偏在度で重みづけした重要度スコアである。 下記は3次元空間で表現しているが、実際は数千〜数 万次元の空間 ⾼次元での関係性がなるべく 保たれるように⼆次元に圧縮 ※TF-IDF以外にも、トピックモデル、Doc2Vec等、様々なベクトル化⼿法がある。 ※次元圧縮⼿法は、多次元尺 度構成法、主成分分析、T- SNE、UMAP等、いろんな⼿法 が提案されている。
  3.  全ての情報を使って「俯瞰」可視化し、その上で情報探索・分析を⾏うアプローチを提案。 Overview first, zoom and filter, then details-on-demand まずは全体を眺め、重要な局所に注視し、不要な局所は割愛

    し、そして必要に応じて詳細情報を探索しなさい。 https://www.cs.umd.edu/~ben/papers/Shneiderman1996eyes.pdf Visual Information Seeking Mantra (Ben Shneiderman によって提唱された情報可視化の設計指針) 「俯瞰」可視化 ×
  4.  全ての情報を使って「俯瞰」可視化し、その上で情報探索・分析を⾏うアプローチを提案。 Overview First, zoom and filter, then details-on-demand データ可視化に関する論⽂の全体

    像を把握する。この時点で、⾃分の 知識と⽐較して、知らなかったもの があれば、視点の漏れがあったこと に気づく。
  5.  全ての情報を使って「俯瞰」可視化し、その上で情報探索・分析を⾏うアプローチを提案。 Overview First, zoom and filter, then details-on-demand 例えば、図書館におけるデータ可視化に関⼼

    があるケースを考える。Libraryを含む論⽂を検 索してみる(左図はヒットした論⽂だけを表⽰)。 ①「図書館情報」領域を中⼼に分布する。→ まずはここを⾒てみる。 ②周辺の⽂書・テキスト分析、検索エンジン、 データマイニング・知識発⾒、ビッグデータにも 分布している。→関連技術として要確認。 Libraryが現れるものは然ることながら、現れな い論⽂でも使える技術があるかもしれない。
  6.  全ての情報を使って「俯瞰」可視化し、その上で情報探索・分析を⾏うアプローチを提案。 Overview First, zoom and filter, then details-on-demand ▪

    特徴語上位10 library, resource, digital, collection, Information, catalog, knowledge, Web, community, science ▪ 研究者上位 Brad Eden, Hsuanwei Michelle Chen, Katy Börner; Chaomei Chen, Neng-Fa Zhou, Mohammad-Hossein Biglu; Mostafa Ghavami ▪ 論⽂リスト • Visual interfaces to digital libraries: the first international workshop at the first ACM+IEEE joint conference on digital libraries • ACM Symposium on Document Engineering - Authoring graphics-rich and interactive documents in CGLIB: a constraint-based graphics library • CGLIB—a constraint-based graphics library • JCDL - Dynamically generating conceptual browsing interfaces for digital libraries 図書館情報領域について、よく使われる特徴語や、研究者、論⽂リス トといった詳細情報を確認。次の探索の起点を⾒つけられる。例えば、 新たに⾒つけたknowledgeというキーワードを軸に、図書館以外でのナ レッジ発⾒・マネジメントを探索して、図書館に使えるヒントを探す等。
  7.  Nomic is the world‘s first information cartography company. We

    are a collective of hackers, historians, linguists, librarians, and at least one acrobat. Together we create fine rhizomatic instruments. https://atlas.nomic.ai/map/russia_invasion_news_coverage Ben Schmidt Vice President of Information Design at Nomic 元NYUのデジタル・ヒューマニティーズが専⾨の教授 https://benschmidt.org/ 様々な制作物を公開している。 • NeuroIPSで発表された論⽂ • イーロン・マスクのツイッター • AIによる画像⽣成(Stable Diffusion) ⽶国ではNOMICというスタートアップが登場(2022年創業)。Twitterで制作物を随時公開。 Twitter:@nomic_ai ロシアのウクライナ侵攻報道