Lock in $30 Savings on PRO—Offer Ends Soon! ⏳
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
VRChatのワールド情報が大量に集まっていた
Search
みかん大学
March 10, 2024
Research
0
140
VRChatのワールド情報が大量に集まっていた
VRChatのワールド情報が大量に集まっていた件について
みかん大学
March 10, 2024
Tweet
Share
More Decks by みかん大学
See All by みかん大学
データウェアハウスを使ってみよう
hidetobara
0
58
VRChat と cluster ワールドの違い-その1-
hidetobara
0
340
VRChat 続・日本語圏のワールドの特徴
hidetobara
0
150
VRChat日本語圏のワールドの特徴
hidetobara
0
210
VRChat Lab抜けの条件
hidetobara
0
2.2k
アンドロイドは電気羊の絵を描くか?
hidetobara
2
60
Other Decks in Research
See All in Research
音声感情認識技術の進展と展望
nagase
0
390
ロボット学習における大規模検索技術の展開と応用
denkiwakame
1
170
snlp2025_prevent_llm_spikes
takase
0
420
[IBIS 2025] 深層基盤モデルのための強化学習驚きから理論にもとづく納得へ
akifumi_wachi
14
8k
PhD Defense 2025: Visual Understanding of Human Hands in Interactions
tkhkaeio
1
320
VectorLLM: Human-like Extraction of Structured Building Contours via Multimodal LLMs
satai
4
490
CoRL2025速報
rpc
2
3.5k
生成AI による論文執筆サポート・ワークショップ ─ サーベイ/リサーチクエスチョン編 / Workshop on AI-Assisted Paper Writing Support: Survey/Research Question Edition
ks91
PRO
0
120
財務諸表監査のための逐次検定
masakat0
0
210
Mamba-in-Mamba: Centralized Mamba-Cross-Scan in Tokenized Mamba Model for Hyperspectral Image Classification
satai
3
270
若手研究者が国際会議(例えばIROS)でワークショップを企画するメリットと成功法!
tanichu
0
120
投資戦略202508
pw
0
580
Featured
See All Featured
GraphQLとの向き合い方2022年版
quramy
50
14k
The Illustrated Children's Guide to Kubernetes
chrisshort
51
51k
The World Runs on Bad Software
bkeepers
PRO
72
12k
Music & Morning Musume
bryan
46
7k
The Psychology of Web Performance [Beyond Tellerrand 2023]
tammyeverts
49
3.2k
RailsConf & Balkan Ruby 2019: The Past, Present, and Future of Rails at GitHub
eileencodes
141
34k
CSS Pre-Processors: Stylus, Less & Sass
bermonpainter
359
30k
jQuery: Nuts, Bolts and Bling
dougneiner
65
8.2k
Embracing the Ebb and Flow
colly
88
4.9k
Bash Introduction
62gerente
615
210k
How to Think Like a Performance Engineer
csswizardry
28
2.4k
What's in a price? How to price your products and services
michaelherold
246
12k
Transcript
VRChat のワールド情報が 大量に集まっていた みかん電機
きっかけ ・・・忘れました 自分の性格から考えると「VRC API叩いたらデータとれたし、BigQuery にとりあえず入れて利 用方法はあとから考えるか」だったかも テーブル作成時間を見ると、2020/09/22, 16:01:24 UTC+9 から始まっていました。
BigQuery とは • GCP が提供する、ペタバイト単位のデータに対するスケーラブルな分析を可能にする、フ ルマネージドのサーバーレスのデータウェアハウス • PostgreSQL や MySQL などの RDB と違い、データの保存と検索性に優れます ◦ 代わりに、レスポンスは遅い • 同様の製品やサービスに、Snowflake や AWS RedShift • 管理が楽 • (データ量が少ないと)安い
全体設計 1. スケジューラで Cloud Run を起動 2. コンテナ内 Crawler がワールド情報を取得
◦ 更新されたワールド、アップロードされたワールド情報を取得 3. ワールド情報は BigQuery へ保存 Cloud Run とは • GCP が提供するサーバーレスのコンテナ実行環境 • 管理が楽 • 安い
スキーマとデータ量 (2024/02/18) レコード数は約67万ですが、1ワールドにつき複数時刻でのレコードが存在し、ユニークで数える と約12万ワールド分
レコードの例
月日が流れ 大量のデータが集まっており・・
これだけのデータ量があれば 色々調べられるよなあ
ラボ抜けの条件を調べられるね ⇒ 訪問数が200を越えると、approved (ラボ抜け)になるワールドが急激に増加
日本語圏と非日本語圏での違いも調べられるね ⇒ 日本語圏だと、sleep や sea のタ グが多く使われがちなのに対して、非 日本語圏だと、furry が使われやすい タグ
日本語圏 それ以外 P値 author_tag_japan 470 547 4.39E-219 system_approved 4245 27939 4.40E-174 system_updated_recently 10204 83853 8.77E-149 author_tag_jp 216 199 8.31E-115 author_tag_avatars 27 3396 7.61E-96 author_tag_furry 23 2985 4.61E-85 author_tag_avatar 206 6535 1.96E-78 author_tag_hangout 132 4645 5.17E-63 author_tag_japanese 143 218 2.48E-57 author_tag_chill 898 15269 5.64E-52 author_tag_room 436 1919 5.60E-51 author_tag_sea 143 311 2.13E-43 author_tag_club 53 2223 3.75E-36 author_tag_mirror 110 3176 2.27E-34 author_tag_music 121 3184 3.21E-30 author_tag_game 467 2697 3.01E-29 author_tag_vibe 7 955 2.24E-28 author_tag_sleep 714 4738 5.18E-28 author_tag_games 13 1100 8.23E-28 author_tag_quest 389 2156 1.41E-27
流行りのワールドも調べられるね ⇒ 訪問数やお気に入り数の日々の増加分から計算 ( https://vworldtrend.com/ )
(今後)ワールド名とキャプチャを使えば これは、マルチモーダルAIのための教師データ...!? name favorites thumbnail_image_url Prismic's Avatar Search 536942 https://api.vrchat.cloud/api/1/image/file_f2664ae9-c606-4e1c-b3f3-
6d8961763a99/14/256 Test Pilots 332806 https://api.vrchat.cloud/api/1/image/file_2b167073-abc0-4b14-b8e 5-2c59463996ae/25/256 The Black Cat 294343 https://api.vrchat.cloud/api/1/image/file_ab2d3af4-c6da-41b9-8a3d -6f554462cfaf/26/256 Among Us' game 274353 https://api.vrchat.cloud/api/1/image/file_b4fdf7fc-6e6d-41af-a532-9 13729549a45/7/256 Nony's Avatar World 271421 https://api.vrchat.cloud/api/1/image/file_a87b578f-e1e9-4b5f-a3b5- 417c45ff2c69/4/256 Murder 4 254029 https://api.vrchat.cloud/api/1/image/file_f3f2b71b-d416-4711-8177- eeaca0a9af20/32/256 The Ultimate Spider-Lair 213706 https://api.vrchat.cloud/api/1/image/file_b709e2d8-f20a-49e6-bb6a -ac4cc7bebee4/21/256 McDonald's 192456 https://api.vrchat.cloud/api/1/image/file_e05a0400-a56c-4cd0-8d4c -36e7a59096cd/43/256 Spirits of the Sea 海の幽霊 184016 https://api.vrchat.cloud/api/1/image/file_9f25ef78-5bab-4c4d-99f2- b40d66002e12/10/256 Midnight Spooktop 181987 https://api.vrchat.cloud/api/1/image/file_c1ec735d-070b-4aac-9783 -736ef7feef56/4/256
まとめ • 最初は目的も考えずに VRChat のワールド情報を集め始めた • データが集まってくると色々面白いことに使えることが分かった • 実は、NeosVR や
cluster も同様に集めてました • DS 集会でワールド情報データは公開する予定 • 個人開発集会と DS 集会は、木曜22時に交互に開催 ※データ収集、Crawling する時は、各ガイドラインに沿って行いましょう • VRChat だと、VRChat API Doc ( https://vrchatapi.github.io/ )