Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
VRChatのワールド情報が大量に集まっていた
Search
みかん大学
March 10, 2024
Research
0
130
VRChatのワールド情報が大量に集まっていた
VRChatのワールド情報が大量に集まっていた件について
みかん大学
March 10, 2024
Tweet
Share
More Decks by みかん大学
See All by みかん大学
データウェアハウスを使ってみよう
hidetobara
0
55
VRChat と cluster ワールドの違い-その1-
hidetobara
0
320
VRChat 続・日本語圏のワールドの特徴
hidetobara
0
140
VRChat日本語圏のワールドの特徴
hidetobara
0
200
VRChat Lab抜けの条件
hidetobara
0
1.9k
アンドロイドは電気羊の絵を描くか?
hidetobara
2
59
Other Decks in Research
See All in Research
Galileo: Learning Global & Local Features of Many Remote Sensing Modalities
satai
3
220
一人称視点映像解析の最先端(MIRU2025 チュートリアル)
takumayagi
6
3.4k
診断前の病歴テキストを対象としたLLMによるエンティティリンキング精度検証
hagino3000
1
130
なめらかなシステムと運用維持の終わらぬ未来 / dicomo2025_coherently_fittable_system
monochromegane
0
2.8k
「どう育てるか」より「どう働きたいか」〜スクラムマスターの最初の一歩〜
hirakawa51
0
860
スキマバイトサービスにおける現場起点でのデザインアプローチ
yoshioshingyouji
0
210
SSII2025 [TS1] 光学・物理原理に基づく深層画像生成
ssii
PRO
4
4.2k
EOGS: Gaussian Splatting for Efficient Satellite Image Photogrammetry
satai
4
500
時系列データに対する解釈可能な 決定木クラスタリング
mickey_kubo
2
930
When Submarine Cables Go Dark: Examining the Web Services Resilience Amid Global Internet Disruptions
irvin
0
300
Cross-Media Information Spaces and Architectures
signer
PRO
0
240
論文読み会 SNLP2025 Learning Dynamics of LLM Finetuning. In: ICLR 2025
s_mizuki_nlp
0
200
Featured
See All Featured
What’s in a name? Adding method to the madness
productmarketing
PRO
23
3.7k
Fantastic passwords and where to find them - at NoRuKo
philnash
52
3.4k
Balancing Empowerment & Direction
lara
3
620
Practical Orchestrator
shlominoach
190
11k
It's Worth the Effort
3n
187
28k
Designing for Performance
lara
610
69k
Unsuck your backbone
ammeep
671
58k
The Straight Up "How To Draw Better" Workshop
denniskardys
236
140k
The MySQL Ecosystem @ GitHub 2015
samlambert
251
13k
Principles of Awesome APIs and How to Build Them.
keavy
126
17k
The Web Performance Landscape in 2024 [PerfNow 2024]
tammyeverts
9
810
Fireside Chat
paigeccino
39
3.6k
Transcript
VRChat のワールド情報が 大量に集まっていた みかん電機
きっかけ ・・・忘れました 自分の性格から考えると「VRC API叩いたらデータとれたし、BigQuery にとりあえず入れて利 用方法はあとから考えるか」だったかも テーブル作成時間を見ると、2020/09/22, 16:01:24 UTC+9 から始まっていました。
BigQuery とは • GCP が提供する、ペタバイト単位のデータに対するスケーラブルな分析を可能にする、フ ルマネージドのサーバーレスのデータウェアハウス • PostgreSQL や MySQL などの RDB と違い、データの保存と検索性に優れます ◦ 代わりに、レスポンスは遅い • 同様の製品やサービスに、Snowflake や AWS RedShift • 管理が楽 • (データ量が少ないと)安い
全体設計 1. スケジューラで Cloud Run を起動 2. コンテナ内 Crawler がワールド情報を取得
◦ 更新されたワールド、アップロードされたワールド情報を取得 3. ワールド情報は BigQuery へ保存 Cloud Run とは • GCP が提供するサーバーレスのコンテナ実行環境 • 管理が楽 • 安い
スキーマとデータ量 (2024/02/18) レコード数は約67万ですが、1ワールドにつき複数時刻でのレコードが存在し、ユニークで数える と約12万ワールド分
レコードの例
月日が流れ 大量のデータが集まっており・・
これだけのデータ量があれば 色々調べられるよなあ
ラボ抜けの条件を調べられるね ⇒ 訪問数が200を越えると、approved (ラボ抜け)になるワールドが急激に増加
日本語圏と非日本語圏での違いも調べられるね ⇒ 日本語圏だと、sleep や sea のタ グが多く使われがちなのに対して、非 日本語圏だと、furry が使われやすい タグ
日本語圏 それ以外 P値 author_tag_japan 470 547 4.39E-219 system_approved 4245 27939 4.40E-174 system_updated_recently 10204 83853 8.77E-149 author_tag_jp 216 199 8.31E-115 author_tag_avatars 27 3396 7.61E-96 author_tag_furry 23 2985 4.61E-85 author_tag_avatar 206 6535 1.96E-78 author_tag_hangout 132 4645 5.17E-63 author_tag_japanese 143 218 2.48E-57 author_tag_chill 898 15269 5.64E-52 author_tag_room 436 1919 5.60E-51 author_tag_sea 143 311 2.13E-43 author_tag_club 53 2223 3.75E-36 author_tag_mirror 110 3176 2.27E-34 author_tag_music 121 3184 3.21E-30 author_tag_game 467 2697 3.01E-29 author_tag_vibe 7 955 2.24E-28 author_tag_sleep 714 4738 5.18E-28 author_tag_games 13 1100 8.23E-28 author_tag_quest 389 2156 1.41E-27
流行りのワールドも調べられるね ⇒ 訪問数やお気に入り数の日々の増加分から計算 ( https://vworldtrend.com/ )
(今後)ワールド名とキャプチャを使えば これは、マルチモーダルAIのための教師データ...!? name favorites thumbnail_image_url Prismic's Avatar Search 536942 https://api.vrchat.cloud/api/1/image/file_f2664ae9-c606-4e1c-b3f3-
6d8961763a99/14/256 Test Pilots 332806 https://api.vrchat.cloud/api/1/image/file_2b167073-abc0-4b14-b8e 5-2c59463996ae/25/256 The Black Cat 294343 https://api.vrchat.cloud/api/1/image/file_ab2d3af4-c6da-41b9-8a3d -6f554462cfaf/26/256 Among Us' game 274353 https://api.vrchat.cloud/api/1/image/file_b4fdf7fc-6e6d-41af-a532-9 13729549a45/7/256 Nony's Avatar World 271421 https://api.vrchat.cloud/api/1/image/file_a87b578f-e1e9-4b5f-a3b5- 417c45ff2c69/4/256 Murder 4 254029 https://api.vrchat.cloud/api/1/image/file_f3f2b71b-d416-4711-8177- eeaca0a9af20/32/256 The Ultimate Spider-Lair 213706 https://api.vrchat.cloud/api/1/image/file_b709e2d8-f20a-49e6-bb6a -ac4cc7bebee4/21/256 McDonald's 192456 https://api.vrchat.cloud/api/1/image/file_e05a0400-a56c-4cd0-8d4c -36e7a59096cd/43/256 Spirits of the Sea 海の幽霊 184016 https://api.vrchat.cloud/api/1/image/file_9f25ef78-5bab-4c4d-99f2- b40d66002e12/10/256 Midnight Spooktop 181987 https://api.vrchat.cloud/api/1/image/file_c1ec735d-070b-4aac-9783 -736ef7feef56/4/256
まとめ • 最初は目的も考えずに VRChat のワールド情報を集め始めた • データが集まってくると色々面白いことに使えることが分かった • 実は、NeosVR や
cluster も同様に集めてました • DS 集会でワールド情報データは公開する予定 • 個人開発集会と DS 集会は、木曜22時に交互に開催 ※データ収集、Crawling する時は、各ガイドラインに沿って行いましょう • VRChat だと、VRChat API Doc ( https://vrchatapi.github.io/ )