Upgrade to Pro — share decks privately, control downloads, hide ads and more …

第40回ウェブ・ソーシャルメディア論文読み会

Avatar for Kazuhiro Ito Kazuhiro Ito
April 16, 2026
58

 第40回ウェブ・ソーシャルメディア論文読み会

Avatar for Kazuhiro Ito

Kazuhiro Ito

April 16, 2026

Transcript

  1. Please Say "Shibboleth": Socialization Through Language Adoption in Virtual Citizen

    Science 2026/04/16 @ウェブ・ソーシャルメディア論文読み会 東大 伊藤和浩 Corey Jackson (University of Wisconsin - Madison) ICWSM2025 https://gwpo.nao.ac.jp/about_gw/
  2. Please Say "Shibboleth": Socialization Through Language Adoption in Virtual Citizen

    Science 2026/04/16 @ウェブ・ソーシャルメディア論文読み会 東大 伊藤和浩 Corey Jackson (University of Wisconsin - Madison) ICWSM2025 https://gwpo.nao.ac.jp/about_gw/
  3. ⚫ 名前:伊藤和浩(いとう・かずひろ) ⚫ 出身:東京都武蔵野市 ⚫ 所属:東大鳥海研(特任研究員) ⚫ 経歴: - 学部:早稲田大学文化構想学部(2011-2015)

    - 求人広告の広告代理店(2015-2021) - 修士:奈良先端科学技術大学院大学(2021-2023) - 博士:奈良先端科学技術大学院大学(2023-2026) ⚫ 興味分野:人(々)独自の言語使用が心理や振る舞いに与える影響 自己紹介 3
  4. 言語的社会化 6 ⚫ 言語的社会化とは,新規参加者がその集団におけるコミュニケーション能力, メンバーシップを獲得する(言語的同化)過程 [Duff`2007] - 例えばWikiでは新規editorがベテランeditorの言語表現に合わせる [Moon+`2014] -

    言語的同化は,社会的承認を得,結束力・生産性を向上させる [Swol & Kane`2019] ⚫ オンラインコミュニティにおいても研究が進んでいる - コミュニティ固有の語を早く取り入れると、より長く滞在 [Danescu-Niculescu-mizil+`2013] - ベテランメンバーは、コミュニティ固有の語やカジュアルな言葉遣い [Nguyen+`2011] ⚫ どのように新規参入者が集団に言語的同化するのかはあまり分析されていない
  5. 言語的社会化 7 ⚫ 言語的社会化とは,新規参加者がその集団におけるコミュニケーション能力, メンバーシップを獲得する(言語的同化)過程 [Duff`2007] - 例えばWikiでは新規editorがベテランeditorの言語表現に合わせる [Moon+`2014] -

    言語的同化は,社会的承認を得,結束力・生産性を向上させる [Swol & Kane`2019] ⚫ オンラインコミュニティにおいても研究が進んでいる - コミュニティ固有の語を早く取り入れると、より長く滞在 [Danescu-Niculescu-mizil+`2013] - ベテランメンバーは、コミュニティ固有の語やカジュアルな言葉遣い [Nguyen+`2011] ⚫ どのように新規参入者が集団に言語的同化するのかはあまり分析されていない
  6. Gravity Spy(用いるデータ) 9 ⚫ とは? - Zooniverseという市民科学プロジェクトサイト(https://www.zooniverse.org/) - その中のGravity Spyというプロジェクト

    - 天体物理学者による重力波探索支援のため,ノイズ信号を分離するのが目的 ⚫ 市民科学プロジェクトにおけるディスカッション - Zooniverseで、タスク実行のためにディスカッション掲示板は重要 [Jackson+`2019a ほか] - 新しい発見の報告時は,他の参加者にも専門の研究者にも理解できる記述が求められ, そこで新語彙や用語体系が生まれる [Jackson+`2018]
  7. Gravity Spy(用いるデータ) 10 ⚫ とは? - Zooniverseという市民科学プロジェクトサイト(https://www.zooniverse.org/) - その中のGravity Spyというプロジェクト

    - 天体物理学者による重力波探索支援のため,ノイズ信号を分離するのが目的 ⚫ 市民科学プロジェクトにおけるディスカッション - Zooniverseで、タスク実行のためにディスカッション掲示板は重要 [Jackson+`2019a ほか] - 新しい発見の報告時は,他の参加者にも専門の研究者にも理解できる記述が求められ, そこで新語彙や用語体系が生まれる [Jackson+`2018]
  8. 手法 – データ収集 14 ⚫ ディスカッション用の掲示板から収集 - ユーザID - コメント本文

    - 投稿日時 - ユーザのコミュニティ参加日:初投稿とは別 ⚫ 前処理後の統計量 - データ規模:2,833人のユーザ,130,020件のコメント - 一人あたりのコメント数:平均35,中央値3,標準偏差522 - 初回投稿後の議論への参加期間(単位:週):平均2.5,中央値1,標準偏差7.21 ⚫ データ単位は週:変動やノイズの影響をうけすぎず,平滑化されすぎない単位
  9. 手法 – 使用する特徴量(時間,コンテンツ) 15 ⚫ 時間的特徴量 - week: 投稿された時点の週数 -

    weeks since joined: ユーザーがプロジェクトに参加してから経過した週数 - days: ある週において、ユーザーが活動した日数 - participation gap: 投稿した時点の週と、その前に投稿した週とのあいだの週数 ⚫ コンテンツ特徴量 - questions: 投稿中に含まれる質問の数、句読点 “?” により判定 - links: 投稿中に含まれる URL、“http” または “https” により判定 - tags: ユーザーが使用したタグの数であり、# 記号により判定 - user references: 他のユーザーへの言及回数であり、@ 記号により判定
  10. 手法 – 使用する特徴量(時間,コンテンツ) 16 ⚫ 時間的特徴量 - week: 投稿された時点の週数 -

    weeks since joined: ユーザーがプロジェクトに参加してから経過した週数 - days: ある週において、ユーザーが活動した日数 - participation gap: 投稿した時点の週と、その前に投稿した週とのあいだの週数 ⚫ コンテンツ特徴量 - questions: 投稿中に含まれる質問の数、句読点 “?” により判定 - links: 投稿中に含まれる URL、“http” または “https” により判定 - tags: ユーザーが使用したタグの数であり、# 記号により判定 - user references: 他のユーザーへの言及回数であり、@ 記号により判定
  11. 手法 – 使用する特徴量(インタラクション) 17 ⚫ インタラクション特徴量 - Comments:ユーザーが投稿したコメント数 - threads

    started:ユーザーが新しく開始したディスカッションスレッド数 - token innovations:ユーザーが新たに導入した単語数
  12. 手法 – コミュニティへの言語的同化の定量化 18 ⚫ 3つの特徴量を定義 - Viral tokens:該当週における出現語から,Non-viral tokensを除いた語のリスト

    - Non-viral tokens:該当週における出現語のうち,下記の2条件を満たさない語 • 直前の30日間に,他のユーザによって少なくとも1回は使われた • 該当週に,少なくとも5人のユーザが使った - Cosine similarity score:下記の2つのベクトルのコサイン類似度 • ベクトルB:該当週のviral tokensの数を要素数とし,値は全て1 • ベクトルA:該当週のviral tokensのうち,ユーザが使った語に対応する要素は1, 使っていない語の要素は0 get we yes line red cat it oh 1 0 0 1 1 0 1 0 1 1 1 1 1 1 1 1 ベクトルB ベクトルA
  13. 結果 – コミュニティ全体の言語ダイナミクス 19 ⚫ 下記のタイミングで各指標が増加 - 2016年10月(開始直後) - 2018年10月

    - 2020年4月 - 2021年4月 - 2022年10月 ⚫ 重力波の発見に関するコミュニティの 成果・メディア報道が出たタイミング と指標の増加タイミングが一致の傾向
  14. 結果 – コミュニティ全体の言語ダイナミクス 20 ⚫ 各指標のトレンドの変化点を検定 ⚫ 新規トークン数:開始直後に減少を示したが, 減少率はかなり小さい ⚫

    新規ユーザ数:比較的減少に転じるのが遅く, 変化率も比較的小さい ⚫ 持続的なユーザ数の増加と,動的で 増減し続ける言語環境を示唆 ⚫ ユーザは新しい用語を常に学び, コミュニティの言語的規範への適応が必要
  15. 結果 – ユーザエンゲージメント 21 ⚫ ユーザの議論への参加は偏りが大きく、多くのユーザは一度きり or 散発的 - Gravity

    Spyにコメントを投稿した2,833人は全体の10.1% ⚫ 参加から投稿までの期間 - 議論に参加する前に様子見するユーザと、すぐ投稿するユーザがいる - 参加→初投稿までの期間の平均:5週間(標準偏差21) - しかし、投稿したユーザの約半数は参加した週に投稿 ⚫ 参加の継続期間 - 掲示板での活動期間の平均(週):2.5、標準偏差7.21、中央値1 - ユーザによって、短期間・長期間の差が大きい
  16. 結果 – 新規ユーザの言語的同化 22 ⚫ 記述統計 →RQ1の回答:新たに言語を作ることはあまりせず,同化もあまりしない - 新規ユーザの初週 cosine

    similarity:0.08 - 全体の週次平均 cosine similarity:0.31 - 新規ユーザの token innovations:平均 0.99 - 新規ユーザのコメント数:平均 6.17 - 新規ユーザのノイズ分類数:平均 365 ⚫ 時間とともにプロジェクトの言語環境は複雑化→同化が難しくなる - 開始週:Viral tokensが176、Non-viral tokensが5,457 - 1年後:Viral tokensが1,537、Non-viral tokensが21,116 - 最終週:Viral tokensが3,692、Non-viral tokensが80,604
  17. 結果 – 新規ユーザの言語的同化 24 ⚫ 新規参入者の定着を予測するロジスティック回帰 - Weeks Since Joined:参加してから初投稿までの期

    間は正の方向に寄与、「ちょっとROMる」のが定着 に効果あり - Days(初週の参加日数): 正方向 - Links(投稿に含まれるリンク): 正方向 - Cosine Similarity:比較的大きく正の方向に寄与、 初週にコミュニティの言語により近い言葉を使って いるかどうかが最も強く影響
  18. 結果 – 長期スパンでの言語的同化 25 ⚫ 全ユーザのコサイン類似度を予測する線形混合効果モデル - 上2つ:コミュニティ開始から時間が経つほど同化は 難しくなるが、ユーザは長く参加するほど言語同化しやすい -

    Participation Gap:参加のブランクがあると言語は乖離 - Viral tokensは負の寄与:語彙が多いと模倣の範囲は限られる - Non-Viral Tokensは正の寄与:解釈が難しい (→「使っている人が少ない語」と「今は使われなくなった語」 とを分けて分析すると解釈しやすいかも?)
  19. 考察 – 結果についての補足 26 ⚫ 言語的同化は、コミュニティ内のインタラクションや投稿内容よりも、 時間に関する要因の影響が強い ⚫ ベテランユーザになると言語的イノベーションを担うようにシフト? -

    Gravity Spyの先行研究はこの傾向を指摘 - タグ付け(#)が同化の低下と関連していたことは、このシフトを支持(?) - Personomies (個人的な言語体系) →Folksonomies (集団的な)への移行 [Jackson+`2018] ⚫ 新規ユーザの定着については、参加日数(時間的要因)やリンク投稿(コンテンツ) などよりも、言語的同化の度合いが重要 →RQ2への回答
  20. 考察 – 言語習得サービスの提案 29 ⚫ ユーザの背景が多様で、参加時期も様々な場合に、どう言語的規範を学べばいい? ⚫ 仕組みの提案 - タスクに関するインストラクションに加え、チュートリアルとして、

    専門用語やプロジェクト固有の語について教えることを提案 - ベテランユーザが作成した図表などをうまく使うことも有用 ⚫ AIによる支援 - 新語彙の発生・定義・文脈・使用例を動的に検出し、提示 - コメント入力中のユーザへのリアルタイムな修正提案やチャットボットの提供 - システム内のタグ同士の関連性を整理
  21. 30 感想 ⚫ 特に興味深かった点 - データの面白さ:共同タスクを行うために見知らぬユーザがディスカッションするという 市民科学プロジェクトは、新規参加者の言語的同化の重要性の分析に好都合 - 「半年ROMれ」(lurking)の効能:ただし、一度も発言せず去る人も考慮すべき ⚫

    疑問に思った点 - Viralトークンの定義:言語同化の対象をノイズ分類の名称(や、関連する概念や処理)に 限定するのであれば、名詞・動詞に限る方が良いのでは? - RQの対応:きっちり答えていない書き方 - コンテンツの特徴量:?、tag、url、メンションに限っていたが、言語的特徴量(感情関連 語、LIWCの「Affiliation」など)をあえて避けているのはなぜ?