Upgrade to Pro — share decks privately, control downloads, hide ads and more …

The ACM Web Conference 2022 国際会議報告

Yu Nakano
June 25, 2022

The ACM Web Conference 2022 国際会議報告

2022 年 6 月 25 日に開催された第 42 回先端的データベースと Web 技術動向講演会(ACM SIGMOD 日本支部第 79 回支部大会)の中野担当分の発表資料です.
http://www.sigmodj.org/conf/detail.php?conf_no=79

Yu Nakano

June 25, 2022
Tweet

More Decks by Yu Nakano

Other Decks in Science

Transcript

  1. The ACM Web Conference 2022 国際会議報告
    スライドのURL: https://bit.ly/www22-report

    View Slide

  2. The ACM Web Conference 2022 概要
    発表担当者: 中野

    View Slide

  3. • WebConf (旧: WWW): Web に関するトップ国際会議
    ◦ 対象分野: Web,検索・推薦,
    HCI, Web マイニング,
    SNS,セマンティク Web,
    プライバシー・セキュリティ,
    経済,インフラなど
    WebConf とは? 4
    情報検索
    Web
    SIGIR
    ECIR
    CHIIR
    WSDM WebConf
    RecSys
    データマイニング
    CIKM
    ICTIR HCI
    情報検索関連の国際会議の⽴ち位置 (私⾒)
    注: あくまで情報検索をメイントピックとする会議なので KDD などは⼊れていません
    コメント: 新しい問題や少し
    変わった問題が好まれるイメージ
    例えば Using Web Data to Reveal 22-Year
    History of Sneaker Designs (Best Paper 候補)
    →スニーカーのデザインの傾向について
    過去 22 年間の Web 上の画像を⽤いて分析
    https://bit.ly/www22-report

    View Slide

  4. • 1994-2017: The International World Wide Web
    Conference (WWW)
    • 2018-2021: The Web Conference (WebConf)
    ◦ ここまで The International World Wide Web Conference
    Committee (IW3C2) 主催
    • 2022- : The ACM Web Conference (ACM WebConf)
    ◦ ACM SIGWEB 主催
    名称と主催について 5
    ACM WebConf 2022
    WebConf 2021
    WWW 2017
    https://bit.ly/www22-report

    View Slide

  5. • 開催形式: オンライン
    ◦ もともとは Lyon (France) 開催予定
    ◦ ⽇本時間では 15:00〜翌 2:00 頃の時間帯
    ◦ 発表は後⽇ ACM SIGWEB YouTube で公開予定
    ◦ 来年は Austin (Texas, USA) で開催予定
    開催形式・場所・⽇程 6
    5/25
    5/26
    5/27
    5/28
    5/29
    21 workshops
    3 keynotes
    11 research tracks
    3 special tracks
    poster & demo track
    20 tutorials
    5 events
    4 sponsor talks
    https://bit.ly/www22-report

    View Slide

  6. 投稿数・採択数・採択率 7
    Research Track ごとの採択数
    1. Social Network Analysis and Graph Algorithms
    2. User Modeling, Personalization and Accessibility
    3. Web Mining and Content Analysis
    の 3 強 (例年この 3 つが多い)
    投稿数 採択数 採択率
    2018 1140 171 15.0%
    2019 1247 225 18.0%
    2020 1129 217 19.2%
    2021 1736 355 20.4%
    2022 1822 323 17.7%
    直近 5 年の Full Paper の
    投稿数・採択数・採択率
    https://bit.ly/www22-report

    View Slide

  7. • 榊さん (ホットリンク),松尾先⽣ (東⼤) らの WWW 2010 の
    論⽂が受賞
    ◦ SNS を⽤いたリアルタイムイベント検知の論⽂ (リンク)
    Seoul Test of Time Award 8
    https://bit.ly/www22-report
    Sakaki, Okazaki, Matsuo: Earthquake Shakes Twitter Users: Real-time Event Detection by Social Sensors (WWW 2010)
    榊さんのご講演

    View Slide

  8. • Prabhakar Raghavan (Google)
    ◦ Search Engines: From the Lab to the Engine Room, and Back
    ◦ 現代の Web 検索エンジンにおける課題
    • Virginia Dignum (Umeå University)
    ◦ Responsible AI: From Principles To Action
    ◦ 責任のある AI についての原則と課題
    • Jaime Teevan (Microsoft)
    ◦ How the Web Will Shape the Hybrid Work Era
    ◦ COVID で⼈々の仕事の仕⽅や⾏動はどう変化したか
    Keynote 9
    https://bit.ly/www22-report

    View Slide

  9. Keynote: Search Engines: From the Lab to the
    Engine Room, and Back
    発表担当者: 中野
    Speaker: Prabhakar Raghavan (Google)

    View Slide

  10. • Speaker: Prabhakar Raghavan
    ◦ Senior Vice President at Google
    ◦ IBM → Yahoo! Lab → Google (2012-)
    Search Engines: From the Lab to the Engine Room, and Back 11
    https://www2022.thewebconf.org/wp-content/uploads/Keynotes/Prabhakar-Raghavan.png https://nlp.stanford.edu/IR-book/iir.jpg
    今回の話: 研究所 (Lab) から Google (Engine Room) に移った
    講演者がそこから得た知⾒をもとに現在の
    Web 検索エンジンに関する研究課題を述べていくという講演
    Google 以前は
    WWW, VLDB,
    KDD, PODS などに
    計 100 本以上の論⽂を
    発表していたが
    Google 以降は 1 本のみ
    情報検索の⼈には Introduction to
    Information Retrieval (情報検索の基礎)
    の著者だといえば伝わりそう
    Engine Room: 検索エンジン(を開発する)部屋 → ここでは Google ⾃体のことを指す

    View Slide

  11. 6 つのトピック 12
    Webの現状
    情報の質と誤情報
    名詞から動詞へ
    (エンティティ検索からアクションへ)
    プライバシーと広告
    検索することの意味の再発明
    (マルチモーダルなクエリによる検索)
    持続可能性
    https://bit.ly/www22-report

    View Slide

  12. 6 つのトピック 13
    Webの現状
    情報の質と誤情報
    名詞から動詞へ
    (エンティティ検索からアクションへ)
    プライバシーと広告
    検索することの意味の再発明
    (マルチモーダルなクエリによる検索)
    持続可能性
    https://bit.ly/www22-report

    View Slide

  13. • 近年 Open な Web サイトの数は頭打ちの状況にある
    ◦ なぜか?→ログイン認証などが必要な Closed な Web の増加
    ◦ このようなサイトは “Walled Garden” と呼ばれている
    The State of the Web (Web の現状) 14
    https://news.netcraft.com/archives/2022/04/27/april-2022-web-server-survey.html
    https://bit.ly/www22-report
    ウェブサイトの数
    Hostnames
    Active Sites
    2,000,000,000
    1,500,000,000
    1,000,000,000
    500,000,000
    2021
    2018
    2015
    2012
    2009
    2006
    2003
    2000
    Web の初期は
    指数的に増加 近年は頭打ち

    View Slide

  14. • なぜ Closed な Web が増加している?
    ◦ モバイル機器の増加: ⼈々はWebブラウザではなくアプリを使いがち
    ◦ ウェブサイトは管理が⼤変: SNS などの Closed な Web では
    発信や宣伝や容易
    • 問題点: Closed な Web はクロールできず検索できない
    ◦ Web はオープン性こそが重要なはず
    The State of the Web (Web の現状) 15
    課題: どのようにすれば Web の
    コンテンツを増やせるか?
    https://bit.ly/www22-report

    View Slide

  15. • 別の話題: 英語以外のコンテンツの不⾜
    The State of the Web (Web の現状) 16
    ヒンディー語やアラビア語
    の話者数は英語の話者数の
    1/3 程度だが Web 上の
    コンテンツ数では
    英語の 1/100 以下しかない
    ヒンディー語圏では PC より
    モバイル機器を持っている
    ことのほうが多いことも⼀因
    https://bit.ly/www22-report
    ⾔語の話者数 Web 上のコンテンツ数
    Hindi Arabic
    English
    Hindi Arabic
    English

    View Slide

  16. • 1 つの⽅向性: 豊富な英語の資源を翻訳して使えないか?
    The State of the Web (Web の現状) 17
    課題: どのようにすれば英語か
    らコンテンツの少ない⾔語への
    翻訳をより適切に⾏えるだろう
    か?
    通常の機械翻訳: 英語 ↔ ⽇本語 (双⽅向)
    今回の機械翻訳: 英語 → ⽇本語 (単⽅向)
    コメント: 要はコンテンツの少ない⾔語に対して
    より良い機械翻訳モデルを作ることはできるのか?
    という話だと思われる
    機械翻訳に詳しくないので
    間違っていたらすいません…
    https://bit.ly/www22-report

    View Slide

  17. • クエリがある想定ではどうすればよいか?
    The State of the Web (Web の現状) 18
    課題: クエリを英語に翻訳し
    英語の回答を取得した後に
    元の⾔語に翻訳し直すという
    アイデアは技術的に実現可能で
    かつ安定した品質でできるか?
    コメント: このアイデアについては⾔語横断情報検索
    で既に取り組まれているはず?今年の TREC でも
    Track が開催されるなど注⽬を集めている印象.
    ⾔語横断情報検索:
    Cross-Language Information Retrieval
    TREC 2022 NeuCLIR Track: https://neuclir.github.io/
    https://bit.ly/www22-report
    ただし TREC の CLIR の Track は
    ⻑年開催されておらず久々に今年
    開催されることとなったらしい

    View Slide

  18. 6 つのトピック 19
    Webの現状
    情報の質と誤情報
    名詞から動詞へ
    (エンティティ検索からアクションへ)
    プライバシーと広告
    検索することの意味の再発明
    (マルチモーダルなクエリによる検索)
    持続可能性
    https://bit.ly/www22-report

    View Slide

  19. • ⾳声⼊⼒による検索の増加
    ◦ モバイル機器や Google Home などの普及
    ◦ ヒンディー語圏などの PC よりモバイル機器を多く持つ地域では
    ⾳声⼊⼒による検索は欧⽶と⽐較して 5-10 倍多い
    • ⾳声⼊⼒のクエリの特徴
    Reinventing what it means to search (検索することの意味の再発明) 20
    • 質問形式が多い
    • レストランなどその場に
    関するトピックが多い
    • ある特定のサイトを指す
    クエリが少ない
    • 健康などの sensitive な
    トピックが少ない

    View Slide

  20. • ⾳声⼊⼒による検索の課題
    ◦ 現状の⾳声⼊⼒には誤りがある (エラー率は 2 桁 % らしい)
    Reinventing what it means to search (検索することの意味の再発明) 21
    課題: 不完全な⾳声認識による
    ノイズに検索モデルをどのよう
    に適応させるべきか?
    1. ⾳声認識されたクエリの誤りを訂正する⽅向性
    2. 誤りを考慮した検索モデルを構築する⽅向性
    2 つの⽅向性

    View Slide

  21. 6 つのトピック 22
    Webの現状
    情報の質と誤情報
    名詞から動詞へ
    (エンティティ検索からアクションへ)
    プライバシーと広告
    検索することの意味の再発明
    (マルチモーダルなクエリによる検索)
    持続可能性
    https://bit.ly/www22-report

    View Slide

  22. Sustainability (持続可能性) 23
    CO2 排出量
    課題: 環境に関する情報などを
    表⽰した際のユーザへの⻑期的
    な影響はどのようすれば測定で
    きるだろうか?
    東京(成⽥)からニューヨーク (JFK) への航路を検索した画⾯
    https://bit.ly/www22-report
    標準排出量との⽐較

    View Slide

  23. • 6 つの観点から現在の Web 検索エンジンの研究課題を提起
    Keynote まとめ 24
    Web の
    現状
    情報の質と
    誤情報
    名詞から
    動詞へ
    プライバシー
    と広告
    検索することの
    意味の再発明
    持続可能性
    https://bit.ly/www22-report

    View Slide

  24. • 課題⾃体は研究として特別に⽬新しいものはなさそう?
    ◦ Google でやっていることとその課題というものが多い印象がある
    ◦ もちろん実⽤に向けてより注⼒すべきというのは理解できる
    • ユーザが中⼼ということをかなり強調していた
    ◦ 印象に残ったこと: In all these challenges at Google, we focus on
    serving the user. And if you've been counting, I've used the word
    user over 100 times already in this talk. And I'm not done.
    • まとめ: Web 検索エンジンに関する幅広い内容のお話だった
    ◦ 今回は⾃然⾔語処理寄りの課題を紹介したが,
    HCI,推薦,プライバシー,経済の課題も紹介されていた
    ◦ 情報検索が様々な分野と関わる分野であり幅広い視点や
    興味を持つことが重要であることを再確認できた
    感想 25
    https://bit.ly/www22-report

    View Slide

  25. Appendix

    View Slide

  26. • 良い翻訳モデルが作れない場合はどうすればよいか?
    ◦ NOTE: ⻑い⽂書の翻訳では⽂脈の考慮や代名詞の照応解析,語の⼀貫性
    など良い翻訳モデルが必要となる
    →完全な翻訳ではなく要約を作る⽅向性
    The State of the Web (Web の現状) 27
    課題: どのように英語から
    コンテンツの少ない⾔語への
    要約を作成しそれをどのように
    評価すればよいだろうか?
    機械翻訳に詳しくないので
    間違っていたらすいません…
    https://bit.ly/www22-report

    View Slide

  27. • 単⼀モダリティから複数モダリティへ
    ◦ Google Multisearch: 画像+テキストを
    クエリとして検索可能
    Reinventing what it means to search (検索することの意味の再発明) 28
    https://blog.google/products/search/multisearch/
    服の画像+テキスト “green” を
    クエリとして検索
    →元の画像の服に似た緑の服が
    検索結果として表⽰される

    View Slide

  28. • 複数モダリティのクエリによる検索の課題
    ◦ NOTE: 複数モーダル⾔語モデルが流⾏ (Vision-and-Language 分野)
    Reinventing what it means to search (検索することの意味の再発明) 29
    課題: 複数モーダル⾔語モデルは
    テキストに特化したタスクにお
    いて従来の BERT などのテキス
    トのみのモデルの性能を上回る
    のか?
    (仮説: 複数モーダル⾔語モデル
    は複数のモーダルから有⽤な情
    報を得ているはず)

    View Slide

  29. • 課題
    Information Quality and Misinformation (情報の質と誤情報) 30

    View Slide

  30. • キーワード検索からエンティティ検索,
    さらにアクション (推薦など) へ
    • 課題
    From the noun to the verb (名詞から動詞へ) 31
    https://bit.ly/www22-report

    View Slide

  31. • 課題
    Privacy and Advertising (プライバシーと広告) 32
    https://bit.ly/www22-report

    View Slide

  32. • 課題
    Privacy and Advertising (プライバシーと広告) 33
    https://bit.ly/www22-report

    View Slide

  33. • Context-based Collective Preference Aggregation for
    Prioritizing Crowd Opinions in Social Decision-making
    ◦ Jiyi Li (University of Yamanashi, Japan)
    • Is this Question Real? Dataset Collection on Perceived
    Intentions and Implicit Attack Detection
    ◦ Maryam Sadat Mirzaei, Kourosh Meshgi, Satoshi Sekine (RIKEN,
    Japan)
    ⽇本からの採択論⽂ 34
    2016 2017 2018 2019 2020 2021
    採択数 3 5 3 6 2 2
    ⽇本からの Full Paper の採択数
    https://bit.ly/www22-report

    View Slide