Lock in $30 Savings on PRO—Offer Ends Soon! ⏳

The ACM Web Conference 2022 国際会議報告

The ACM Web Conference 2022 国際会議報告

2022 年 6 月 25 日に開催された第 42 回先端的データベースと Web 技術動向講演会(ACM SIGMOD 日本支部第 79 回支部大会)の中野担当分の発表資料です.
http://www.sigmodj.org/conf/detail.php?conf_no=79

Yu Nakano / 中野優

June 25, 2022
Tweet

More Decks by Yu Nakano / 中野優

Other Decks in Science

Transcript

  1. • WebConf (旧: WWW): Web に関するトップ国際会議 ◦ 対象分野: Web,検索・推薦, HCI,

    Web マイニング, SNS,セマンティク Web, プライバシー・セキュリティ, 経済,インフラなど WebConf とは? 4 情報検索 Web SIGIR ECIR CHIIR WSDM WebConf RecSys データマイニング CIKM ICTIR HCI 情報検索関連の国際会議の⽴ち位置 (私⾒) 注: あくまで情報検索をメイントピックとする会議なので KDD などは⼊れていません コメント: 新しい問題や少し 変わった問題が好まれるイメージ 例えば Using Web Data to Reveal 22-Year History of Sneaker Designs (Best Paper 候補) →スニーカーのデザインの傾向について 過去 22 年間の Web 上の画像を⽤いて分析 https://bit.ly/www22-report
  2. • 1994-2017: The International World Wide Web Conference (WWW) •

    2018-2021: The Web Conference (WebConf) ◦ ここまで The International World Wide Web Conference Committee (IW3C2) 主催 • 2022- : The ACM Web Conference (ACM WebConf) ◦ ACM SIGWEB 主催 名称と主催について 5 ACM WebConf 2022 WebConf 2021 WWW 2017 https://bit.ly/www22-report
  3. • 開催形式: オンライン ◦ もともとは Lyon (France) 開催予定 ◦ ⽇本時間では

    15:00〜翌 2:00 頃の時間帯 ◦ 発表は後⽇ ACM SIGWEB YouTube で公開予定 ◦ 来年は Austin (Texas, USA) で開催予定 開催形式・場所・⽇程 6 5/25 5/26 5/27 5/28 5/29 21 workshops 3 keynotes 11 research tracks 3 special tracks poster & demo track 20 tutorials 5 events 4 sponsor talks https://bit.ly/www22-report
  4. 投稿数・採択数・採択率 7 Research Track ごとの採択数 1. Social Network Analysis and

    Graph Algorithms 2. User Modeling, Personalization and Accessibility 3. Web Mining and Content Analysis の 3 強 (例年この 3 つが多い) 投稿数 採択数 採択率 2018 1140 171 15.0% 2019 1247 225 18.0% 2020 1129 217 19.2% 2021 1736 355 20.4% 2022 1822 323 17.7% 直近 5 年の Full Paper の 投稿数・採択数・採択率 https://bit.ly/www22-report
  5. • 榊さん (ホットリンク),松尾先⽣ (東⼤) らの WWW 2010 の 論⽂が受賞 ◦

    SNS を⽤いたリアルタイムイベント検知の論⽂ (リンク) Seoul Test of Time Award 8 https://bit.ly/www22-report Sakaki, Okazaki, Matsuo: Earthquake Shakes Twitter Users: Real-time Event Detection by Social Sensors (WWW 2010) 榊さんのご講演
  6. • Prabhakar Raghavan (Google) ◦ Search Engines: From the Lab

    to the Engine Room, and Back ◦ 現代の Web 検索エンジンにおける課題 • Virginia Dignum (Umeå University) ◦ Responsible AI: From Principles To Action ◦ 責任のある AI についての原則と課題 • Jaime Teevan (Microsoft) ◦ How the Web Will Shape the Hybrid Work Era ◦ COVID で⼈々の仕事の仕⽅や⾏動はどう変化したか Keynote 9 https://bit.ly/www22-report
  7. Keynote: Search Engines: From the Lab to the Engine Room,

    and Back 発表担当者: 中野 Speaker: Prabhakar Raghavan (Google)
  8. • Speaker: Prabhakar Raghavan ◦ Senior Vice President at Google

    ◦ IBM → Yahoo! Lab → Google (2012-) Search Engines: From the Lab to the Engine Room, and Back 11 https://www2022.thewebconf.org/wp-content/uploads/Keynotes/Prabhakar-Raghavan.png https://nlp.stanford.edu/IR-book/iir.jpg 今回の話: 研究所 (Lab) から Google (Engine Room) に移った 講演者がそこから得た知⾒をもとに現在の Web 検索エンジンに関する研究課題を述べていくという講演 Google 以前は WWW, VLDB, KDD, PODS などに 計 100 本以上の論⽂を 発表していたが Google 以降は 1 本のみ 情報検索の⼈には Introduction to Information Retrieval (情報検索の基礎) の著者だといえば伝わりそう Engine Room: 検索エンジン(を開発する)部屋 → ここでは Google ⾃体のことを指す
  9. • 近年 Open な Web サイトの数は頭打ちの状況にある ◦ なぜか?→ログイン認証などが必要な Closed な

    Web の増加 ◦ このようなサイトは “Walled Garden” と呼ばれている The State of the Web (Web の現状) 14 https://news.netcraft.com/archives/2022/04/27/april-2022-web-server-survey.html https://bit.ly/www22-report ウェブサイトの数 Hostnames Active Sites 2,000,000,000 1,500,000,000 1,000,000,000 500,000,000 2021 2018 2015 2012 2009 2006 2003 2000 Web の初期は 指数的に増加 近年は頭打ち
  10. • なぜ Closed な Web が増加している? ◦ モバイル機器の増加: ⼈々はWebブラウザではなくアプリを使いがち ◦

    ウェブサイトは管理が⼤変: SNS などの Closed な Web では 発信や宣伝や容易 • 問題点: Closed な Web はクロールできず検索できない ◦ Web はオープン性こそが重要なはず The State of the Web (Web の現状) 15 課題: どのようにすれば Web の コンテンツを増やせるか? https://bit.ly/www22-report
  11. • 別の話題: 英語以外のコンテンツの不⾜ The State of the Web (Web の現状)

    16 ヒンディー語やアラビア語 の話者数は英語の話者数の 1/3 程度だが Web 上の コンテンツ数では 英語の 1/100 以下しかない ヒンディー語圏では PC より モバイル機器を持っている ことのほうが多いことも⼀因 https://bit.ly/www22-report ⾔語の話者数 Web 上のコンテンツ数 Hindi Arabic English Hindi Arabic English
  12. • 1 つの⽅向性: 豊富な英語の資源を翻訳して使えないか? The State of the Web (Web

    の現状) 17 課題: どのようにすれば英語か らコンテンツの少ない⾔語への 翻訳をより適切に⾏えるだろう か? 通常の機械翻訳: 英語 ↔ ⽇本語 (双⽅向) 今回の機械翻訳: 英語 → ⽇本語 (単⽅向) コメント: 要はコンテンツの少ない⾔語に対して より良い機械翻訳モデルを作ることはできるのか? という話だと思われる 機械翻訳に詳しくないので 間違っていたらすいません… https://bit.ly/www22-report
  13. • クエリがある想定ではどうすればよいか? The State of the Web (Web の現状) 18

    課題: クエリを英語に翻訳し 英語の回答を取得した後に 元の⾔語に翻訳し直すという アイデアは技術的に実現可能で かつ安定した品質でできるか? コメント: このアイデアについては⾔語横断情報検索 で既に取り組まれているはず?今年の TREC でも Track が開催されるなど注⽬を集めている印象. ⾔語横断情報検索: Cross-Language Information Retrieval TREC 2022 NeuCLIR Track: https://neuclir.github.io/ https://bit.ly/www22-report ただし TREC の CLIR の Track は ⻑年開催されておらず久々に今年 開催されることとなったらしい
  14. • ⾳声⼊⼒による検索の増加 ◦ モバイル機器や Google Home などの普及 ◦ ヒンディー語圏などの PC

    よりモバイル機器を多く持つ地域では ⾳声⼊⼒による検索は欧⽶と⽐較して 5-10 倍多い • ⾳声⼊⼒のクエリの特徴 Reinventing what it means to search (検索することの意味の再発明) 20 • 質問形式が多い • レストランなどその場に 関するトピックが多い • ある特定のサイトを指す クエリが少ない • 健康などの sensitive な トピックが少ない
  15. • ⾳声⼊⼒による検索の課題 ◦ 現状の⾳声⼊⼒には誤りがある (エラー率は 2 桁 % らしい) Reinventing

    what it means to search (検索することの意味の再発明) 21 課題: 不完全な⾳声認識による ノイズに検索モデルをどのよう に適応させるべきか? 1. ⾳声認識されたクエリの誤りを訂正する⽅向性 2. 誤りを考慮した検索モデルを構築する⽅向性 2 つの⽅向性
  16. Sustainability (持続可能性) 23 CO2 排出量 課題: 環境に関する情報などを 表⽰した際のユーザへの⻑期的 な影響はどのようすれば測定で きるだろうか?

    東京(成⽥)からニューヨーク (JFK) への航路を検索した画⾯ https://bit.ly/www22-report 標準排出量との⽐較
  17. • 6 つの観点から現在の Web 検索エンジンの研究課題を提起 Keynote まとめ 24 Web の

    現状 情報の質と 誤情報 名詞から 動詞へ プライバシー と広告 検索することの 意味の再発明 持続可能性 https://bit.ly/www22-report
  18. • 課題⾃体は研究として特別に⽬新しいものはなさそう? ◦ Google でやっていることとその課題というものが多い印象がある ◦ もちろん実⽤に向けてより注⼒すべきというのは理解できる • ユーザが中⼼ということをかなり強調していた ◦

    印象に残ったこと: In all these challenges at Google, we focus on serving the user. And if you've been counting, I've used the word user over 100 times already in this talk. And I'm not done. • まとめ: Web 検索エンジンに関する幅広い内容のお話だった ◦ 今回は⾃然⾔語処理寄りの課題を紹介したが, HCI,推薦,プライバシー,経済の課題も紹介されていた ◦ 情報検索が様々な分野と関わる分野であり幅広い視点や 興味を持つことが重要であることを再確認できた 感想 25 https://bit.ly/www22-report
  19. • 良い翻訳モデルが作れない場合はどうすればよいか? ◦ NOTE: ⻑い⽂書の翻訳では⽂脈の考慮や代名詞の照応解析,語の⼀貫性 など良い翻訳モデルが必要となる →完全な翻訳ではなく要約を作る⽅向性 The State of

    the Web (Web の現状) 27 課題: どのように英語から コンテンツの少ない⾔語への 要約を作成しそれをどのように 評価すればよいだろうか? 機械翻訳に詳しくないので 間違っていたらすいません… https://bit.ly/www22-report
  20. • 単⼀モダリティから複数モダリティへ ◦ Google Multisearch: 画像+テキストを クエリとして検索可能 Reinventing what it

    means to search (検索することの意味の再発明) 28 https://blog.google/products/search/multisearch/ 服の画像+テキスト “green” を クエリとして検索 →元の画像の服に似た緑の服が 検索結果として表⽰される
  21. • 複数モダリティのクエリによる検索の課題 ◦ NOTE: 複数モーダル⾔語モデルが流⾏ (Vision-and-Language 分野) Reinventing what it

    means to search (検索することの意味の再発明) 29 課題: 複数モーダル⾔語モデルは テキストに特化したタスクにお いて従来の BERT などのテキス トのみのモデルの性能を上回る のか? (仮説: 複数モーダル⾔語モデル は複数のモーダルから有⽤な情 報を得ているはず)
  22. • Context-based Collective Preference Aggregation for Prioritizing Crowd Opinions in

    Social Decision-making ◦ Jiyi Li (University of Yamanashi, Japan) • Is this Question Real? Dataset Collection on Perceived Intentions and Implicit Attack Detection ◦ Maryam Sadat Mirzaei, Kourosh Meshgi, Satoshi Sekine (RIKEN, Japan) ⽇本からの採択論⽂ 34 2016 2017 2018 2019 2020 2021 採択数 3 5 3 6 2 2 ⽇本からの Full Paper の採択数 https://bit.ly/www22-report