The ACM Web Conference 2022 国際会議報告

The ACM Web Conference 2022 国際会議報告スライドのURL: https://bit.ly/www22-report

The ACM Web Conference 2022 概要発表担当者: 中野

• WebConf (旧: WWW): Web に関するトップ国際会議 ◦ 対象分野: Web，検索・推薦， HCI，
Web マイニング， SNS，セマンティク Web，プライバシー・セキュリティ，経済，インフラなど WebConf とは？ 4 情報検索 Web SIGIR ECIR CHIIR WSDM WebConf RecSys データマイニング CIKM ICTIR HCI 情報検索関連の国際会議の⽴ち位置 (私⾒) 注: あくまで情報検索をメイントピックとする会議なので KDD などは⼊れていませんコメント: 新しい問題や少し変わった問題が好まれるイメージ例えば Using Web Data to Reveal 22-Year History of Sneaker Designs (Best Paper 候補) →スニーカーのデザインの傾向について過去 22 年間の Web 上の画像を⽤いて分析 https://bit.ly/www22-report

• 1994-2017: The International World Wide Web Conference (WWW) •
2018-2021: The Web Conference (WebConf) ◦ ここまで The International World Wide Web Conference Committee (IW3C2) 主催 • 2022- : The ACM Web Conference (ACM WebConf) ◦ ACM SIGWEB 主催名称と主催について 5 ACM WebConf 2022 WebConf 2021 WWW 2017 https://bit.ly/www22-report

• 開催形式: オンライン ◦ もともとは Lyon (France) 開催予定 ◦ ⽇本時間では
15:00〜翌 2:00 頃の時間帯 ◦ 発表は後⽇ ACM SIGWEB YouTube で公開予定 ◦ 来年は Austin (Texas, USA) で開催予定開催形式・場所・⽇程 6 5/25 5/26 5/27 5/28 5/29 21 workshops 3 keynotes 11 research tracks 3 special tracks poster & demo track 20 tutorials 5 events 4 sponsor talks https://bit.ly/www22-report

投稿数・採択数・採択率 7 Research Track ごとの採択数 1. Social Network Analysis and
Graph Algorithms 2. User Modeling, Personalization and Accessibility 3. Web Mining and Content Analysis の 3 強 (例年この 3 つが多い) 投稿数採択数採択率 2018 1140 171 15.0% 2019 1247 225 18.0% 2020 1129 217 19.2% 2021 1736 355 20.4% 2022 1822 323 17.7% 直近 5 年の Full Paper の投稿数・採択数・採択率 https://bit.ly/www22-report

• 榊さん (ホットリンク)，松尾先⽣ (東⼤) らの WWW 2010 の論⽂が受賞 ◦
SNS を⽤いたリアルタイムイベント検知の論⽂ (リンク) Seoul Test of Time Award 8 https://bit.ly/www22-report Sakaki, Okazaki, Matsuo: Earthquake Shakes Twitter Users: Real-time Event Detection by Social Sensors (WWW 2010) 榊さんのご講演

• Prabhakar Raghavan (Google) ◦ Search Engines: From the Lab
to the Engine Room, and Back ◦ 現代の Web 検索エンジンにおける課題 • Virginia Dignum (Umeå University) ◦ Responsible AI: From Principles To Action ◦ 責任のある AI についての原則と課題 • Jaime Teevan (Microsoft) ◦ How the Web Will Shape the Hybrid Work Era ◦ COVID で⼈々の仕事の仕⽅や⾏動はどう変化したか Keynote 9 https://bit.ly/www22-report

Keynote: Search Engines: From the Lab to the Engine Room,
and Back 発表担当者: 中野 Speaker: Prabhakar Raghavan (Google)

• Speaker: Prabhakar Raghavan ◦ Senior Vice President at Google
◦ IBM → Yahoo! Lab → Google (2012-) Search Engines: From the Lab to the Engine Room, and Back 11 https://www2022.thewebconf.org/wp-content/uploads/Keynotes/Prabhakar-Raghavan.png https://nlp.stanford.edu/IR-book/iir.jpg 今回の話: 研究所 (Lab) から Google (Engine Room) に移った講演者がそこから得た知⾒をもとに現在の Web 検索エンジンに関する研究課題を述べていくという講演 Google 以前は WWW, VLDB, KDD, PODS などに計 100 本以上の論⽂を発表していたが Google 以降は 1 本のみ情報検索の⼈には Introduction to Information Retrieval (情報検索の基礎) の著者だといえば伝わりそう Engine Room: 検索エンジン(を開発する)部屋 → ここでは Google ⾃体のことを指す

6 つのトピック 12 Webの現状情報の質と誤情報名詞から動詞へ (エンティティ検索からアクションへ) プライバシーと広告検索することの意味の再発明 (マルチモーダルなクエリによる検索)
持続可能性 https://bit.ly/www22-report

• 近年 Open な Web サイトの数は頭打ちの状況にある ◦ なぜか？→ログイン認証などが必要な Closed な
Web の増加 ◦ このようなサイトは “Walled Garden” と呼ばれている The State of the Web (Web の現状) 14 https://news.netcraft.com/archives/2022/04/27/april-2022-web-server-survey.html https://bit.ly/www22-report ウェブサイトの数 Hostnames Active Sites 2,000,000,000 1,500,000,000 1,000,000,000 500,000,000 2021 2018 2015 2012 2009 2006 2003 2000 Web の初期は指数的に増加近年は頭打ち

• なぜ Closed な Web が増加している？ ◦ モバイル機器の増加: ⼈々はWebブラウザではなくアプリを使いがち ◦
ウェブサイトは管理が⼤変: SNS などの Closed な Web では発信や宣伝や容易 • 問題点: Closed な Web はクロールできず検索できない ◦ Web はオープン性こそが重要なはず The State of the Web (Web の現状) 15 課題: どのようにすれば Web のコンテンツを増やせるか？ https://bit.ly/www22-report

• 別の話題: 英語以外のコンテンツの不⾜ The State of the Web (Web の現状)
16 ヒンディー語やアラビア語の話者数は英語の話者数の 1/3 程度だが Web 上のコンテンツ数では英語の 1/100 以下しかないヒンディー語圏では PC よりモバイル機器を持っていることのほうが多いことも⼀因 https://bit.ly/www22-report ⾔語の話者数 Web 上のコンテンツ数 Hindi Arabic English Hindi Arabic English

• 1 つの⽅向性: 豊富な英語の資源を翻訳して使えないか？ The State of the Web (Web
の現状) 17 課題: どのようにすれば英語からコンテンツの少ない⾔語への翻訳をより適切に⾏えるだろうか？通常の機械翻訳: 英語 ↔ ⽇本語 (双⽅向) 今回の機械翻訳: 英語 → ⽇本語 (単⽅向) コメント: 要はコンテンツの少ない⾔語に対してより良い機械翻訳モデルを作ることはできるのか？という話だと思われる機械翻訳に詳しくないので間違っていたらすいません… https://bit.ly/www22-report

• クエリがある想定ではどうすればよいか？ The State of the Web (Web の現状) 18
課題: クエリを英語に翻訳し英語の回答を取得した後に元の⾔語に翻訳し直すというアイデアは技術的に実現可能でかつ安定した品質でできるか？コメント: このアイデアについては⾔語横断情報検索で既に取り組まれているはず？今年の TREC でも Track が開催されるなど注⽬を集めている印象．⾔語横断情報検索: Cross-Language Information Retrieval TREC 2022 NeuCLIR Track: https://neuclir.github.io/ https://bit.ly/www22-report ただし TREC の CLIR の Track は⻑年開催されておらず久々に今年開催されることとなったらしい

• ⾳声⼊⼒による検索の増加 ◦ モバイル機器や Google Home などの普及 ◦ ヒンディー語圏などの PC
よりモバイル機器を多く持つ地域では⾳声⼊⼒による検索は欧⽶と⽐較して 5-10 倍多い • ⾳声⼊⼒のクエリの特徴 Reinventing what it means to search (検索することの意味の再発明) 20 • 質問形式が多い • レストランなどその場に関するトピックが多い • ある特定のサイトを指すクエリが少ない • 健康などの sensitive なトピックが少ない

• ⾳声⼊⼒による検索の課題 ◦ 現状の⾳声⼊⼒には誤りがある (エラー率は 2 桁 % らしい) Reinventing
what it means to search (検索することの意味の再発明) 21 課題: 不完全な⾳声認識によるノイズに検索モデルをどのように適応させるべきか？ 1. ⾳声認識されたクエリの誤りを訂正する⽅向性 2. 誤りを考慮した検索モデルを構築する⽅向性 2 つの⽅向性

Sustainability (持続可能性) 23 CO2 排出量課題: 環境に関する情報などを表⽰した際のユーザへの⻑期的な影響はどのようすれば測定できるだろうか？
東京(成⽥)からニューヨーク (JFK) への航路を検索した画⾯ https://bit.ly/www22-report 標準排出量との⽐較

• 6 つの観点から現在の Web 検索エンジンの研究課題を提起 Keynote まとめ 24 Web の
現状情報の質と誤情報名詞から動詞へプライバシーと広告検索することの意味の再発明持続可能性 https://bit.ly/www22-report

• 課題⾃体は研究として特別に⽬新しいものはなさそう？ ◦ Google でやっていることとその課題というものが多い印象がある ◦ もちろん実⽤に向けてより注⼒すべきというのは理解できる • ユーザが中⼼ということをかなり強調していた ◦
印象に残ったこと: In all these challenges at Google, we focus on serving the user. And if you've been counting, I've used the word user over 100 times already in this talk. And I'm not done. • まとめ: Web 検索エンジンに関する幅広い内容のお話だった ◦ 今回は⾃然⾔語処理寄りの課題を紹介したが， HCI，推薦，プライバシー，経済の課題も紹介されていた ◦ 情報検索が様々な分野と関わる分野であり幅広い視点や興味を持つことが重要であることを再確認できた感想 25 https://bit.ly/www22-report

Appendix

• 良い翻訳モデルが作れない場合はどうすればよいか？ ◦ NOTE: ⻑い⽂書の翻訳では⽂脈の考慮や代名詞の照応解析，語の⼀貫性など良い翻訳モデルが必要となる →完全な翻訳ではなく要約を作る⽅向性 The State of
the Web (Web の現状) 27 課題: どのように英語からコンテンツの少ない⾔語への要約を作成しそれをどのように評価すればよいだろうか？機械翻訳に詳しくないので間違っていたらすいません… https://bit.ly/www22-report

• 単⼀モダリティから複数モダリティへ ◦ Google Multisearch: 画像+テキストをクエリとして検索可能 Reinventing what it
means to search (検索することの意味の再発明) 28 https://blog.google/products/search/multisearch/ 服の画像+テキスト “green” をクエリとして検索 →元の画像の服に似た緑の服が検索結果として表⽰される

• 複数モダリティのクエリによる検索の課題 ◦ NOTE: 複数モーダル⾔語モデルが流⾏ (Vision-and-Language 分野) Reinventing what it
means to search (検索することの意味の再発明) 29 課題: 複数モーダル⾔語モデルはテキストに特化したタスクにおいて従来の BERT などのテキストのみのモデルの性能を上回るのか？ (仮説: 複数モーダル⾔語モデルは複数のモーダルから有⽤な情報を得ているはず)

• 課題 Information Quality and Misinformation (情報の質と誤情報) 30

• キーワード検索からエンティティ検索，さらにアクション (推薦など) へ • 課題 From the noun
to the verb (名詞から動詞へ) 31 https://bit.ly/www22-report

• 課題 Privacy and Advertising (プライバシーと広告) 32 https://bit.ly/www22-report

• 課題 Privacy and Advertising (プライバシーと広告) 33 https://bit.ly/www22-report

• Context-based Collective Preference Aggregation for Prioritizing Crowd Opinions in
Social Decision-making ◦ Jiyi Li (University of Yamanashi, Japan) • Is this Question Real? Dataset Collection on Perceived Intentions and Implicit Attack Detection ◦ Maryam Sadat Mirzaei, Kourosh Meshgi, Satoshi Sekine (RIKEN, Japan) ⽇本からの採択論⽂ 34 2016 2017 2018 2019 2020 2021 採択数 3 5 3 6 2 2 ⽇本からの Full Paper の採択数 https://bit.ly/www22-report

The ACM Web Conference 2022 国際会議報告

The ACM Web Conference 2022 国際会議報告

Yu Nakano / 中野優

More Decks by Yu Nakano / 中野優

Other Decks in Science

Featured

Transcript