• 1994-2017: The International World Wide Web Conference (WWW) • 2018-2021: The Web Conference (WebConf) ◦ ここまで The International World Wide Web Conference Committee (IW3C2) 主催 • 2022- : The ACM Web Conference (ACM WebConf) ◦ ACM SIGWEB 主催 名称と主催について 5 ACM WebConf 2022 WebConf 2021 WWW 2017 https://bit.ly/www22-report
• Prabhakar Raghavan (Google) ◦ Search Engines: From the Lab to the Engine Room, and Back ◦ 現代の Web 検索エンジンにおける課題 • Virginia Dignum (Umeå University) ◦ Responsible AI: From Principles To Action ◦ 責任のある AI についての原則と課題 • Jaime Teevan (Microsoft) ◦ How the Web Will Shape the Hybrid Work Era ◦ COVID で⼈々の仕事の仕⽅や⾏動はどう変化したか Keynote 9 https://bit.ly/www22-report
• Speaker: Prabhakar Raghavan ◦ Senior Vice President at Google ◦ IBM → Yahoo! Lab → Google (2012-) Search Engines: From the Lab to the Engine Room, and Back 11 https://www2022.thewebconf.org/wp-content/uploads/Keynotes/Prabhakar-Raghavan.png https://nlp.stanford.edu/IR-book/iir.jpg 今回の話: 研究所 (Lab) から Google (Engine Room) に移った 講演者がそこから得た知⾒をもとに現在の Web 検索エンジンに関する研究課題を述べていくという講演 Google 以前は WWW, VLDB, KDD, PODS などに 計 100 本以上の論⽂を 発表していたが Google 以降は 1 本のみ 情報検索の⼈には Introduction to Information Retrieval (情報検索の基礎) の著者だといえば伝わりそう Engine Room: 検索エンジン(を開発する)部屋 → ここでは Google ⾃体のことを指す
• 近年 Open な Web サイトの数は頭打ちの状況にある ◦ なぜか?→ログイン認証などが必要な Closed な Web の増加 ◦ このようなサイトは “Walled Garden” と呼ばれている The State of the Web (Web の現状) 14 https://news.netcraft.com/archives/2022/04/27/april-2022-web-server-survey.html https://bit.ly/www22-report ウェブサイトの数 Hostnames Active Sites 2,000,000,000 1,500,000,000 1,000,000,000 500,000,000 2021 2018 2015 2012 2009 2006 2003 2000 Web の初期は 指数的に増加 近年は頭打ち
• なぜ Closed な Web が増加している? ◦ モバイル機器の増加: ⼈々はWebブラウザではなくアプリを使いがち ◦ ウェブサイトは管理が⼤変: SNS などの Closed な Web では 発信や宣伝や容易 • 問題点: Closed な Web はクロールできず検索できない ◦ Web はオープン性こそが重要なはず The State of the Web (Web の現状) 15 課題: どのようにすれば Web の コンテンツを増やせるか? https://bit.ly/www22-report
• 別の話題: 英語以外のコンテンツの不⾜ The State of the Web (Web の現状) 16 ヒンディー語やアラビア語 の話者数は英語の話者数の 1/3 程度だが Web 上の コンテンツ数では 英語の 1/100 以下しかない ヒンディー語圏では PC より モバイル機器を持っている ことのほうが多いことも⼀因 https://bit.ly/www22-report ⾔語の話者数 Web 上のコンテンツ数 Hindi Arabic English Hindi Arabic English
• 課題⾃体は研究として特別に⽬新しいものはなさそう? ◦ Google でやっていることとその課題というものが多い印象がある ◦ もちろん実⽤に向けてより注⼒すべきというのは理解できる • ユーザが中⼼ということをかなり強調していた ◦ 印象に残ったこと: In all these challenges at Google, we focus on serving the user. And if you've been counting, I've used the word user over 100 times already in this talk. And I'm not done. • まとめ: Web 検索エンジンに関する幅広い内容のお話だった ◦ 今回は⾃然⾔語処理寄りの課題を紹介したが, HCI,推薦,プライバシー,経済の課題も紹介されていた ◦ 情報検索が様々な分野と関わる分野であり幅広い視点や 興味を持つことが重要であることを再確認できた 感想 25 https://bit.ly/www22-report
• 良い翻訳モデルが作れない場合はどうすればよいか? ◦ NOTE: ⻑い⽂書の翻訳では⽂脈の考慮や代名詞の照応解析,語の⼀貫性 など良い翻訳モデルが必要となる →完全な翻訳ではなく要約を作る⽅向性 The State of the Web (Web の現状) 27 課題: どのように英語から コンテンツの少ない⾔語への 要約を作成しそれをどのように 評価すればよいだろうか? 機械翻訳に詳しくないので 間違っていたらすいません… https://bit.ly/www22-report
• 単⼀モダリティから複数モダリティへ ◦ Google Multisearch: 画像+テキストを クエリとして検索可能 Reinventing what it means to search (検索することの意味の再発明) 28 https://blog.google/products/search/multisearch/ 服の画像+テキスト “green” を クエリとして検索 →元の画像の服に似た緑の服が 検索結果として表⽰される