Slide 1

Slide 1 text

SIGMOD 2022国際会議報告 2022.8.4 第43回先端的データベースとWeb技術動向報告会 ACM SIGMOD ⽇本⽀部第80回⽀部⼤会 Tsubasa TAKAHASHI Seng Pei LIEW Data Science Center / AI Company, LINE Corp.

Slide 2

Slide 2 text

2 https://linecorp.com/ja/pr/news/ja/2022/4269

Slide 3

Slide 3 text

Tsubasa TAKAHASHI, Ph.D Senior Research Scientist / R&D Manager at LINE R&D Activity • R&D on Privacy x ML (LINE Data Science Center) • R&D on Trustworthy AI (LINE AI Company) • 招聘研究員 (WASEDA U.) / DBSJ理事など各種委員を担当 Selected Publication • 分散型シャッフリング @SIGMOD 2022 w/ Liewさん • プライバシ x クエリ処理 @VLDB 2022 w/ 加藤さん • プライバシ x データ合成 @ICDE 2021, ICLR 2022 w/ ⾼⽊さん, Liewさん • Graph NNへのポイズニング @BigData 2019 • テンソル分解による異常検知 @WWW 2017 Univ. NEC LINE ⽊更津⾼専卒業 筑波⼤ 学⼠/修⼠ 筑波⼤社会⼈博⼠ CMU訪問研究員 上林奨励賞 中央研究所配属 匿名化の研究2010~15 AIセキュリティ2016~18 Privacy x ML2019~ Trustworthy AI2021~

Slide 4

Slide 4 text

SIGMOD Conference • データベース三⼤会議の⼀つ • SIGMOD/PODS, VLDB, ICDE • 直近の会議 • 2018 Houston (⽶国) • 2019 Amsterdam (オランダ) • 2020 Portland (⽶国) • 2021 Xian (中国) à virtual • 2022 Philadelphia (⽶国) + virtual (zoom) 4 (引⽤) https://sigmod.org/

Slide 5

Slide 5 text

SIGMOD 2022 @ Philadelphia • First Hybrid SIGMOD Conference • 現地会場︓Marriott Philadelphia Downtown • Virtual会場︓Zoom + Gather.town • ⼀部のソーシャルプログラムは現地会場のみ • 参加者数 • 現 地︓550 • リモート︓300 • ※初⽇のオープニングで公表された数値 5 (引⽤) https://2022.sigmod.org/ 髙橋、リュウはリモート参加

Slide 6

Slide 6 text

参加者数(国別) • 参加者数(トータル) • 1位︓⽶国 • 2位︓ドイツ • 3位︓中国 • 4位︓カナダ • 5位︓スイス • … • ⽇本は20位前後︖ 6 ほぼリモート 現地 > リモート 現地 ≒ リモート ※ 図表は投影スライドのスクリーンショットです。

Slide 7

Slide 7 text

Covid-19対策 • マスクは必須 • ⾷事とプレゼンテーションは除く • Daily Testing • COVID rapid self-tests for each evening • 陽性者数を毎⽇発表 • 陽性になったら求められること • マスクなしで濃厚接触した⼈を報告 • 可能な限り⾃主的な隔離 • N95マスクの装着 7 (引⽤) https://2022.sigmod.org/

Slide 8

Slide 8 text

バンケット • @National Constitution Center • ⽶国の歴史に関するミュージアム 8 リモートで参加のため、バンケットには不参加(中継なし) (引⽤) https://2022.sigmod.org/

Slide 9

Slide 9 text

SIGMOD 2022の運営コアメンバー 9 検索・Web クエリ⾔語 ・DB理論 データ統合 ・クエリ処理 分散システム DB/学習理論 (引⽤) https://2022.sigmod.org/

Slide 10

Slide 10 text

SIGMOD 2022のスポンサー 10 GAFAM + BATが勢揃い ※ 図表は投影スライドのスクリーンショットです。

Slide 11

Slide 11 text

査読プロセスの向上 • Review Quality Week • 著者へのフィードバックに先⽴ち実施 • AEは査読者に対して、建設的かつプロフェッショナルなレビュー (constructive and professional review)を保証することを伝達 • Author Feedback • AEは、著者からのフィードバックへの応答を義務付けられている • AE meta-review • 著者と共に採択を⽬指してRevisionに対応する • Revision Phase • 8+ week 11

Slide 12

Slide 12 text

ケーススタディ – LINEの採択論⽂の場合 • 投稿︓2nd Round • Notification à revision • Revision • 2ヶ⽉間でMajor Revision • Revisionを投稿 • 最終通知の1週間前に、Meta-reviewerから連絡 • マイナーな修正に対応することができた • Acceptの通知 • 最終評価︓ A / A / R à Meta-reviewerが採択されるように推してくれた 12

Slide 13

Slide 13 text

投稿数 / 採択数 13 ※ 図表は投影スライドのスクリーンショットです。

Slide 14

Slide 14 text

論⽂のキーワード 14 ※ 図表は投影スライドのスクリーンショットです。

Slide 15

Slide 15 text

採択率 15 ※ 図表は投影スライドのスクリーンショットです。

Slide 16

Slide 16 text

採択率 (トピック別) 16 Graph / RDF / SNS (21%) Data management for ML (49%) ML for data management (27%) Security / Privacy (37%) クエリ処理・最適化 (25%) Stream / Sensor (69%) Transaction (42%) ※ 図表は投影スライドのスクリーンショットです。

Slide 17

Slide 17 text

採択率 (性別) 17 ※ 図表は投影スライドのスクリーンショットです。

Slide 18

Slide 18 text

採択率 (トラック別) 18 採択数(率) 投稿数(割合) ※ 図表は投影スライドのスクリーンショットです。

Slide 19

Slide 19 text

投稿件数(国別) 19 ※ 図表は投影スライドのスクリーンショットです。

Slide 20

Slide 20 text

Review Discussion 20 0はdesk reject ※ 図表は投影スライドのスクリーンショットです。

Slide 21

Slide 21 text

プログラム構成 • 28 research sessions, 2 industrial, 5 demo • Live presentation or short pre-recorded presentation • 3 キーノート • 2 Diversity & inclusion events • D&I keynote • SIGMOD D&I panel • New researcher symposium 21

Slide 22

Slide 22 text

プログラム 22

Slide 23

Slide 23 text

SIGMOD Panel 1: The DB community vis-a-vis grand challenges related to the environment, health, and society: innovation engine, plumber, or bystander? 23

Slide 24

Slide 24 text

Panel 1 • The DB community vis-a-vis grand challenges related to the environment, health, and society: innovation engine, plumber, or bystander? • Organizer: • Magdalena Balazinska (Univ. of Washington) • Panelists: • Anastasia Ailamaki (EPFL) • Leilani Battle (Univ. of Washington) • Johannes Gehrke (Microsoft Research) • Masaru Kitsuregawa (NII, Univ. of Tokyo) • David Maier (Portland State Univ.) • Christopher Re (Stanford) • Meihui Zhang (Beijing Institute of Technology) 24 環境・健康・社会のグランドチャレンジに相対するDBコミュニティ イノベーションエンジンか︖配管⼯か︖傍観者か︖

Slide 25

Slide 25 text

Questions to Panelists • Q1: Should we engage and find collaborators? • Q2: Should we build prototypes, open systems, hire teams? • Q3: Should we collaborate with other researchers or practitioners? • Q4: Should the database community organize ourselves to facilitate and recognize work that solves real world problems and have practical impact? 25

Slide 26

Slide 26 text

Lessons from Panel 1 (1/3) • Leilani Battle (U. Washington) • Helping people requires a meaningful connection and active dialogue. • David Maier (Portland State U.) • Take care with people who think you will be gratified to help out simply because they have "interesting data". • Anastasia Ailamaki (EPFL) • Talking to scientists an endless source of inspiration. • Be patient with peer reviewers. • Open mind toward building bridges across sciences. 26

Slide 27

Slide 27 text

Lessons from Panel 1 (2/3) • Johannes Gehrke (Microsoft) • Keep your eye on the prize (変化を注視しつづける) • Find a real problem instance • Select the right collaborators • Don’t underestimate indirect influence (AIの発展はデータに基づいている) • Invest into People • Christopher Ré (Stanford) • The point of the projects is to develop people. • Students lead to new directions –and end bad ones. 27

Slide 28

Slide 28 text

Lessons from Panel 1 (3/3) • 喜連川先⽣ (NII, U. Tokyo) • Most researchers rushed to develop their own models, rather than working together. The world produced hundreds of mediocre tools, rather than a handful of properly trained and tested ones. • Database researchers' role is to show the importance of data and importance of data sharing by solving real world problem with Databased approach in addition to writing papers. • Meihui Zhang (Beijing Institute of Technology) • Working with non-computer scientists require: • A lot of patience and understanding • Data collection and cleaning • Involvement in non-CS writing for subject matter experts to publish in their domain 28

Slide 29

Slide 29 text

SIGMOD Panel 2: Publication Culture and Review Processes in the Data Management Community: An Open Discussion 29

Slide 30

Slide 30 text

Panel 2: Publication Culture and Review Processes in the Data Management Community: An Open Discussion • タイトル • Publication Culture and Review Processes in the Data Management Community: An Open Discussion • パネリスト • Sihem Amer-Yahia (CNRS LIG and Univ. Grenoble Alpes) • Sourav S. Bhowmick (NTU Singapore) • Xin Luna Dong (Meta) • Stratos Idreos (Harvard) • Wolfgang Lehner (TU Dresden) • オーガナイザー • Divesh Srivastava 30 ※ 図表は投影スライドのスクリーンショットです。

Slide 31

Slide 31 text

Diversity & Inclusion • Diversity & Inclusion • 2021からデータサイエンストラックを創設した • 2021は Data Science & Engineering Track • 2022は Data Science Track と Data-centric Application Track • 8ページの短いフォーマットで早期の成果出しに配慮したもの • Data Management Trackは12ページ • 会場からのコメント • マルチトラックの導⼊はencouragingである。⾒守りたい • オープンレビューの導⼊は︖ 31

Slide 32

Slide 32 text

よいPublicationとは︖よい論⽂とは︖ • What are good publication? What is the impact of the paper? • citation numbers / h-index • How many of ideas are either pushing new ideas come up or generating practical impact in industry in changing people’ life • Ex. Booking airline ticket • Database communityの貢献 • 良い論⽂とは何か︖ • worth well for readers’ time • Paper should • have good idea • Well written • Easy to understood • Inspiring 32

Slide 33

Slide 33 text

査読の質を上げるためには • PCメンバーの選択の質を上げる • トピックのカバー率 / 多様性 • レビューの⽂章がどうとかではなく、もっと上流の改善が必要 • PCメンバーの選択は学会のデザインの問題 • レビューボードを構成するメンバーを考えるために詳細なデータソースを作る必要がある • 会場からのコメント • 今⽇では多くの会議でマルチラウンドsubmissionが導⼊されている à パイオニアであるDBコミュニティの勝利 • この2,3年でSIGMODの査読の質は改善した 33

Slide 34

Slide 34 text

DBコミュニティの査読プロセスのよい点 • DBコミュニティのよいところ • 査読者がDBコミュニティに対して責任を持っている • シニアPCがPC間での議論を促している • 他のコミュニティとの⽐較では “better” • オンタイムの査読が⾏われている • VLDBの査読の場合 • Very very tiny%の論⽂だけが⼀発採択 • ほとんどの論⽂がRevision • ボーダラインに乗った論⽂にRevisionの機会を与える • 採択になる論⽂のほとんどが“ボーダライン”ペーパーである • この機会を与えることで、他の会議に単に流れることを防ぐ • 査読者向けのFAQを作った 34

Slide 35

Slide 35 text

ページ数に関する議論 • DBの論⽂はページ数が⻑い。他のコミュニティには馴染みがない • ページ数の削減のメリット • 8ページ前後の論⽂は1つのContributionの記述にフォーカスできる • 成果を早期にアウトプットできる • ページ数の削減 = Expectationの変更 • DB系の論⽂は3つのmajor technical contributionを求める傾向にある。短いページ 数に移⾏するためには、expectationを変える必要がある • どれだけのdetailを1つの論⽂に求めるのか • DB系の場合、システム / 理論 / 性能 • システム系の論⽂にとっては12ページですら制限が強いとの声も 35

Slide 36

Slide 36 text

所感 • コミュニティとして危機感を持ち、熱⼼に議論している点が好印象 • この2~3年のSIGMOD/VLDBの査読プロセスへの評価は⾼い • 実体験でも⽣産的なコメントを頂いている • 数年前との⽐較では採択率がほぼ2倍になったが、⽇本からの採択は それほど増えていない点が残念 • SIGMOD/VLDBと⽐べてICDEへの⾔及がほぼなかった • EDBTに⾔及している⽅は何⼈かいた 36

Slide 37

Slide 37 text

Keynote • Keynote 1 • Reflections on a Career in Computer Science • Barbara Liskov (MIT) • Keynote 2 • On A Quest for Combating Filter Bubbles and Misinformation • Laks V.S. Lakshmanan (University of British Columbia) • Keynote 3 • Is Data Management the Beating Heart of AI Systems? • Christopher Ré (Stanford) 37 (引⽤) https://2022.sigmod.org/

Slide 38

Slide 38 text

Keynote 3 38 ※ 図表は投影スライドのスクリーンショットです。

Slide 39

Slide 39 text

AI開発のビッグウェーブを乗りこなす 39 ※ 図表は投影スライドのスクリーンショットです。

Slide 40

Slide 40 text

Appleと共に3つのスタートアップを設⽴ 40 ※ 図表は投影スライドのスクリーンショットです。

Slide 41

Slide 41 text

深層学習すれば問題は解決するのか︖ • データの質の影響が不明確 • モデル (アルゴリズム) を変えても性能差が僅か • ラベルの質についても考える必要がある 41 ※ 図表は投影スライドのスクリーンショットです。

Slide 42

Slide 42 text

訓練データがボトルネック 42 ※ 図表は投影スライドのスクリーンショットです。

Slide 43

Slide 43 text

Snorkel: プログラムによるラベリング • ラベリング関数を作成し、⾃動的なラベル付与を実現 • ⼈⼿によるラベリングでのコスト等の課題を解決 43 ※ 図表は投影スライドのスクリーンショットです。

Slide 44

Slide 44 text

Foundation Model • 巨⼤なモデルと巨⼤なデータがもたらす驚異的な変化 • 最新のモデルでは、「⾺に乗った宇宙⾶⾏⼠」のような架空の画像 をコンテキストを理解して⽣成できる 44 ※ 図表は投影スライドのスクリーンショットです。

Slide 45

Slide 45 text

Foundation Model • 巨⼤なモデルを巨⼤なデータで訓練した汎⽤モデル • Promptingによって、追加学習なしに様々なタスクを設計可能 • 推論 / 翻訳 / QA / 要約 / … 45 ※ 図表は投影スライドのスクリーンショットです。

Slide 46

Slide 46 text

Foundation Model • コード⽣成や画像⽣成も 46 ※ 図表は投影スライドのスクリーンショットです。

Slide 47

Slide 47 text

Foundation Model for Data Tasks • テーブルデータの⽋損補完 47 ※ 図表は投影スライドのスクリーンショットです。

Slide 48

Slide 48 text

Robustness / Biasの問題 • DNNは意図しない特徴を使って判断していることがある • 虹彩を使った性別判別器 à マスカラ等のメイクの影響が⼤きい • 動物の分類 à 背景画像から判断している 48 ※ 図表は投影スライドのスクリーンショットです。

Slide 49

Slide 49 text

Keynote 3のまとめ 49 ※ 図表は投影スライドのスクリーンショットです。

Slide 50

Slide 50 text

Best Paper Award受賞論⽂の紹介 Tsubasa TAKAHASHI 50

Slide 51

Slide 51 text

Best Paper Award 51 https://dl.acm.org/doi/pdf/10.1145/3514221.3517844 キーワード︓ Differential Privacy / SPJA Query / Foreign-key Constraint PODS’22 / SIGMOD’21 でも採択 DPの第⼀⼈者 (l-diversityの提案者)

Slide 52

Slide 52 text

Differential Privacy Differential Privacy (DP) とは︖ • データ収集・解析の結果に対してプライバシーの⽔準を統計的に表現した尺度 • 統計的に「どれだけ他⼈と⾒分けがつかないか」をプライバシーパラメータ ε で表現 • Google, Apple, US Census等で実装され始めた Golden Standard 解決する課題 • いかなる外部知識との突合にも頑健なプライバシー保護の提供(特別なノイズを加算) • データ活⽤に伴う累積的なプライバシー消費の定量的な管理 !" 他⼈と⾒分けがつかないように アルゴリズムの出⼒にノイズ加算 (ε程度に他⼈と⾒分けられない) プライバシー消費を定量的に管理可能 ノイズ加算 Privacy消費 累積 Analysis #1 # $ Analysis #2 # %$ Analysis #3 # &$

Slide 53

Slide 53 text

ノイズの設計とセンシティビティ センシティビティΔ" • 関数 # の出⼒の最⼤の変化量(想定する隣接性における) 53 Δ" = sup # ( − # (* + Examples Δ,-./01234 = 1 Δ6078/ = 1 Δ4938 = 1 : ラプラスメカニズム • 平均0、分散b = Δ" /= のラプラス分布からノイズをサンプリング ℳ ( = # ( + Lap 0, Δ" = ※ CDPの場合 ノイズで 覆い隠す 度合い

Slide 54

Slide 54 text

R2Tの概要 • 取り組む課題 • Self-joinを⽤いる際にSensitivityをどう扱えばよいか︖ • 従来の考え⽅ • Truncation Mechanism: • クエリへの貢献 (値の⼤きさ等) が ! より⼤きい個⼈をテーブルから削除 • ある個⼈に変更があっても、⾼々!の変化 à sensitivity = ! • à クエリの結果にバイアスが⼊る à バイアスの⼩さい " はどう選べばよいか︖ • 貢献 • Self-joinを⽤いる際のSensitivityの上限値!を準最適に導出するアルゴリズム Race-to-the-Top (R2T) を提案 54

Slide 55

Slide 55 text

Self-joinがなぜ問題か︖ • ナイーブなTruncationがうまく機能しない • あるユーザの追加/削除が他のユーザにも影響してしまうため • Self-joinなしの従来の想定よりも閾値!の値に⼤きく依存してしまう à " をどう設定するか︖ 55 SELCT SUM(Amount) FROM Transaction, People P1, People P2 WHERE P1.ID = From AND P2.ID = To; ID Location p1 Tokyo p2 Kyoto p3 Hokkaido p4 Okinawa … From To Amount p1 p2 1,000 p3 p4 1,000 p5 p6 1,000 p7 p8 1,000 p9 p10 1,000 … … p1 p3 p5 p7 p9 p2 p4 p6 p8 p10 " = 1,000 ' '( … p1 p3 p5 p7 p9 p2 p4 p6 p8 p10 pz α ) ', " = 1,000× 1 2 , ) '(, " = 0 N 追加 People(ID, Location) Transaction(From, To, Amount)

Slide 56

Slide 56 text

Race-to-the-Top (R2T) メカニズム • 基本戦略︓様々な!を競わせ、最も誤差の⼩さい値を出⼒ • "の候補は2のn乗の値に限る • DPを保証しながら # $(&, ")を 56 真の出⼒ Truncation by " Truncation by " + DP Truncation による誤差 DPのノイズ による誤差 DPに必要なノイズ ノイズの加算を 前提とした補正項 !を競わせて最⼤値をR2Tメカニズムの出⼒とする (引⽤) https://dl.acm.org/doi/pdf/10.1145/3514221.3517844 真の出⼒ R2Tの出⼒

Slide 57

Slide 57 text

Evaluation: Error Level • 多くのクエリでR2Tの性能が⾼い (誤差が⼩さい) 57 (引⽤) https://dl.acm.org/doi/pdf/10.1145/3514221.3517844

Slide 58

Slide 58 text

!の選択の有効性 • R2Tの誤差は⼩さい、ただしLPメカニズムの最良値には劣る 58 (引⽤) https://dl.acm.org/doi/pdf/10.1145/3514221.3517844

Slide 59

Slide 59 text

R2Tのまとめ • 取り組んだ課題 • Self-joinを⽤いる際にSensitivityをどう扱えばよいか︖ • Truncationに基づく⼿法では、閾値!の選択に依存したバイアスが⽣じる • àどのようにしてバイアスの⼩さい ! を選択すればよいか︖ • 貢献 • Self-joinを⽤いる際のSensitivityの上限値!を準最適に導出するアルゴリズム Race-to-the-Top (R2T) を提案 • 制限 • Group-byクエリには未対応 (Future workとして⾔及されている) 59

Slide 60

Slide 60 text

おわりに 60

Slide 61

Slide 61 text

おわりに • SIGMOD 2022の参加報告として以下を報告しました • SIGMOD2022の概要 • 投稿件数や採択率、査読プロセスなど • パネル討論2件、キーノート1件を • LINEの採択論⽂「Network Shuffling」 • Best Paper Award受賞論⽂「R2T」 • VLDB 2022 (9/5~9, @Sydney) で以下の論⽂を発表予定 • HDPView: Differentially Private Materialized View for Exploring High Dimensional Relational Data F. Kato, T. Takahashi, S. Takagi, Y. Cao, S.P. Liew, M. Yoshikawa 61

Slide 62

Slide 62 text

62 投稿スケジュール SIGMOD 2023 • 1st Round: 4/15 • 2nd Round: 7/15 • 3rd Round: 10/15 PODS 2023 • 1st Round: 5/30 • 2nd Round: 11/28 https://2023.sigmod.org/