Save 37% off PRO during our Black Friday Sale! »

Introduction of Trustworthy AI team at LINE

Introduction of Trustworthy AI team at LINE

53850955f15249a1a9dc49df6113e400?s=128

LINE Developers
PRO

October 07, 2021
Tweet

Transcript

  1. AI Engineer / Researcher (AI Ethics) @AIカンパニー・Trustworthy AIチーム

  2. Trustworthy AIチームの紹介 2 Vision Mission ⼈との共創に資する信頼できるAIの実現 • テスト︓AI特有のリスクの探索・評価技術の開発 • 対

    策︓AIに対して信頼性を担保する技術の開発 2021/6/1に新規発⾜しました
  3. AIが備えるべき信頼性とは︖ 3 • Expert-level Quality OUR FOCUS • Robustness 敵対的な⼊⼒に有害な挙動を誘発されない

    • Fairness 公平性に配慮した判断や出⼒ができる • Privacy 訓練データの匿名性や推定困難さへの配慮 • Explainability 判断の根拠を提⽰できる 従来のAI/ML開発のフォーカス 「ひとにやさしいAI」の実現のために
  4. LINE/NAVERによる2020年からの7年間予測 4

  5. 開発事例︓⾔語モデルの有害表現対策 5 Self Diagnosis NG Word Creator Adversarial Trigger ⾔語モデルに有害表現を誘発させる

    Triggerを機械学習で探索する技術 Trigger ⾔語モデル⾃⾝に有害表現を連想させて 潜在的な有害表現を列挙する技術 ⾔語モデル⾃⾝を⽤いて⽂章の有害性を 定量評価する技術 外部モデル (GPT-2) で学習・探索したTriggerにより 対象の⾔語モデルが⽣成してしまった有害表現の⼀例 「⽭」のさらなる強化のために… • ステルス性の⾼い⾃然なTrigger探索法 • Promptから学習可能なBlack Box Attack • 評価⽤の⽇本語データセットの収集 といった研究開発を推進中
  6. 公表済み論⽂ • 国際会議採録論⽂ • [ICDE 2021] P3GM: Private high-dimensional data

    release via privacy preserving phased generative model • [DEXA 2021] Construction of Differentially Private Summaries Over Fully Homomorphic Encryption • [IUI 2021] Continuous and Gradual Style Changes of Graphic Designs with Generative Model • [BigData 2019] Indirect adversarial attacks via poisoning neighbors for graph convolutional networks • arXiv pre-print • FaceLeaks: Inference Attacks against Transfer Learning Models via Black-box Queries • PEARL: Data Synthesis via Private Embeddings and Adversarial Reconstruction Learning 6
  7. 取り組んでいきたいこと 7 • ⼤規模⾔語モデル向けのテストと対策の確⽴ • 特に、有害事象や公平性に関するテストと対策の確⽴ • 敵対的学習技術の進化 • 判断根拠を提⽰する仕組みの実現

    • 社内外とのAI倫理に関する議論、ガイドライン作り • 学会やテックカンファレンスでの成果報告 • メンバーのメンタルヘルスのケア など
  8. こんな⽅は是⾮︕ • AI事業を⽀える技術を開発したい • 超⼤規模⾔語モデルの発展を⽀えたい • 「AIを守ってあげたい」という⺟性や⽗性に溢れている • 「AIの倫理」に興味がある •

    AI特有の脆弱性を発⾒するとゾクゾクする 8