Introduction of Trustworthy AI team at LINE

AI Engineer / Researcher (AI Ethics) @AIカンパニー・Trustworthy AIチーム

Trustworthy AIチームの紹介 2 Vision Mission ⼈との共創に資する信頼できるAIの実現 • テスト︓AI特有のリスクの探索・評価技術の開発 • 対
策︓AIに対して信頼性を担保する技術の開発 2021/6/1に新規発⾜しました

AIが備えるべき信頼性とは︖ 3 • Expert-level Quality OUR FOCUS • Robustness 敵対的な⼊⼒に有害な挙動を誘発されない
• Fairness 公平性に配慮した判断や出⼒ができる • Privacy 訓練データの匿名性や推定困難さへの配慮 • Explainability 判断の根拠を提⽰できる従来のAI/ML開発のフォーカス「ひとにやさしいAI」の実現のために

LINE/NAVERによる2020年からの7年間予測 4

開発事例︓⾔語モデルの有害表現対策 5 Self Diagnosis NG Word Creator Adversarial Trigger ⾔語モデルに有害表現を誘発させる
Triggerを機械学習で探索する技術 Trigger ⾔語モデル⾃⾝に有害表現を連想させて潜在的な有害表現を列挙する技術⾔語モデル⾃⾝を⽤いて⽂章の有害性を定量評価する技術外部モデル (GPT-2) で学習・探索したTriggerにより対象の⾔語モデルが⽣成してしまった有害表現の⼀例「⽭」のさらなる強化のために… • ステルス性の⾼い⾃然なTrigger探索法 • Promptから学習可能なBlack Box Attack • 評価⽤の⽇本語データセットの収集といった研究開発を推進中

公表済み論⽂ • 国際会議採録論⽂ • [ICDE 2021] P3GM: Private high-dimensional data
release via privacy preserving phased generative model • [DEXA 2021] Construction of Differentially Private Summaries Over Fully Homomorphic Encryption • [IUI 2021] Continuous and Gradual Style Changes of Graphic Designs with Generative Model • [BigData 2019] Indirect adversarial attacks via poisoning neighbors for graph convolutional networks • arXiv pre-print • FaceLeaks: Inference Attacks against Transfer Learning Models via Black-box Queries • PEARL: Data Synthesis via Private Embeddings and Adversarial Reconstruction Learning 6

取り組んでいきたいこと 7 • ⼤規模⾔語モデル向けのテストと対策の確⽴ • 特に、有害事象や公平性に関するテストと対策の確⽴ • 敵対的学習技術の進化 • 判断根拠を提⽰する仕組みの実現
• 社内外とのAI倫理に関する議論、ガイドライン作り • 学会やテックカンファレンスでの成果報告 • メンバーのメンタルヘルスのケアなど

こんな⽅は是⾮︕ • AI事業を⽀える技術を開発したい • 超⼤規模⾔語モデルの発展を⽀えたい • 「AIを守ってあげたい」という⺟性や⽗性に溢れている • 「AIの倫理」に興味がある •
AI特有の脆弱性を発⾒するとゾクゾクする 8

Introduction of Trustworthy AI team at LINE

Introduction of Trustworthy AI team at LINE

LINE Developers

More Decks by LINE Developers

Other Decks in Technology

Featured

Transcript

AI Engineer / Researcher (AI Ethics) @AIカンパニー・Trustworthy AIチーム

Trustworthy AIチームの紹介 2 Vision Mission ⼈との共創に資する信頼できるAIの実現 • テスト︓AI特有のリスクの探索・評価技術の開発 • 対

AIが備えるべき信頼性とは︖ 3 • Expert-level Quality OUR FOCUS • Robustness 敵対的な⼊⼒に有害な挙動を誘発されない

LINE/NAVERによる2020年からの7年間予測 4

開発事例︓⾔語モデルの有害表現対策 5 Self Diagnosis NG Word Creator Adversarial Trigger ⾔語モデルに有害表現を誘発させる

公表済み論⽂ • 国際会議採録論⽂ • [ICDE 2021] P3GM: Private high-dimensional data

取り組んでいきたいこと 7 • ⼤規模⾔語モデル向けのテストと対策の確⽴ • 特に、有害事象や公平性に関するテストと対策の確⽴ • 敵対的学習技術の進化 • 判断根拠を提⽰する仕組みの実現

こんな⽅は是⾮︕ • AI事業を⽀える技術を開発したい • 超⼤規模⾔語モデルの発展を⽀えたい • 「AIを守ってあげたい」という⺟性や⽗性に溢れている • 「AIの倫理」に興味がある •