画像処理の研究 (2/2) ECCV (10/23~27)にも参加しています。 Fine-grained fashion representation learning by online deep clustering GLASS: Global to local attention for scene-text spotting
自然言語処理の研究 (1/2) 2022年は、モデルを実用する時に問題になる秘匿性や公平性に関す る研究がみられる。 Canary extraction in natural language understanding models 【ACL2022】Amazon Alexa AI 自然言語理解のモデルから学習データ内の機微なコード(電話番号や郵便番号)の抽 出を試み、最良な設定では50%の確率で数値4桁が抽出できることを確認。 On the intrinsic and extrinsic fairness evaluation metrics for contextualized language representations 【ACL2022】Amazon Alexa AI 公平性を計測する場合、ベースの言語モデルと後続タスクを含めた公平性とで2種 がある。言語モデルの公平性は後続タスクへ必ずしも引き継がれないことを示した。
(2/2) 15 IR evaluation and learning in the presence of forbidden documents 【SIGIR2022】Amazon 商品レビューの検索で、広告レビューや嘘情報を適切に フィルタリングした上で結果を表示できているか評価する ための指標nDCGfの提案。nDCGでは関係ない記事をマイナ スで評価するため値が0~1の範囲に入らず学習が安定しな い点を、最良/最悪サブセットのスコアで正規化している。 I wish I would have loved this one, but I didn’t: A multilingual dataset for counterfactual detection in product reviews 【EMNLP2021】Amazon もし〜だったら、という半事実を含む商品レビューのデー タセット。英語、ドイツ語、日本語が対象。割合は1~2% 程度だが事実に基づかないレビューのためユーザー体験が 悪くなる。半事実を含む文の構文からデータを収集し、半 事実ではないが似ている文をBERTの類似度で収集している。
機械学習全般の研究 (1/3) 研究は本当に様々!個人的な関心から、強化学習と因果推論系を ピックアップ。 Faster deep reinforcement learning with slower online network 【NeurIPS 2022】Amazon Web Service DQNではネットワークを更新する際に重みを固定したTarget Networkを使用する。 更新中の重みがTarget Networkの近傍に留まるようにすることで、学習の安定性 を向上させたDQN-Pro、Rainbow-Proを提案。シンプルな改善で大幅な性能向上。 Causal structure-based root cause analysis of outliers 【ICML2022】Amazon Research Tubingen システム障害といった外れ値となるイベントにおいて、何が根本的なトリガだった かをデータと因果グラフから特定する研究。3つの川のうち、どれが下流での氾濫 を引き起こしたか現実のイギリスのケースに適用して分析している。
機械学習実装の研究 (1/3) 機械学習の効率的な演算方法や実践的なノウハウなどを発表。 DietCode: Automatic optimization for dynamic tensor program 【MLSys 2022】Amazon Web Service 系列を扱うモデルなど、演算グラフが動的に形成されるネットワークであっても ハードウェア上で効率に演算するための研究。演算子ごとではなく汎用的な探索空 間を使用することで動的なグラフでも効率的に計算できるようにした。 Profiling deep learning workloads at scale using Amazon SageMaker 【KDD2022】 Amazon Web Service 機械学習モデルの学習パフォーマンスをプロファイリングする研究。大規模モデル になるにつれ、CPU/GPUが効率的に使えているかどうかが実験サイクルを上げる のに重要になる。実装の改善につながるようコードとメトリクスを対応させて可視 化している。実装をオープンソースで提供。
Configuration Data Collection Data Verification Machine Resource Management Serving Infrastructure ML Code Analysis Tool Process Management Tools Feature Extraction Monitoring “Only a small fraction of real-world ML systems is composed of the ML code” source: Hidden Technical Debt in Machine Learning Systems [D. Sculley, & al.] – 2015 https://papers.nips.cc/paper/5656-hidden-technical-debt-in-machine-learning-systems.pdf Ground Truth Glue Clarify Data Wrangler Feature Store Processing Job Studio Auto Pilot JumpStart Debugger Model Monitor Endpoint Pipeline MWAA Edge Quick Sight Experiments Auto Scaling Training Job 機械学習実装の研究 (2/3) 機械学習の技術的負債を軽減するSageMakerの機能を学会で発表しています。
Configuration Data Collection Data Verification Machine Resource Management Serving Infrastructure ML Code Analysis Tool Process Management Tools Feature Extraction Monitoring “Only a small fraction of real-world ML systems is composed of the ML code” source: Hidden Technical Debt in Machine Learning Systems [D. Sculley, & al.] – 2015 https://papers.nips.cc/paper/5656-hidden-technical-debt-in-machine-learning-systems.pdf Ground Truth Glue Clarify Data Wrangler Feature Store Processing Job Studio Auto Pilot JumpStart Debugger Model Monitor Endpoint Pipeline MWAA Edge Quick Sight Experiments Auto Scaling Training Job Amazon SageMaker automatic model tuning: Scalable gradient-free optimization 【KDD 2021】 AWS モデルのチューニング自動化機能 Amazon SageMaker Clarify: Machine learning bias detection and explainability in the cloud 【KDD 2021】 AWS モデルのバイアス検知を行う機能。 機械学習実装の研究 (3/3)