Upgrade to Pro — share decks privately, control downloads, hide ads and more …

JSAI2023レポート

Sponsored · Your Podcast. Everywhere. Effortlessly. Share. Educate. Inspire. Entertain. You do you. We'll handle the rest.

 JSAI2023レポート

Avatar for sadahry

sadahry

June 14, 2023
Tweet

More Decks by sadahry

Other Decks in Technology

Transcript

  1. Topics • 対話関連 ◦ [1E5-GS-6-06] 対話比較による話者同一性判定タスクの提案とベースラインモデルの検討 ◦ [3O1-OS-2c-02] 長期雑談対話システムの実現に向けた長期テキストチャットの収集と分析 ◦

    [2O6-OS-2b-01] 音声対話システムにおけるユーザの性格特性に基づいた破綻回復処理の実装 ◦ [1U5-IS-2b-02] Multilevel Sentence Embeddings for Personality Prediction • 敵対的学習(PAN、GAN) ◦ [2A4-GS-2-03] 正例とラベル無しデータによる異種ドメイン適応 ◦ [3U1-IS-3-01] Quantitative Evaluation of Multi-agent Simulation using Generative Adversarial Network -- An Alternative of Qualitative Evaluation for Artificial Market Simulation • 時系列解析 ◦ [2A5-GS-2-03] 波形類似度と合成波の原理に基づく多次元系列データ次元削減法の提案 • 強化学習 <- 勉強のため。知識はほぼない状態で視聴 ◦ [1B4-GS-2-05] 深層強化学習における類似経験による行動プランニング ◦ [2Q4-OS-27b-02] 深層強化学習における目的志向探索 ◦ [4E2-GS-2-02] 自然強化学習における動的な目的水準の調整
  2. ①どんなもの? テキストの話者らしさを評価する手法の提案。 話者に対する知識がなくとも同一話者判定ができる手法 。 ②先行研究と比べてどこがすごい ? • 評価者が任意の話者を知らなくても評価可能な指標である点 • 人によって評価精度のブレが小さい点

    ③技術や手法のキモはどこ ? 対話比較(話者SA.Target,SA.Partnerによる対話DAと話者 SB.Target,SB.Partner による対話DBが存在するときに,2つの対話 DA,DB を比較して,話者SA.TargetとSB.Targetが同一話者かを判定する *1)により アノテータが同一話者を判定する。 その際、話者判定のためのデータを以下の3種類に分割した。 • Same: 対象話者のみ同一の話者 ◦ SA,Target=SB,Target かつ SA,Partner≠SB,Partner • Diff: 対象話者・対話相手が全て異なる話者 ◦ SA,Target≠SB,Target≠SA,Partner≠SB,Partner • Odd: 対象話者は異なる話者だが,対話相手が同一の話者 ◦ SA,Target≠SB,Target かつ SA,Partner=SB,Partner [1E5-GS-6-06] 対話比較による話者同一性判定タスクの提案とベースラインモデルの検討 ④どうやって有効だと検証した ? 80名総当たり(3000対話ほど)のテキストチャット[Sugiyama 21]でAccuracyを 比較。 • 人手評価:エキスパート80%、クラウドワーカー73%(一致率 0.7) • 自動評価(BERT):75% ⑤議論はある? • Sameの精度が低い*2?と思った ◦ 話を合わせるため同じ人が違う趣味を答えるケースあり • BERTのSame,Diff,Oddは?と思った • 似せるために自動生成した文章との比較は?と思った *1 *2
  3. ①どんなもの? ユーザーと複数回対話することで満足度を上げるためのテキストデータ収集。 ②先行研究と比べてどこがすごい ? 演技をふくめた代替データ( MetaのMulti-Session Chat)は既に存在するが、 演技とリアルなデータとの違いを確かめる術がないため、リアルな長期間 チャットデータを収集 した。

    ③技術や手法のキモはどこ ? Slackで収集した。報酬を参加日数に応じたものにして途中離脱を可能にした (最大56日週5日以上)。 [3O1-OS-2c-02] 長期雑談対話システムの実現に向けた長期テキストチャットの収集と分析 ④どうやって有効だと検証した ? 収集したデータをNTTのペルソナチャット、初対面のチャットと比較。 内容としては口調の丁寧さ、対話内容の話しやすさ、対話行為(自己開示、共 感、質問など)を比較(データ量を考慮し、セッションの 2~5と長期チャットの2~5 日目を比較) 初対面会話において、ペルソナチャットが長期チャット、初対面チャットより「です ます口調」が少ないことがわかった。 加えて、作成したデータについて時系列変化を分析し、アンケートによって取得 した親密度が1~2週目に大きく変化することがわかった。(社会心理学で言われ る結果に近いとのこと) ⑤議論はある? • どう活用するのか? • 親密度の違いは何から生まれたのか? • セッションの2~5と長期チャットの2~5日目は同じ時間軸ではないので は?と思った(要調査)
  4. ①どんなもの? 対話システムにおいて、対話破綻をしたあと修復を行う手法の提案。 ②先行研究と比べてどこがすごい ? ユーザーの性格特性や破綻後のユーザー行為に応じた破綻修復行為を分析 し、その分析結果を基にシステムを実装した。 ③技術や手法のキモはどこ ? 分析と実装方法の検討 *1により「外向性または勤勉性の高い人は確認の修

    復文を生成する」という知見 が得られ、その有効性を検証した。 *1 分析と実装方法の検討 1. システム破綻14種類と破綻後のユーザー行為 7種をかけあわせそれ ぞれの修復文をクラウドワーカに作成してもらった 2. 修復文を対話行為に分類すると類似したユーザー行為には同様の 修復文が適用されたため、ユーザー行為を3種類に修復文を4種類 に類型化した 3. クラウドワーカに性格分析アンケートをして修復文が性格特性により どう異なるのか分類した結果「外向性または勤勉性の高い人が確認 の修復文を生成する」ことに有意差が出た 4. ユーザー行為が相槌だった場合に確認の修復文が候補となるため、 外向性または勤勉性の高い人には確認、それ以外には自己開示 (話 題継続)を実施するようシステムを実装した [2O6-OS-2b-01] 音声対話システムにおけるユーザの性格特性に基づいた破綻回復処理の実装 ④どうやって有効だと検証した ? ユーザー行為にあわせた修復文を対話システムに実装し、修復なし、謝罪の み、の対話システムと比較した。 その結果、流れの自然さ、不快さはないか、継続したいか、適切な応答か、のす べての項目で有意差がでた。 ⑤議論はある? • システム利用開始前の性格分析アンケートの実施は現実的か • ワンパターン返答となるリスク • 「外向性または勤勉性の高い人には確認」に有意差があるか検定でき てない?と思った
  5. ①どんなもの? 日本語と英語のツイート(ハッシュタグつき)から性格特性を予測するタスクの 学習方法の提案。 ②先行研究と比べてどこがすごい ? ラベルなし事前学習を実施した点。 ③技術や手法のキモはどこ ? MNLIデータセット(スタイル( telephone,

    government, slate, fiction, travel) と文の含意関係(含意、矛盾、中立)を判定するタスク)の学習方法を Big-Five の予測(特性(Agreebleness, Neuroticism, Conscientiousness, Extraversion, Openness)とその有無(有、中立、無)を判定するタスク)と同 等に捉えて学習した 点。 また、事前学習方法を設計してラベルなしデータで精度を出した点。ラベルな し大量データを学習するため、出力されたベクトル同士のコサイン類似度へ以 下1.~3.のルールを適用することで、擬似ラベルを動的に作成しながら AdaCosを損失関数として事前学習を進める *1。 1. 両文が同クラスで同じ極性を持つ場合、仮ラベルは 1 2. 両文が同クラスだが極性が反対の場合、仮ラベルは −1 3. 両文が異なる階層に属している、またはそれらの一方が中性極性で ある場合、仮ラベルは 0 (閾値は絶対値t=0.3がベストとのこと) [1U5-IS-2b-02] Multilevel Sentence Embeddings for Personality Prediction ④どうやって有効だと検証した ? SENTENSE BERTに各損失関数で学習したモデルで正解クラス( MNLI, Big Five)の正/負ラベルそれぞれの平均(?)との MAEを評価*2し、提案手法が最 も(MNLIタスクにおいても)高評価であることを示した .。 ⑤議論はある? • 事前学習クラスと正解クラスのマッピングは?と思った • SENTENSE BERT以外への適用は?と思った • マルチモーダルへの適用?と思った *2 *1
  6. ①どんなもの? 異なる種類のドメイン適用において、正例データのみとラベルなしデータを 使って学習する手法の提案。( e.g., がん検出の予測器を、がん患者かどうか もわからない患者データを持つ病院に適用) ②先行研究と比べてどこがすごい ? 予測したい正例と共通の特徴量さえあれば異なるドメインへの適用が可能で あり、負例が不要である点。

    ③技術や手法のキモはどこ ? PANを異なる特徴量を持つデータへ拡張した 点*1。 • 部品1 Feature Transformer: ◦ Uの固有特徴量をPの固有特徴量に置き換える(騙す)よう にPANで学習する • 部品2 Classifier: ◦ 変換した特徴量すべてで Pの出力にUが似る(騙す)ように PANで学習する • 部品3 Base Classifier: ◦ 共通特徴量を使って、 Pの出力にUが似る(騙す)ように PAN で学習する ◦ 知識蒸留のような役割とのこと [2A4-GS-2-03] 正例とラベル無しデータによる異種ドメイン適応 ④どうやって有効だと検証した ? Netflix(P)とMovielens(U)の映画ジャンル別レビューデータにおいて、共通 ジャンルと固有ジャンルを振り分けた状態でレビューの 2値分類(平均以上or以 下)評価を実施。共通の特徴量のみの PAN、蒸留方式、DSFT(共通特徴量か ら固有特徴量を予測するモデル)と PANの組み合わせと比較して、最高評価を 示した。 ⑤議論はある? • 共通特徴量の分布差の考慮 • 共通特徴量がない場合での検討 *1
  7. ①どんなもの? 株価変動等のシミュレーションデータの正当性をデータマイニングで補い、そ の正当性を定量的な指標で表す手法。 ②先行研究と比べてどこがすごい ? シミュレーションデータのデメリット克服を目指す • リアルではないアウトプット ◦ データマイニングでリアルに近いアウトプットへ

    • 判断基準が曖昧 ◦ データマイニングで定量的な判定モデルを ③技術や手法のキモはどこ ? GANを使ってシミュレーションデータを生成することで、その識別器をシミュ レーションデータ判定モデルとする 点。 加えて、その判定モデルが出力する「定量的」な判定スコア [-1, 1] と経済学 における定型化された「定性的な」経験的事実( = stylized fact)の関係性を示 した点。 当研究では4つのstylized fact(自己相関の欠如、ヘビーテイルプロパティ、集 約ガウス、ボラティリティクラスタリング)が検証された。 [3U1-IS-3-01] Quantitative Evaluation of Multi-agent Simulation using Generative Adversarial Network -- An Alternative of Qualitative Evaluation for Artificial Market Simulation ④どうやって有効だと検証した ? 判定モデルのスコアと stylized factの関係性から、判定モデルによる定量的な 指標として有用であることを示す。 1. 現実の株式市場取引のデータを使って GANを学習する*1 2. GANにより生成されるシミュレーションデータが stylized factに即してい るかを確認する 3. 誤ったシミュレーションデータを生成するためにデータ生成器のパラ メータをいじり、そこから生成されたデータの判定スコアが下がることと stylized factに則さなくなることを確認する *2 ⑤議論はある? • GANを頑張ってチューニングしないといけない • パラメータ欠損以外で作成されたシミュレーションデータの検証は?と 思った • ドメインシフトは?と思った *1 *2
  8. ①どんなもの? 膨大なセンサーデータの次元削減手法の提案。 ②先行研究と比べてどこがすごい ? 時系列センサーデータをクラスタリングして合成することにより、微細な特徴を 残したまま次元削減ができる点。 ③技術や手法のキモはどこ ? 合成波の原理を仮定し、元データを波形として合成してしまう 点*1。

    以下の手順で波形データを合成して次元削減する。 1. 元データの性質に合わせて波形データへ変換する 2. k-shapeというアルゴリズムで時系列データをクラスタリングし、クラ スタ内で1次元の主成分分析を行って各データの第一主成分を算出 する 3. 算出した値で重み付き調和平均をとって各データを合成する [2A5-GS-2-03] 波形類似度と合成波の原理に基づく多次元系列データ次元削減法の提案 ④どうやって有効だと検証した ? 筋電図のデータ(8箇所、10クラスの行為)から提案手法、 ICA、PCAそれぞれで 次元削減を行い、k-NNでのクラス分類のAccuracyを算出して比較。 提案手法が最も正解率が高いことが示された。 ⑤議論はある? • 光(画像データ)への応用 • フーリエ変換との比較 • 具体的にはどういう微細な特徴が残るのか?と思った • マルチモーダルな特徴にも適用できるのか?と思った • 計算速度は?と思った *1
  9. 用語: RS(目的志向探索) ref. [1B4-GS-2-04] 確率的方策に基づいた自然強化学習 人間の目的志向探索が強化学習に有効であると考え、目的志向探索の仕組みとその目的調整を強化学習に組み込むことで、作業者が目標値を設定したりドメイン 知識の注入ができるような機構を実現する仕組み *1が提案されている。 RSはその目的志向探索のアルゴリズム *2を指す。(Simon

    の限定合理性に基づく価値関数 でありSatisficing と振る舞いレベルで関連する(?)目的達成したら終了ではなくゆるい制約を持つゆえに主観 regretという形式を持つ(?)。ベルヌーイバンディット (?)では最適な目的調整が可能で トンプソンサンプリング(?)と互角、とのことです) ref. [2Q4-OS-27b-02] 深層強化学習における目的志向探索 ref. [2Q4-OS-27b-02] 深層強化学習における目的志向探索 *1 *2
  10. ①どんなもの? RSを深層強化学習に取り込んだ という話 (深層強化学習における目的調整はまだ発展途上) ②先行研究と比べてどこがすごい ? 深層学習要素を考慮して実装した点。 ③どうやって有効だと検証した ? オリジナルのトイタスク

    *1で検証。HandyRLというOSSで動作。 速やかに最適値へ収束すること *2が示された。 [2Q4-OS-27b-02] 深層強化学習における目的志向探索 (ざっくり概説) ④関連する発表 • [1B4-GS-2-04] 確率的方策に基づいた自然強化学習 • [3R5-GS-2-04] 広範なデータへ動的に対応する目的志向探索 • [4E2-GS-2-02] 自然強化学習における動的な目的水準の調整 *1 *2
  11. ①どんなもの? RSにおける目的水準の自動調整手法の提案。 ②先行研究と比べてどこがすごい ? RS(目的水準を超える選択肢がある時のみ探索する)が存在するが状態が 多いと適切な目標水準の設定が困難。 その対策としてGS(タスク全体の目的水準から各状態の目的水準を算出す る)が存在するが目的水準が固定される。 目的水準を学習的に動的に調整を行うことで両者の欠点をなくす。 ③技術や手法のキモはどこ

    ? 直近のエピソードの収益を使って目的水準を動的に変化させ、学習が進むに つれて収束するよう調整した *1点。 [4E2-GS-2-02] 自然強化学習における動的な目的水準の調整 ④どうやって有効だと検証した ? 提案手法(目的水準の初期値は 0)とRS-GRC(最適な目的水準を設定)と Q学 習で2タスクを実施して比較。 • SuboptinaWorld(複数のゴールマスに報酬が付与されたタスク) *2 ◦ 提案手法の学習は早く高得点に達したが、最適な目的水準を 与えられたRS-GRCより結果はすこし低くなった *4 • 迷路タスク(ゴールマスへ向かう途中、罠マスに触れると -1されるタス ク。最高は0点)*3 ◦ すべて最高点に到達できたが、提案手法の学習は長くなる傾 向*5 ⑤議論はある? • 最初の収益のばらつきが大きいと学習が不安定になる • 収益が負の場合のRSの信頼度が妥当ではないかも • ハイパーパラメータσの調整 *1 *2 *3 *4 *5
  12. ①どんなもの? 大脳皮質をDNNとしたときに、海馬を行動計画のシステムとして捉え、深層学 習に応用する手法。 ②先行研究と比べてどこがすごい ? ER-Qによる経路学習を含めた強化学習を深層学習で実施している点。 ③技術や手法のキモはどこ ? 深層学習を考慮して ER-Qを改良している点。

    e.g., • ER-Qにおける想起対象を低次元ネットワーク層で表現し、想起方法 を近傍検索で実現する *1 • 行動への反映を判断する仕組みを cos類似度に変更*2 [1B4-GS-2-05] 深層強化学習における類似経験による行動プランニング ④どうやって有効だと検証した ? Cliff Walkingタスク(上下左右移動で崖に落ちずにゴールへ向かうタスク)で学 習速度や精度をDQNと検証し、優れていることを示した。 ⑤議論はある? • 完全に同一な状態が存在しないタスクでの検証 • ER-Qにおける最適な閾値 γはどう決まる?と思った *1 *2