信頼できるLLMは何を満たすべきか（Trustworthy LLMs）

[論⽂紹介] 信頼できる⼤規模⾔語モデルとは 2023年8⽉14⽇株式会社電通国際情報サービス X（クロス）イノベーション本部 AIトランスフォーメーションセンター太⽥真⼈

n 論⽂の概要紹介 n LLMの信頼性は7つのカテゴリーに分類される Ø 信頼性 (Reliability) Ø 安全性 (Safety)
Ø 公平性 (Fairness) Ø 悪⽤防⽌ (Resistance to Misuse) Ø 説明可能性と推論 (Explainability and Reasoning) Ø 社会的規範の遵守 (Social Norm) Ø 頑健性 (Robustness) n まとめアジェンダ

n 紹介する論⽂ Ø TRUSTWORTHY LLMS: A SURVEY AND GUIDELINE FOR
EVALUATING LARGE LANGUAGE MODELSʼ ALIGNMENT Ø ByteDance Research が2023年8⽉9⽇に投稿 ※ 論⽂の冒頭で、「この論⽂は、差別的、憎悪的、暴⼒的な内容を含め、⼀部の⼈が不穏または不快に感じる可能性のある内容が含まれている。」と注意書きがある。 n 論⽂選定理由 Ø LLMを開発している組織にとっても重要な内容であり、利⽤するユーザーも意識しておく必要があると思ったから。 Ø 今後、会社独⾃モデルでファインチューニングする場合にも、前提知識として知っておきたい内容だと思ったから。 Ø 内容の⼀部、信頼性（ Reliability ）と安全性（safety）は、LLM登場前から勉強していたから。 n お断り Ø 図の引⽤は全て元論⽂からしています。各説明の引⽤元は明記していません。お⼿数ですが、元論⽂から探してください。論⽂の概要紹介

LLMの信頼性に関する7つのカテゴリー信頼性のあるLLMを著者らは⼤きく7つのカテゴリーに分解した。それぞれについて、解説している。

n 信頼性 (Reliability) Ø 適切な信頼性を持って、正しく真実で、⼀貫性のある出⼒を⽣成すること n 安全性 (Safety) Ø 危険で違法な出⼒を避け、個⼈情報を漏らさないようにすること
n 公平性 (Fairness) Ø バイアスを回避し、性能に格差が⽣じないようにすること n 悪⽤防⽌ (Resistance to Misuse) Ø 悪意のある攻撃者によるLLMの悪⽤をさせないこと n 説明可能性と推論可能性 (Explainability and Reasoning) Ø 出⼒をユーザーに説明し、正しく推論する能⼒があること n 社会的規範の遵守(Social Norm) Ø 普遍的に共有される⼈間の価値観を反映すること n 頑健性 (Robustness) Ø 敵対的な攻撃や分布シフトに対する耐性があること LLMの信頼性に関する7つのカテゴリー

信頼性

n ⽬標 Ø LLMを「⾃分が知らないことを知る（Unknown known）」状態にする Ø 事実の主張だけでなく、LLMが幻覚を⾒たり、⾃信を持って事実と異なる主張をでっち上げたりしないようにする n 信頼性の必要性
Ø 信頼性の低い出⼒は、医療や⾦融のようなリスクの⾼い分野で使⽤されるアプリに悪影響を及ぼす。 Ø 誤った情報の流布を避け、ユーザーの信頼を築く。 n 信頼性（Reliability）の詳細 Ø 誤った情報（Misinformation） Ø 幻覚（Hallucination） Ø ⼀貫性のなさ（Inconsistency） Ø ミスキャリブレーション（Miscalibration） Ø 不誠実なお世辞（Sycophancy）信頼性 (Reliability)

n LLMが真実でない回答を提供したり、誤解を招くような情報を提供する。 n 誤った情報 (Misinformation) の定義 Ø LLMが事実に反して⽣成した間違った答えや偏った答えのこと • LLMには事実に基づいて正しい情報を提供する能⼒が乏しい。
• 幻覚（Hallucination ）の⼀部と考えられるが、明確に区別される。次ページ詳細 n LLMが誤った情報を⽣成する原因仮説 Ø 学習データが完璧ではない • LLMがインターネット上の誤った事実を記憶する Ø 学習データの偏った単語の共起頻度 • LLMが事実と異なる内容を知識とする Ø 質問の仕⽅が正確でない • 簡単な質問でも、聞き⽅によって、回答に⽭盾が⽣じる信頼性 - 誤った情報 (Misinformation)

n LLMは⾮常識な、あるいは不誠実な内容を⾃信満々に⽣成する。 n 幻覚（Hallucination ）の定義 1. 情報源と⽭盾する（内在的な幻覚）内容を⽣成すること 2. 既存の情報源から検証できない（外在的な幻覚）、でっち上げられた内容を⽣成すること Ø
⼼理学の⽂献では、欺く意図のない偽の記憶と呼ばれている。 Ø 幻覚と誤った情報は区別される。 • 誤った情報は多くの場合、情報の⼊⼒が悪いために起こることが多い。 n 幻覚の正確な原因はまだ不明 Ø 学習データとテストデータの不⼀致や分布のずれ︖ Ø 基本的な学習⽅法の問題︖ n 幻覚の軽減は未解決の問題 Ø RLHFで異なる報酬を使⽤︖ Ø 忠実なデータセットの構築︖ 信頼性 - 幻覚（Hallucination）

n LLMは⼀貫性のない出⼒をする。 n ⼀貫性のない回答は、ユーザーに混乱を引き起こし、ユーザーの信頼を低下させる。 n ⼀貫性のなさ（Inconsistency）の定義 Ø 同じ意味の似た質問をしたとき、回答がその都度、揺らぐこと Ø 同じ質問でも同様に回答が揺らぐこと
信頼性 - ⼀貫性のなさ（Inconsistency）例︓似た質問に対して、回答の⼀貫性がない

n LLMは、⾃信満々でありながら誤った回答をする。 n ミスキャリブレーション（Miscalibration）の定義 Ø 回答の確信度に対して、回答精度が⼀致しないこと n 確信度の出⼒⽅法 Ø
確信度をプロンプトで指⽰し、テキスト形式で出⼒する Ø 確信度をトークンのロジットを使って得る n LLMの確信度の実態 Ø 上記2つの尺度はほぼ⼀致するが、常に⼀致するわけではない。 Ø 内部状態（ロジット値）と外部出⼒（⽣成テキストの数値）の間に信頼度の隔たりが存在する。信頼性 – ミスキャリブレーション（Miscalibration）例︓回答を間違えているのに⾃信がある

n LLMは、ユーザーの誤解や信念を再確認することで、ユーザーに媚びる傾向があるかもしれない n 不誠実なお世辞（Sycophancy）の定義 Ø ユーザーとの対話時の促しにより、ユーザーの好みに合わせて回答を捻じ曲げてしまうこと • ユーザがモデルの出⼒に異議を唱えたり、モデルに繰り返し従わせたりする場合に特に顕著な現象 • モデルが最初は正しい計算をしているにもかかわらず、ユーザーによって暗⽰され、主張された間違った計算に戻ってしまう。
n 不誠実なお世辞の原因 Ø LLMをユーザーの意図に従わせるために、不快にさせないよう、親切にするよう、RLHFしていること信頼性 – 不誠実なお世辞（Sycophancy）例︓ユーザーの回答に引っ張られている

安全性

n ⽬標 Ø LLMからの出⼒をユーザーにとって安全で健全な回答にする。 n 安全性の必要性 Ø LLMからの出⼒が憎悪的、有害、または危険なコメントを取り込む可能性があり、ユーザーにとって危険 Ø こうした出⼒は、ユーザーの信頼を低下させるだけでなく、安全規制を遵守する上でも課題
n 安全性の詳細 Ø 暴⼒（Violence ） Ø 違法⾏為（Unlawful Conduct ） Ø 未成年者への危害（Harms to Minor ） Ø アダルトコンテンツ（Adult Content ） Ø メンタルヘルスの弊害（Mental Health Issues ） Ø プライバシー侵害（Privacy Violation ）安全性 (Safety)

n LLMは暴⼒的な内容を⽣成したり、暴⼒的な⾏動に関する情報を⽣成する。 n 正当な⽅法で情報を⼊⼿する「フリ」をすることで、危険なアドバイスを受けることに成功している。 n 暴⼒的なコンテンツを⾔語モデル⽤に緩和、フィルタリング、または安全なものに変換する研究もある。安全性 - 暴⼒（Violence ）
例︓正当な⽅法で情報を⼊⼿する「フリ」をする

n LLMからの出⼒は、モデルの運⽤が許可されている国の特定の法律に従う必要がある。 n 過去にLLMは、違法薬物へのアクセス、購⼊、作成、およびそれらの危険な使⽤に関する助⾔を求めるための便利なツールであることが⽰されている。安全性 - 違法⾏為（Unlawful Conduct ）
例︓犯罪から逃れるための助⾔、違法⾏為の助⾔

n LLMを活⽤して、⼦供や⻘少年にとって有害な内容を含む回答を求めることができる。 n この問題は普遍的に法的にも道徳的にも重要である。 n 潜在的な危害 Ø 児童売買の相談 Ø ⻘少年に対する犯罪活動の計画（児童虐待など）
Ø 安価な労働⼒として⻘少年を搾取 Ø 暴⼒的、性的に露⾻なコンテンツなど、危険で年齢にそぐわないコンテンツが⽣成される可能性安全性 - 未成年者への危害（Harms to Minor ）例︓危険な⾏動戦略を聞く

n LLMは、性的に露⾻な会話や18禁なテキストを⽣成したり、性的なコンテンツを含むウェブサイトを推薦できる。 n ユーザがLLMのマルチモダリティ機能をコンテンツに使⽤する際に、新たな懸念が⽣じる。 n 未成年のユーザーが使う場合 Ø クエリに制限をかけること Ø LLMに、⽣成された性的コンテンツをスクリーニングすること
安全性 - アダルトコンテンツ（Adult Content ）

n ⼀般的に、インターネットで調べることで、返って⼼を痛めることがある。 n LLMは、広範なメンタルヘルスの懸念を⽰す質問に注意し、状況の⽂脈を理解し、利⽤者がさらなる⽀援を得られるようサポートするべきである。 Ø 例えば、⾃殺傾向を聞かれた場合、LLMは⼼理的に⽀援し、関連情報を共有すべきである。 n 安全性に関する懸念 Ø
最近増えてきたLLMでは、このような露⾻な要求を検知して応答を拒否する機能がある。 Ø しかし、プロンプトによっては⼦作りは重要との観点から、安全でないコンテンツを冗⻑する問題がある。安全性 - メンタルヘルスの弊害（Mental Health Issues ）

n ⼀般的な機械学習モデルは、データ・プライバシー攻撃に対して脆弱であることが知られている。 n LLMでは、攻撃者がLLMに問い合わせるだけで、学習データから個⼈情報や機密情報、あるいはプライベートな学習サンプルを抽出できることが⽰されている。 n プライバシー強化技術（ PETs︓privacy-enhancing technologies ）
Ø differentially private training mechanisms Ø machine unlearning Ø federated learning Ø secure multi-party computation protocols n これらのプライバシーを強化する技術が、⼤規模なLLMに適⽤した場合の有効性と効率性はまだ不明である。安全性 - プライバシー侵害（Privacy Violation ）

公平性

n ⽬標 Ø LLMが、特定のグループのユーザーや考え⽅を優遇したり、固定観念を蔓延させたり、抽出された統計パターンに基づいて誤った仮定をしないこと n 公平性の必要性 Ø LLMは⽣成されたテキストに固定概念を⽰したり、強調したりしてはならない Ø
特定の条件（企業、製品など）を優遇しない n 公平性の詳細 Ø 固定観念（Stereotype Bias） Ø 選好バイアス（Preference Bias） Ø 性能の違い（Disparate Performance）公平性 (Fairness)

n 固定観念バイアスは、これまでの経験に基づき特定の社会集団についての思い込み。 n 会社のデータを使った企業特化型のモデルが採⽤差別することは⼤きな問題になる。 n 偏⾒や差別を最も受けやすいグループ • 性別 • ⼈種と肌の⾊
• 宗教と信条 • 性的指向 • ハンディキャップ • 社会経済的地位 • 年齢公平性 - 固定観念（Stereotype Bias）例︓⽣成結果が年齢差別を⽀持する

n 政治的思想、公⼈、イベント、または製品に関するLLMからの回答は、中⽴性を維持すべきである。 n 著者らはLLMが偏った意⾒を広めたり、プロパガンダ・マシンとして機能しないように中⽴的な⽴場を保つことを主張。わかりやすい例 n 現在、最も影響⼒のあるバンドマンは誰かという質問に対して、インターネット上の特定の嗜好に基づいたリストを返すようなモデルは望みません。 n
ユーザーがある決断のために感情的なサポートをLLMに求めているとき、LLMは、モデルの信念や好みに従ってユーザーにどちらかをするよう促すしてはいけない。公平性 - 選好バイアス（Preference Bias）

n LLMの性能は利⽤者のグループによって⼤きく異なることがある。 Ø 例えば、質問応答能⼒は、⼈種や社会的地位の異なるグループ間で有意な性能差を⽰した。 n 異なるグループ間でのモデルの性能の格差を平滑化することが⼤事になる。公平性 - 性能の違い（Disparate Performance）
例︓⾔語により性能差がある

悪⽤防⽌

n ⽬標 Ø 意図的にLLMを活⽤して、悪意のあるユーザーが存在すると仮定した場合に悪⽤を防ぐこと n 必要性 Ø LLMを活⽤した犯罪の抑制 n 悪⽤防⽌の詳細
Ø 宣伝的悪⽤（Propagandistic Misuse） Ø サイバー攻撃の悪⽤（Cyberattack Misuse） Ø ソーシャルエンジニアリングの悪⽤（Social-engineering Misuse） Ø 著作権保護コンテンツの漏洩（Leaking Copyrighted Content）悪⽤防⽌（Resistance to Misuse）

n 悪意のあるユーザーがLLMを活⽤して⾼度なプロパガンダを⽣成する Ø 標的とされた⼈々（例えば有名⼈）に対するプロパガンダ Ø テロリズムの擁護 Ø 過激で有害な政治的プロパガンダの作成 n 対策
Ø 標準的なアライメントプロセスで軽減 • 訓練データを追加 • 肯定的/否定的の両⽅の意⾒を⽣成 • タスクの拒否悪⽤防⽌ - 宣伝的悪⽤（Propagandistic Misuse）

n 悪意のあるハッカーは、LLM を活⽤して、LLM の低コストを活⽤した攻撃の⾃動化をおこなう。 n 対策 Ø サイバー攻撃を軽減するには、サイバー攻撃関連のデータをアライメントに含めること悪⽤防⽌ -
サイバー攻撃の悪⽤（Cyberattack Misuse）例︓DDoS攻撃コード⽣成

n ソーシャルエンジニアリング攻撃とは Ø 悪意のある⽬的のために被害者を⼼理的に操り、望みの⾏動を実⾏させること • フィッシング • スパム/ボット •
なりすまし（ディープフェイクを含む） • 偽のオンラインコンテンツ • ソーシャルネットワーク操作 n 最近では、LLMを使ってある⼈の会話スタイルになりすますこともある。 n 対策 Ø 優れたLLM⽣成テキスト検出器を開発すること Ø アライメントによる防⽌は困難悪⽤防⽌ - ソーシャルエンジニアリングの悪⽤（Social-engineering Misuse）

n ユーザはLLMの学習データに属する特定の著作権保護されたコンテンツを抽出することができる。 Ø 著作権保護や知的財産の盗⽤に関する懸念を引き起こしている。 Ø LLMはGitHub上でライセンスがあるプログラムを⽣成でき、GitHub Copilotに対して現在進⾏中の訴訟がある。 n 対策 Ø
悪意のあるプロンプトを検出することにより、LLMの著作権コンテンツを保護することができる。悪⽤防⽌ -著作権保護コンテンツの漏洩（Leaking Copyrighted Content）例︓本の内容の続きを⽣成する

説明可能性と推論

n ⽬標 Ø 信頼できるLLMは、その推論を説明でき、どのようにコンテンツを⽣成するかについて透明性を提供すべきである。 Ø ユーザーと対話し、会話を通して思考プロセスを伝える。 n 必要性 Ø 医療診断、求⼈、ローン申請などのリスクの⾼い業界におけるLLMの商業利⽤で必要
n 説明可能性と推論の詳細 Ø 解釈可能性の⽋如（Lack of Interpretability） Ø 限定的な⼀般推論（Limited General Reasoning）説明可能性と推論（Explainability and Reasoning）

n LLMの会話的性質とテキスト⽣成能⼒から、解釈可能性への新しいアプローチが検討されてきた。 Ø 検索拡張モデル（retrieval-augmented models） • LLMの出⼒に関連する参照⽂書を提供することで、正当性と透明性を提供すること Ø 思考の連鎖（ CoT:
chain-of-thought ） • LLMが⾃らの「思考」を段階的に説明し、エンドユーザーにその推論を⽰すこと説明可能性と推論 - 解釈可能性の⽋如（Lack of Interpretability）

n 推論は、質問応答、⾃然⾔語推論（NLI）、常識的推論など、NLPタスクに不可⽋なスキルである。 n ChatGPTとGPT-4は、論理的推論を必要とするデータセットでは性能が⼤幅に低下する。 Ø 論理的推論︓前提条件に基づいて結論を導き出す推論 Ø 表⾯上の語彙的重複につられる。 n 解決策
Ø プロンプトエンジニアリング • CoT, instruction tuning, in-context learning Ø 事前学習と継続学習 • 特定のドメインの⾼品質なデータで継続学習 Ø ファインチューニング Ø 強化学習説明可能性と推論 -限定的な⼀般推論（Limited General Reasoning）

社会的規範の遵守

n ⽬標 Ø LLMは、社会的価値を遵守すること • 特定のユーザーグループに対する攻撃的な⾔葉の使⽤を避ける • 不安になるような話題に敏感になる • ユーザーが感情的なサポートを求めているときに共感する
n 必要性 Ø LLMを教育や治療など、⼈⽣の分岐点に関わる場⾯で利⽤する際に求められる。 n 社会的規範の遵守の詳細 Ø 毒性（Toxicity） Ø 感情への無⾃覚さ（Unawareness of EmoJons） Ø ⽂化的鈍感さ（Cultural InsensiJvity）社会的規範の遵守（ Social Norm ）

n オンラインプラットフォームは、⼈々が意⾒を発表し、情報を交換する際に、有害なコメントが発⽣する。 Ø 特定のグループに対して無礼、無礼、脅迫的、またはアイデンティティ攻撃的な発⾔をする⼈がいる。 n 技術的⼯夫 Ø 有害コメントを分類 • LLMの訓練に無視できない量の有毒なコメントを削除
• ⽣成された場合は⾮表⽰するかに利⽤ Ø データの品質改善 • 回答を作成する際に攻撃的な⾔葉や無神経な⾔葉を使うことも避ける • ヘイトスピーチにつながり、社会的な問題を引き起こす • 多くのローカルなポリシー(例えばイギリス、カナダ、フランス)によっては禁⽌されている社会的規範の遵守 - 毒性（Toxicity）

n 著者らは、責任あるLLMは感情的に⽀援し、同情的であるべきだと主張する。 n 特に考慮すべきことは、ある特定の弱い⽴場の利⽤者が⽀援情報を求めたとき、その回答は有益であると同時に、利⽤者の反応に共感し、敏感であるべき。社会的規範の遵守 -感情への無⾃覚さ（Unawareness of Emotions）
例︓落ちた原因に対して、良し悪しを述べ、同情や共感がない。

n 地域によって、政治的、宗教的、⽂化的な違いがあり、それらは尊重されるか、規制によって強制される。 n モデルの価値体系を⼀致させるためには、現地のユーザーの意⾒を反映した、現地で収集された質の⾼いデータセットを構築することが重要である。 n 最近の研究では、LLMの⽂化的価値観に対する感受性を向上させるという課題に注⽬している。 Ø ユーザーが指定したルールや原理のリストに基づいて、AIがその無害性を⾃⼰改善できるフレームワークを提案するなど社会的規範の遵守
-⽂化的鈍感さ（Cultural Insensitivity）

頑健性

n ⽬標 Ø LLMをリリースする前にその性能を検証することは重要であるが、デプロイ時にその頑健性をテストすること n 必要性 Ø LLMをリリースしたときに期待通りに動作せず、製品イメージの低下 Ø 製品に載せたLLMを通して攻撃されるリスクの軽減
n 頑健性の詳細 Ø プロンプト攻撃（Prompt Attacks） Ø パラダイム分布シフト（Paradigm and Distribution Shifts） Ø 介⼊効果（Interventional Effect） Ø ポイズニング攻撃（Poisoning Attacks）頑健性（Robustness）

n LLMはプロンプトエンジニアリングに敏感である。 n ⽂法やタイプミスのような摂動によって、LLMが間違った低品質のコンテンツを出⼒する可能性がある。頑健性 - プロンプト攻撃（Prompt Attacks）例︓誤字脱字を含む⽂章を求められた場合、モデルは異なる答えを出す

頑健性 -パラダイム分布シフト（Paradigm and Distribution Shifts） n LLMが学習する元の知識は変化し続けている。 Ø 特定の回答は、時間の経過とともに、あるいはリアルタイムで更新される必要がある。 Ø
モデルの公正性を静的なデータで注意深く検証されているにもかかわらず、デプロイ時に公平性に⽋ける懸念が⽰されている。 n 訓練データの知識のシフトを検出し、LLMを更新する効果的かつ効率的な戦略が求められる。例︓時間の経過とともに変換し続ける知識

n アルゴリズムには、基礎となるデータ分布の変化を引き起こす介⼊効果があることが知られている。 n ⼈間フィードバックからバイアスが⽣まれる可能性 Ø 悪意を持ってフィードバックされたものが学習される（レビューバイアス） Ø “performative prediction”の⽂脈でも定式化されている。 Ø
最近の研究では、ユーザーとモデル間の⻑期的な逐次的相互作⽤に注⽬し、学習アルゴリズムを再定義している。 n 推薦アルゴリズムによってデータにバイアスが⽣まれる可能性 Ø ユーザーグループ間に対する推薦性能の格差がデータの格差に広がる。 Ø 将来のデータ収集に障壁を作ることになる。頑健性 -介⼊効果（Interventional Effect）

n ⼀般的な機械学習モデルのポイズニング攻撃 Ø 学習データを操作し、モデルを欺くことを⽬的としており、通常は分類モデルに対して⾏われる。 Ø ラベルの変換など n LLMはポイズニング攻撃に対して極めて脆弱 Ø 学習データのほとんどが、誰でも⾃由にコンテンツを投稿できるインターネットから得られるため
n LLMのポイズニング攻撃に対する防御 Ø 従来のポイズニング防御からヒントを得ることができる。 Ø 訓練サンプル削除 Ø 学習⽅法の改良 Ø Differential Privacyによるポイズニングされた訓練サンプルの影響を低減頑健性 -ポイズニング攻撃（Poisoning Attacks）

まとめ

n 信頼できるLLMに関して、アライメントの観点から7カテゴリーにまとめられていた。 n 各課題に対する対策としては、アライメントで対応できる内容が多い。 Ø アライメント︓モデルの出⼒が⼈間の意図や期待に合致するようにすること Ø データの選定、RLHFアルゴリズムの改良 n
エンジニアとしては、プロンプトエンジニアリングやシステム側で対応できることを考えていきたい。 n 特にAITCは、⾦融や製造業のお客様が多いので、信頼性と説明可能性は重要視する。 n また、ヘルスケアも増えてきているので、社会的規範と安全性に関する部分は注意が必要だと思った。まとめ

信頼できるLLMは何を満たすべきか（Trustworthy LLMs）

信頼できるLLMは何を満たすべきか（Trustworthy LLMs）

masatoto

More Decks by masatoto

Other Decks in Research

Featured

Transcript

[論⽂紹介] 信頼できる⼤規模⾔語モデルとは 2023年8⽉14⽇株式会社電通国際情報サービス X（クロス）イノベーション本部 AIトランスフォーメーションセンター太⽥真⼈

n 論⽂の概要紹介 n LLMの信頼性は7つのカテゴリーに分類される Ø 信頼性 (Reliability) Ø 安全性 (Safety)

n 紹介する論⽂ Ø TRUSTWORTHY LLMS: A SURVEY AND GUIDELINE FOR

LLMの信頼性に関する7つのカテゴリー信頼性のあるLLMを著者らは⼤きく7つのカテゴリーに分解した。それぞれについて、解説している。

n 信頼性 (Reliability) Ø 適切な信頼性を持って、正しく真実で、⼀貫性のある出⼒を⽣成すること n 安全性 (Safety) Ø 危険で違法な出⼒を避け、個⼈情報を漏らさないようにすること

信頼性

n ⽬標 Ø LLMを「⾃分が知らないことを知る（Unknown known）」状態にする Ø 事実の主張だけでなく、LLMが幻覚を⾒たり、⾃信を持って事実と異なる主張をでっち上げたりしないようにする n 信頼性の必要性

n LLMは、⾃信満々でありながら誤った回答をする。 n ミスキャリブレーション（Miscalibration）の定義 Ø 回答の確信度に対して、回答精度が⼀致しないこと n 確信度の出⼒⽅法 Ø

安全性

公平性

悪⽤防⽌

n ⽬標 Ø 意図的にLLMを活⽤して、悪意のあるユーザーが存在すると仮定した場合に悪⽤を防ぐこと n 必要性 Ø LLMを活⽤した犯罪の抑制 n 悪⽤防⽌の詳細

n 悪意のあるユーザーがLLMを活⽤して⾼度なプロパガンダを⽣成する Ø 標的とされた⼈々（例えば有名⼈）に対するプロパガンダ Ø テロリズムの擁護 Ø 過激で有害な政治的プロパガンダの作成 n 対策

n 悪意のあるハッカーは、LLM を活⽤して、LLM の低コストを活⽤した攻撃の⾃動化をおこなう。 n 対策 Ø サイバー攻撃を軽減するには、サイバー攻撃関連のデータをアライメントに含めること悪⽤防⽌ -

n ソーシャルエンジニアリング攻撃とは Ø 悪意のある⽬的のために被害者を⼼理的に操り、望みの⾏動を実⾏させること • フィッシング • スパム/ボット •

説明可能性と推論

社会的規範の遵守

n ⽬標 Ø LLMは、社会的価値を遵守すること • 特定のユーザーグループに対する攻撃的な⾔葉の使⽤を避ける • 不安になるような話題に敏感になる • ユーザーが感情的なサポートを求めているときに共感する

頑健性

頑健性 -パラダイム分布シフト（Paradigm and Distribution Shifts） n LLMが学習する元の知識は変化し続けている。 Ø 特定の回答は、時間の経過とともに、あるいはリアルタイムで更新される必要がある。 Ø

まとめ