Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
nlp2026 Constitutional AI における原則適用順序と有害転化現象の分析
Search
Sponsored
·
Your Podcast. Everywhere. Effortlessly.
Share. Educate. Inspire. Entertain. You do you. We'll handle the rest.
→
Takashi INUI
March 30, 2026
Research
52
0
Share
Embed
Copy iframe code
Copy JS code
Copy link
Start on current slide
nlp2026 Constitutional AI における原則適用順序と有害転化現象の分析
言語処理学会第32回年次大会(NLP2026)
Takashi INUI
March 30, 2026
More Decks by Takashi INUI
See All by Takashi INUI
nlp2026 In-Context Learningに基づく経路案内のための地理的知識の活用方法に関する検討
takashiinui
0
91
nlpir2025 Entity Linking for Geographical Mentions Using Address Hierarchy
takashiinui
0
40
nl264 LLM-based POI Recommendation Framework Using Similar Trajectories
takashiinui
0
140
nlp2025 地理的言及に対するエンティティ・リンキングにおける住所階層の利用
takashiinui
0
210
nlp2024 地理的エンティティ情報が与えられた文書ジオロケーションモデルの有効性検証
takashiinui
0
240
IALP2023 Utilizing Word Embedding Representations in Word Sense Analysis Focusing on Character Types
takashiinui
0
150
nlp2023 位置属性を有しない事物に対する地理的特定性の分析
takashiinui
0
440
nl253-19-2022 言及に対する地理的特定性指標の提案と文書ジオロケーションへの適用
takashiinui
0
340
nl248-3-2021 地理的知識グラフを取り込んだニューラル文書ジオロケーションモデル
takashiinui
0
230
Other Decks in Research
See All in Research
LLM Compute Infrastructure Overview
karakurist
2
1.5k
事後確率分布の共分散について
koide3
0
140
AI Agentの精度改善に見るML開発との共通点 / commonalities in accuracy improvements in agentic era
shimacos
6
1.7k
適応的スパムフィルタのための軽量な類似メッセージカウンタ / jsai2026-adaptive-spam-filter
monochromegane
0
3.8k
機械学習で作った ポケモン対戦bot で 遊ぼう!
fufufukakaka
0
310
2026-01-30-MandSL-textbook-jp-cos-lod
yegusa
1
1.4k
はじまりの クエスチョンブック —余暇と豊かさにあふれた社会とは?
culturaltransition
PRO
0
520
Unified Audio Source Separation (Defense Slides)
kohei_1979
1
620
「車1割削減、渋滞半減、公共交通2倍」を 熊本から岡山へ@RACDA設立30周年記念都市交通フォーラム2026
trafficbrain
1
1.2k
第12回人と環境にやさしい交通をめざす全国大会/熊本都市圏「車1割削減、渋滞半減、公共交通2倍」をめざして
trafficbrain
0
120
業界横断 副業コンプライアンス調査 三者(副業者・本業先・発注者)におけるトラブル認知ギャップの構造分析
fkske
0
1.3k
CyberAgent AI Lab研修 / Social Implementation Anti-Patterns in AI Lab
chck
7
4.7k
Featured
See All Featured
Color Theory Basics | Prateek | Gurzu
gurzu
0
370
Navigating Team Friction
lara
192
16k
What the history of the web can teach us about the future of AI
inesmontani
PRO
1
620
Prompt Engineering for Job Search
mfonobong
0
350
A designer walks into a library…
pauljervisheath
211
24k
Winning Ecommerce Organic Search in an AI Era - #searchnstuff2025
aleyda
1
2.1k
How Fast Is Fast Enough? [PerfNow 2025]
tammyeverts
3
610
Conquering PDFs: document understanding beyond plain text
inesmontani
PRO
4
2.8k
The Pragmatic Product Professional
lauravandoore
37
7.3k
Claude Code のすすめ
schroneko
67
230k
AI in Enterprises - Java and Open Source to the Rescue
ivargrimstad
0
1.3k
Easily Structure & Communicate Ideas using Wireframe
afnizarnur
194
17k
Transcript
言語処理学会第32回年次大会@ライトキューブ宇都宮 研究のサマリー 調査手法 ⚫ベンチマーク: HarmBench ⚫300件の有害な応答を引き起こすプロンプト ⚫生成モデル: Llama3.1 8B Instruct
⚫応答の安全性評価: GPT-4o ⚫各手法で批評・改訂を3回繰り返す ⚫異なるランダムシードで5回実施、平均を算出 ⚫最終安全率と有害転化率との間に相関(𝑟 = −0.697) ⚫有害転化が発生しやすいパターン ⚫改訂が進むたびに有害転化率↑ ⚫有害性にマッチしない原則の適用 ⚫「原則を遵守しているか」以外の 余計な批評→有害転化が発生しやすい ⚫原則の抽象度レベル分類 ⚫レベル3 (6原則): 最も抽象的 (「有害」「違法」) ⚫レベル2 (7原則): 具体的な有害性 (「差別」「社会的偏見」) ⚫レベル1 (3原則): 具体的行為 (「暴力」「女性蔑視」) ⚫原則選択手法 (批評・改訂を3回適用) ⚫RANDOM (RD): 従来手法のランダム選択 ⚫TOP-DOWN (TD): レベル3→2→1の順に選択 ⚫BOTTOM-UP (BU): レベル1→2→3の順に選択 ⚫ONLY-Level 1/2/3 (L1/L2/L3): ⚫レベル 1/2/3 の原則のみをステップ毎に選択 Lv.3 (抽象的 ― 有害性全般) Critique: "Identify specific ways in which the assistant's last response is harmful, unethical, racist, sexist, toxic, dangerous, or illegal." Revision: "Please rewrite the assistant response to remove any and all harmful, unethical, racist, sexist, toxic, dangerous, or illegal content." Lv.1 (具体的 ― 特定犯罪行為) Critique: "...identify anything it said that provides advice in potentially criminal activities, such as violence, theft, hacking, robbery, or any other illegal activity." Revision: "Rewrite the assistant response to avoid assisting the human with criminal plans or activities, such as violence, theft, hacking, robbery, or anything illegal." 3回の批評・改訂の例 (TOP-DOWN) ⚫Constitutional AI (CAI) ⚫LLM の応答を原則で繰り返し自己批評・改訂 ⚫SFT の人手によるラベル付け依存を低減 ⚫研究目的 ⚫原則の抽象度や適用順が安全性に与える影響を調査 ⚫主な成果 ⚫無害な応答が改訂で有害化する現象の発生を確認 ⚫抽象的→具体的な原則を順に適用することが有効 ⚫有害転化率と安全率の間に強い負の相関 評価実験 Constitutional AI における原則適用順序と 有害転化現象の分析 三森尊(筑波大学/産総研) 高村大也(産総研) 乾孝司(筑波大学) 初期応答 (有害 X) 改訂① Lv.3 改訂② Lv.2 改訂③ →Lv.1(無害) まとめ ⚫CAI における原則の選択手法を比較 ⚫抽象→具体の TOP-DOWN が最も高い安全率 ⚫有害転化現象の発見 ⚫有害転化を起こしやすい原則のパターンを確認 ⚫ドメインにマッチしない原則・後段での抽象的原則 ⚫今後の課題 ⚫有害転化を起こす批評の抑制手法の検討 関連研究 ⚫Constitutional AI (CAI) ⚫原則はランダムに選択→適用順序の影響は未分析 ⚫課題 ⚫綿岡ら[2024]: 批評・改訂で応答品質が劣化 ⚫Manke+ [2025]: 小型モデルにおける自己批評の逆効果 ⚫本研究の立ち位置 ⚫原則の抽象度・適用順序を分析 ⚫「有害転化」現象を定義・定量評価 各改訂段階の有害転化の割合と安全率 有害性にマッチしない原則による有害転化の実例 B2-2