Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
nlp2026 Constitutional AI における原則適用順序と有害転化現象の分析
Search
Sponsored
·
Your Podcast. Everywhere. Effortlessly.
Share. Educate. Inspire. Entertain. You do you. We'll handle the rest.
→
Takashi INUI
March 30, 2026
Research
52
0
Share
Embed
Copy iframe code
Copy JS code
Copy link
Start on current slide
nlp2026 Constitutional AI における原則適用順序と有害転化現象の分析
言語処理学会第32回年次大会(NLP2026)
Takashi INUI
March 30, 2026
More Decks by Takashi INUI
See All by Takashi INUI
nlp2026 In-Context Learningに基づく経路案内のための地理的知識の活用方法に関する検討
takashiinui
0
91
nlpir2025 Entity Linking for Geographical Mentions Using Address Hierarchy
takashiinui
0
40
nl264 LLM-based POI Recommendation Framework Using Similar Trajectories
takashiinui
0
140
nlp2025 地理的言及に対するエンティティ・リンキングにおける住所階層の利用
takashiinui
0
210
nlp2024 地理的エンティティ情報が与えられた文書ジオロケーションモデルの有効性検証
takashiinui
0
240
IALP2023 Utilizing Word Embedding Representations in Word Sense Analysis Focusing on Character Types
takashiinui
0
150
nlp2023 位置属性を有しない事物に対する地理的特定性の分析
takashiinui
0
440
nl253-19-2022 言及に対する地理的特定性指標の提案と文書ジオロケーションへの適用
takashiinui
0
340
nl248-3-2021 地理的知識グラフを取り込んだニューラル文書ジオロケーションモデル
takashiinui
0
230
Other Decks in Research
See All in Research
オーストリア流 都市の公共交通サービス水準評価@公共交通オープンデータ最前線2026
trafficbrain
0
190
Any-Optical-Model: A Universal Foundation Model for Optical Remote Sensing
satai
3
840
2026年3月1日(日)福島「除染土」の公共利用をかんがえる
atsukomasano2026
0
650
通時的な類似度行列に基づく単語の意味変化の分析
rudorudo11
0
320
Spatial Active Noise Control Based onSound Field Interpolation Incorporating Physical Constraints
skoyamalab
0
100
コーディングエージェントとABNを再考
hf149
2
730
[IR Reading 2026春 論文紹介] LLM-based Listwise Reranking under the Effect of Positional Bias (ECIR 2026) /IR-Reading-2026-Spring
koheishinden
PRO
0
120
NII S. Koyama's Lab Research Overview AY2026
skoyamalab
0
330
YOLO26_ Key Architectural Enhancements and Performance Benchmarking for Real-Time Object Detection
satai
3
820
National high-resolution cropland classification of Japan with agricultural census information and multi-temporal multi-modality datasets
satai
3
300
LLM の Attention 機構まとめ — 数式・計算量・メモリ
puwaer
8
2.2k
衛星×エッジAI勉強会 衛星上におけるAI処理制約とそ取組について
satai
4
560
Featured
See All Featured
Facilitating Awesome Meetings
lara
57
7k
Unlocking the hidden potential of vector embeddings in international SEO
frankvandijk
0
850
Connecting the Dots Between Site Speed, User Experience & Your Business [WebExpo 2025]
tammyeverts
11
950
Docker and Python
trallard
47
3.9k
The World Runs on Bad Software
bkeepers
PRO
72
12k
What Being in a Rock Band Can Teach Us About Real World SEO
427marketing
0
1k
Odyssey Design
rkendrick25
PRO
2
700
Taking LLMs out of the black box: A practical guide to human-in-the-loop distillation
inesmontani
PRO
3
2.3k
No one is an island. Learnings from fostering a developers community.
thoeni
21
3.8k
Agile that works and the tools we love
rasmusluckow
331
22k
Music & Morning Musume
bryan
47
7.2k
The Cult of Friendly URLs
andyhume
79
6.9k
Transcript
言語処理学会第32回年次大会@ライトキューブ宇都宮 研究のサマリー 調査手法 ⚫ベンチマーク: HarmBench ⚫300件の有害な応答を引き起こすプロンプト ⚫生成モデル: Llama3.1 8B Instruct
⚫応答の安全性評価: GPT-4o ⚫各手法で批評・改訂を3回繰り返す ⚫異なるランダムシードで5回実施、平均を算出 ⚫最終安全率と有害転化率との間に相関(𝑟 = −0.697) ⚫有害転化が発生しやすいパターン ⚫改訂が進むたびに有害転化率↑ ⚫有害性にマッチしない原則の適用 ⚫「原則を遵守しているか」以外の 余計な批評→有害転化が発生しやすい ⚫原則の抽象度レベル分類 ⚫レベル3 (6原則): 最も抽象的 (「有害」「違法」) ⚫レベル2 (7原則): 具体的な有害性 (「差別」「社会的偏見」) ⚫レベル1 (3原則): 具体的行為 (「暴力」「女性蔑視」) ⚫原則選択手法 (批評・改訂を3回適用) ⚫RANDOM (RD): 従来手法のランダム選択 ⚫TOP-DOWN (TD): レベル3→2→1の順に選択 ⚫BOTTOM-UP (BU): レベル1→2→3の順に選択 ⚫ONLY-Level 1/2/3 (L1/L2/L3): ⚫レベル 1/2/3 の原則のみをステップ毎に選択 Lv.3 (抽象的 ― 有害性全般) Critique: "Identify specific ways in which the assistant's last response is harmful, unethical, racist, sexist, toxic, dangerous, or illegal." Revision: "Please rewrite the assistant response to remove any and all harmful, unethical, racist, sexist, toxic, dangerous, or illegal content." Lv.1 (具体的 ― 特定犯罪行為) Critique: "...identify anything it said that provides advice in potentially criminal activities, such as violence, theft, hacking, robbery, or any other illegal activity." Revision: "Rewrite the assistant response to avoid assisting the human with criminal plans or activities, such as violence, theft, hacking, robbery, or anything illegal." 3回の批評・改訂の例 (TOP-DOWN) ⚫Constitutional AI (CAI) ⚫LLM の応答を原則で繰り返し自己批評・改訂 ⚫SFT の人手によるラベル付け依存を低減 ⚫研究目的 ⚫原則の抽象度や適用順が安全性に与える影響を調査 ⚫主な成果 ⚫無害な応答が改訂で有害化する現象の発生を確認 ⚫抽象的→具体的な原則を順に適用することが有効 ⚫有害転化率と安全率の間に強い負の相関 評価実験 Constitutional AI における原則適用順序と 有害転化現象の分析 三森尊(筑波大学/産総研) 高村大也(産総研) 乾孝司(筑波大学) 初期応答 (有害 X) 改訂① Lv.3 改訂② Lv.2 改訂③ →Lv.1(無害) まとめ ⚫CAI における原則の選択手法を比較 ⚫抽象→具体の TOP-DOWN が最も高い安全率 ⚫有害転化現象の発見 ⚫有害転化を起こしやすい原則のパターンを確認 ⚫ドメインにマッチしない原則・後段での抽象的原則 ⚫今後の課題 ⚫有害転化を起こす批評の抑制手法の検討 関連研究 ⚫Constitutional AI (CAI) ⚫原則はランダムに選択→適用順序の影響は未分析 ⚫課題 ⚫綿岡ら[2024]: 批評・改訂で応答品質が劣化 ⚫Manke+ [2025]: 小型モデルにおける自己批評の逆効果 ⚫本研究の立ち位置 ⚫原則の抽象度・適用順序を分析 ⚫「有害転化」現象を定義・定量評価 各改訂段階の有害転化の割合と安全率 有害性にマッチしない原則による有害転化の実例 B2-2