2 で評価 • LLM-jp の日本語 LLM 出力の安全性・適切性に特化した人手で作られ たインストラクションデータセット • 結果は? • 全 762 件のうち 225 件が Unsafe、残りが Safe と判定(誤判定が多い) • Do Anything Now(通称 DAN プロンプト)を日本語化し、ChatGPT に試 していた頃の実感値と一致(2022 年 12 月頃) • 当時は今のようなイエロマークも表示されず、攻撃し放題でした... • 英語圏の Safeguard Model の数値上の防御性能を鵜呑みにしてはならない Safeguard model は多言語性能を持ち合わせるか?