[Paper Introduction]Large Language Models Are No Longer Shallow Parsers

1 Large Language Models Are No Longer Shallow Parsers Symbol
Emergence System Lab. Journal Clab Calendar １７ June 2025 Kenji Higuchi 1

Paper Information • タイトル • Large Language Models Are No
Longer Shallow Parsers • 著者 • Yuanhe Tian, Fei Xia, Yan Song • Publisher, years • Association for Computational Linguistics. 2024 • リンク • Large Language Models Are No Longer Shallow Parsers - ACL Anthology 2

Contents •背景 •LLMの構文解析能力の分析 •提案手法 • ステップ１ーチャンクの摘出 • ステップ２ーチャンクのフィルタリング • ステップ３ープロンプトの設計
•結果 3

背景 • 大規模言語モデル(LLM)は，自然言語処理の高レベルタスクで有効 • 翻訳，質問応答，対話生成など • 基礎的な言語能力についての評価は不十分 • 特に構文解析タスクに有効でない •
深い階層に対応できない • そもそも構文解析は必要？ ➢命令の理解や論理的説明に必要不可欠 ➢既存のLLMの性能を検証 • 対象：GPT-3.5, GPT-4, LLaMA-7B, LLaMA-65B ➢性能向上のための提案手法 4 人手より浅い階層に (GPT-4)

LLMの構文解析能力の分析 • LLMと既存手法を比較した表 • 各マーク • ＊：BERTなどをファインチューニング • †：5ショット設定の既存の手法[Bai 23]
• 無印：[Bai 23]を参考に著者が設定 • データセット • PTB：英語のニュース文 • CTB5：中国語の構文解析用データセット • Genia：医学・生物が文献．構文が複雑 • 能力の分析 • LLMの性能が大きく負けている • LLMの中ではGPT-４が高性能 • LLaMAは有効な構文木を作れていない 5 [Bai 23]Xuefeng Bai, Jialong Wu, Yulong Chen, Zhongqing Wang, and Yue Zhang. 2023. Constituency Parsing using LLMs. arXiv preprint arXiv:2310.19462.

LLMの構文解析能力の分析 • GPT-４の文の長さごとの解析木の深さを分析 • Gold Standard(人間)と提案手法(以後，紹介)との比較 • 平均的に木が浅くなっている • ある程度文の長さ以上は，木の深さが停滞してしまう
• 比較的短い文の精度は変わらない 6

提案手法ステップ１ーチャンクの摘出 • LLMは，複雑なタスクを分解することで性能が向上することがある ➢長い文を分割することで精度が向上するのでは？ • チャンクを摘出しその精度を検証 •
チャンク：意味のある構文単位(句) • 文中のすべてのチャンクを識別する ➢全文の解析と比較して優れた性能 ➢GPT-４はかなりの性能を持つ 7

提案手法ステップ２－チャンクのフィルタリング • チャンク情報を与えて全文の構文解析を行う ➢すべてのチャンク情報を使うと性能が低下 ➢使うチャンクを選別する必要がある • チャンクの長さ(x軸)ごとのF1スコアを比較 • 長さが大きくなればなるほど精度が下がる
➢ノイズの多い長いチャンクによって誤解析が生まれる ➢５語以上のチャンクを除去 8

提案手法ステップ３－プロンプトの設計 • チャンクの使いかた • チャンク情報の利用を強制させず、参照を促すにとどめる • [Yan 22]の研究を参考 •
Chain-of-Thought(CoT)を使用 • CoT：複雑なタスクをステップごとに思考させるプログラム設計手法 • 構文木を人間が構築するように逐次合成していく過程を模倣 9 [Yan 22]Yan Song. 2022. Chinese Couplet Generation with Syn tactic Information. In Proceedings of the 29th Inter national Conference on Computational Linguistics, pages 6436–6446, Gyeongju, Republic of Korea.

結果 • 提案手法による全文の構文解析結果 • 提案手法を使用することにより性能向上 • チャンクを自身で解析してから全文を解析することの有用性を示す • CoTを使用することで性能向上
• 人間を模倣した構築過程の有用性を示す • 浅い解析木を作りにくくなった • 文の深さが増えても解析できている ➢LLMでも深い解析ができる ➢ほかの言語タスク (意味解析など)にも応用可能 ➢ファインチューニングしたモデルには及ばない課題も 10 再掲(p6) 改善前の結果(再掲,p5) 提案手法の結果(再掲,p5)

[Paper Introduction]Large Language Models Are N...

[Paper Introduction]Large Language Models Are No Longer Shallow Parsers

Higuchi Kenji

More Decks by Higuchi Kenji

Featured

Transcript

1 Large Language Models Are No Longer Shallow Parsers Symbol

Paper Information • タイトル • Large Language Models Are No

Contents •背景 •LLMの構文解析能力の分析 •提案手法 • ステップ１ーチャンクの摘出 • ステップ２ーチャンクのフィルタリング • ステップ３ープロンプトの設計

背景 • 大規模言語モデル(LLM)は，自然言語処理の高レベルタスクで有効 • 翻訳，質問応答，対話生成など • 基礎的な言語能力についての評価は不十分 • 特に構文解析タスクに有効でない •

LLMの構文解析能力の分析 • LLMと既存手法を比較した表 • 各マーク • ＊：BERTなどをファインチューニング • †：5ショット設定の既存の手法[Bai 23]

LLMの構文解析能力の分析 • GPT-４の文の長さごとの解析木の深さを分析 • Gold Standard(人間)と提案手法(以後，紹介)との比較 • 平均的に木が浅くなっている • ある程度文の長さ以上は，木の深さが停滞してしまう

提案手法ステップ１ーチャンクの摘出 • LLMは，複雑なタスクを分解することで性能が向上することがある ➢長い文を分割することで精度が向上するのでは？ • チャンクを摘出しその精度を検証 •

提案手法ステップ３－プロンプトの設計 • チャンクの使いかた • チャンク情報の利用を強制させず、参照を促すにとどめる • [Yan 22]の研究を参考 •

結果 • 提案手法による全文の構文解析結果 • 提案手法を使用することにより性能向上 • チャンクを自身で解析してから全文を解析することの有用性を示す • CoTを使用することで性能向上