Upgrade to Pro — share decks privately, control downloads, hide ads and more …

The Death of Schema Linking? Text-to-SQL in the...

ty
October 23, 2024

The Death of Schema Linking? Text-to-SQL in the Age of Well-Reasoned Language Models

The Death of Schema Linking? Text-to-SQL in the Age of Well-Reasoned Language Models
https://arxiv.org/abs/2408.07702
[v2] Sun, 18 Aug 2024 19:06:04 UTC (1,116 KB)

LLMによるText-to-SQLに関する論文。
最先端のLLMにおける Schema Linking の有効性を調査。

ty

October 23, 2024
Tweet

More Decks by ty

Other Decks in Technology

Transcript

  1. 1 論文概要  論文タイトル – The Death of Schema Linking?

    Text-to-SQL in the Age of Well-Reasoned Language Models  著者 –  発表 – arxiv ⚫ https://arxiv.org/abs/2408.07702  概要 – Text-to-SQLにおける最先端のLLMを使用した場合のSchema linkingの有効性を再検討
  2. 2 Text-to-SQL  Text-to-SQLは自然言語からSQLクエリを生成するタスク  LLMの登場によりText-to-SQLは簡素化され、大幅に進歩した  LLMベースのText-to-SQLアプローチは通常下図のような多段階のpipelineに従う  Schema

    linkingとは関連するデータベーススキーマの要素を検索すること – データベーススキーマ: tables and columns  最新のLLMにおいてもSchema Linkingは必要なのか?
  3. 3 Research Questions  RQ1 – 無関係なSchema要素を含めるとSQL生成にどのような影響があるか?  RQ2 –

    Schema linkingにおけるprecisionとrecallのトレードオフはどのように特徴づけられるか、 また、SQL生成への下流への影響は何か?  RQ3 – Schema linking以外のText-to-SQLパイプライン内の他の技術やstageは、 SQL生成にどのような影響をあたえるか?
  4. 4 実験設定  Datasets – BIRD dataset [Li+ 2023] 

    Models [Li+ 2023] Jinyang Li, Binyuan Hui, Ge Qu, Jiaxi Yang, Binhua Li, Bowen Li, Bailin Wang, Bowen Qin, Rongyu Cao, Ruiying Geng, Nan Huo, Xuanhe Zhou, Chenhao Ma, Guoliang Li, Kevin C. C. Chang, Fei Huang, Reynold Cheng, and Yongbin Li. Can llm already serve as a database interface? a big bench for large-scale database grounded text-to-sqls. CoRR, abs/2305.03111, 2023.
  5. 6 実験1  Schema linkingにおける無関係なカラムの検索がSQL生成精度に与える影響を評価 – Idealized Execution Accuracy ⚫

    Recall100%のSchema linking下でのExecution Accuracy (クエリの実行結果の一致による精度) – False Positive Rate ⚫ Schema linkingにおける無関係なColumnの割合
  6. 11 実験2  4つのSchema linking手法を比較 – Single-column Schema Linking (SCSL)

    ⚫ 各列の関連性を他の列・テーブルの文脈を無視してモデルが判断する手法 ⚫ 関連する列か否かを示す真偽値で各列にフラグをつける ⚫ 関連する列を除外するリスクが低い慎重な手法 – Hybrid SCSL (HySCSL) ⚫ SCSLにキーワードマッチングを加えた手法 – Table-then-Column Schema Linking (TCSL) ⚫ 最初にモデルが関連するテーブルをフィルタリングし、その後テーブル内の列をフィルタリング – Hybrid TCSL (HyTCSL) ⚫ TCSLにキーワードマッチングを加えた手法  SCSLとHySCSLはGPT-4o-mini、TCSLとHyTCSLはGPT-4oを使用
  7. 14 実験2  性能の高いモデルは Schema Linkingによって Execution Accuracyが減少 – Gemini

    1.5 Pro, ft:GPT-4o, Llama-3.1-405b  性能の低いモデルは Schema Linkingによって Execution Accuracyが増加 – Llama-3.1-8b, Mixtral-8x22b, DeepseekCoder-V2 破線は実験1で得られたIEX
  8. 16 実験3  情報をフィルタリングする技術(Schema Linking)の代わりに情報を保持する技術に注目 – Augmentation ⚫ 文脈情報を追加する –

    列の説明を拡張し、クエリのヒントを追加する – CoTを使用して期待される順序や集約などの出力の構造的な期待を追加する – Correction ⚫ クエリを繰り返し修正 – 候補となるSQLクエリを生成した後、実行エラーに基づく再生成 [Wang+ 2018] – データベース管理者の指示に基づく修正 [Talaei+ 2024] – Reflexion[Shinn+ 2023]と同様のモデルベースのフィードバックによる修正 – Selection ⚫ Self-consistency [Wang+ 2023] を使用して複数の応答を生成し最も整合性の高い結果を選択 [Wang+ 2018] Chenglong Wang, Kedar Tatwawadi, Marc Brockschmidt, Po-Sen Huang, Yi Mao, Oleksandr Polozov, and Rishabh Singh. Robust text-to-sql generation with execution-guided decoding. CoRR, abs/1807.03100, 2018b. [Talaei+ 2024] Shayan Talaei, Mohammadreza Pourreza, Yu-Chen Chang, Azalia Mirhoseini, and Amin Saberi. Chess: Contextual harnessing for efficient sql synthesis. CoRR, abs/2405.16755, 2024. [Shinn+ 2023] Noah Shinn, Federico Cassano, Edward Berman, Ashwin Gopinath, Karthik Narasimhan, and Shunyu Yao. Reflexion: Language agents with verbal reinforcement learning. CoRR, abs/2303.11366, 2023. [Wang+ 2023] Xuezhi Wang, Jason Wei, Dale Schuurmans, Quoc Le, Ed Chi, Sharan Narang, Aakanksha Chowdhery, and Denny Zhou. Self-consistency improves chain of thought reasoning in language models. CoRR, abs/2203.11171, 2023
  9. 18 結論  Is it the death of schema linking

    ? – 最先端のモデルの場合、schemaがコンテキスト長に収まるのであれば、答えは Yes – 小規模なモデルや人世代前のモデルは schema linking によって精度が向上する