LL（１）構文解析の紹介

LL(1)構⽂解析の紹介 LL(1)構⽂解析の紹介株式会社オプト CTO室株式会社オプト CTO室⽔島宏太⽔島宏太

⾃⼰紹介⾃⼰紹介 Twitter ID: GitHub: 社内でもkmizu 趣味︓プログラミング⾔語|形式⾔語の⾃作 , etc. @kmizu
kmizu Onion Klassic Macro PEG

この発表についてこの発表について構⽂解析の基礎の説明 LL(1)構⽂解析の原理の説明詳しい部分は省略

お願いお願い発表の途中でも遠慮なく質問してください

そもそも構⽂解析とはそもそも構⽂解析とは⽂字列から⽊（構⽂⽊）への変換操作⽂字列から⽊（構⽂⽊）への変換操作

構⽂解析の例構⽂解析の例⽂字列︓"1 + 2 * 3" ⽊︓ + /
\ 1 * / \ 2 3

構⽂解析の例構⽂解析の例「これ以上計算が進まない」部分は葉 1とか2とか3 優先順位が低い⽅が親になる + の⽅が * より優先順位が低い空⽩は無視されている

BNFの導⼊ BNFの導⼊先ほどの例を⼀般化した形で書きたい直観的には以下のようになる⾃然⾔語なので曖昧→曖昧じゃない表記が欲しい式は式 "+" 式または
式 "-" 式または式 "*" 式または式 "/" 式または "(" 式 ")" または数値

BNFの導⼊ BNFの導⼊バッカス・ナウア記法（Backus-Naur form）バッカスさん（Fortran開発者）が提案⾊々な仕様書に出てくる⽂法を定義するための⾔語 E ::= E
"+" E | E "-" E | E "*" E | E "/" E | "(" E ")" | N; //整数を表す

BNFの変形 BNFの変形演算⼦の優先順位が不明そもそもどうやって解析する︖ E ::= E "+" E |
E "-" E | E "*" E | E "/" E | "(" E ")" | N;

BNFの変形 BNFの変形 E ::= A ("+" E) | A ("-"
E); A :: = | E "*" E | E "/" | "(" E ")" | N;

BNFの変形 BNFの変形 E ::= A ("+" E) | A ("-"
E) | A; A ::= | P ("*" A) | P ("/" A) | P; P ::= | "(" E ")" | N;

BNFの変形 BNFの変形 E ::= A ("+" E | "-" E
| ""); A ::= P ("*" A | "/" A | ""); P ::= | "(" E ")" | N;

LL(1)構⽂解析 LL(1)構⽂解析 Le to right, Le most derivation ほんとのLL(1)は遷移表を使って⾼速に解析今回は⼿書きパーザでLL(1)構⽂解析っぽいものを実⾏

お題のBNF お題のBNF input: "1+2" E ::= A ("+" E |
"-" E | ""); A ::= P ("*" A | "/" A | ""); P ::= | "(" E ")" | N;

Eの呼び出し Eの呼び出し input: "1+2" E ::= /* -> */ A
("+" E | "-" E | ""); A ::= P ("*" A | "/" A | ""); P ::= | "(" E ")" | N;

Aの呼び出し Aの呼び出し input: "1+2" E ::= /* => */ A
("+" E | "-" E | ""); A ::= /* -> */ P ("*" A | "/" A | ""); P ::= | "(" E ")" | N;

Pの呼び出し Pの呼び出し input: "1+2" どちらに分岐する︖ 1⽂字「先読み」する FIRST(N) = {"0", "1",
..., "9"} FIRST("(") = {"("} N が選択される → ⼊⼒が「消費される」 E ::= /* => */ A ("+" E | "-" E | ""); A ::= /* => */ P ("*" A | "/" A | ""); P ::= /* -> */ "(" E ")" | N;

Aの呼び出し Aの呼び出し input: "+2" どれに分岐する︖ 1⽂字「先読み」する FIRST("*") = {"*"} FIRST("/")
= {"/"} FOLLOW("") = {"+", "-"} ""が選択される → ⼊⼒が「消費されない」 E ::= /* => */ A ("+" E | "-" E | ""); A ::= P /* -> */ ("*" A | "/" A | ""); P ::= | "(" E ")" | N;

Eの呼び出し Eの呼び出し input: "+2" どれに分岐する︖ 1⽂字「先読み」する FIRST("+") = {"+"} FIRST("-")
= {"-"} FOLLOW("") = {"*", "/"} "+" Eが選択される → ⼊⼒が「消費される」 E ::= A /* => */ ("+" E | "-" E | ""); A ::= P ("*" A | "/" A | ""); P ::= | "(" E ")" | N;

Eの呼び出し Eの呼び出し input: "2" E ::= A /*→*/ ("+" E
| "-" E | ""); A ::= P ("*" A | "/" A | ""); P ::= | "(" E ")" | N;

Aの呼び出し Aの呼び出し input: "2" E ::= /* => */ A
("+" E | "-" E | ""); A ::= P /* -> */ ("*" A | "/" A | ""); P ::= | "(" E ")" | N;

Pの呼び出し Pの呼び出し input: "2" どちらに分岐する︖ 1⽂字「先読み」する FIRST(N) = {"0", "1",
..., "9"} FIRST("(" E ")") = {"("} N が選択される → ⼊⼒が「消費される」 E ::= /* => */ A ("+" E | "-" E | ""); A ::= /* => */ P ("*" A | "/" A | ""); P ::= /* -> */ "(" E ")" | N;

構⽂解析の完了構⽂解析の完了 input: "" ⼊⼒が全て消費されて、Eから戻ってきたので成功 ↑ E ::= A ("+"
E | "-" E | ""); A ::= P ("*" A | "/" A | ""); P ::= "(" E ")" | N;

デモ（in Java）デモ（in Java）

LL(1)構⽂解析の要点 LL(1)構⽂解析の要点 FIRST(E): Eの中で最初に出てくる⽂字の集合を求める FOLLOW(E): 空列になりえる E について、Eの次に出てくる⽂字の集合を求める注︓空⽩の処理は本題ではないので⾶ばした

⼿書きでない場合⼿書きでない場合構⽂解析のための表を作る表からエントリを引いて次の分岐を決定する "LL(1) Parsing Table"などで検索

LL(1)の1って何︖ LL(1)の1って何︖ 1⽂字（1トークン）だけ先読みして、どれに分岐するか決定できる

LL(1)構⽂解析における字句解析の必要性 LL(1)構⽂解析における字句解析の必要性次のような⽂法を考える S ::= "if" "(" E ")" E
"else" E | I; I ::= [a-zA-Z_] [a-zA-Z_0-9]*; 1⽂字先読みでは決定できない︕ FIRST("if") = {"i"} FIRST([a-zA-Z_]) = {"a",..."Z","_"}; LL(1)構⽂解析では普通、以下のようにこう考える S ::=<IF> <LPAREN> E <RPAREN> E <ELSE> E | <ID> これで1「トークン」先読みで決定できる

LL(k) (k >= 2) 構⽂解析 LL(k) (k >= 2) 構⽂解析
k トークン先読みで分岐が決定できる⼿書きだと難しい構⽂解析器⽣成系でも難しい（計算コストの問題） ANTLRはうまく問題を解決した JavaCCは、部分的にkを1より⼤きくする機能がある

字句解析の必要性について字句解析の必要性について従来の構⽂解析アルゴリズム（＝実装）の都合によるものに過ぎない教科書では字句解析を必要なものとして扱っているものが多い当時の時代背景を考慮する必要

PEG(Ford04) PEG(Ford04) 字句解析は要らない S <- "if" "(" E ")" E
"else" E / [a-zA-Z_] [a-zA-Z_0-9]*; 最初に"if"を試して、失敗したら次の選択肢を試すナイーヴにやると最悪指数関数時間 * メモ化（Packrat Parsing）で線形時間で解析可能

LL(k)の限界 LL(k)の限界左再帰は（通常）無理無限再帰になってしまう E ::= E ("*" | "/")
E | E ("+" | "-") E | "(" E ")" | NUMBER

パーザジェネレータパーザジェネレータ

パーザジェネレータパーザジェネレータ BNFぽいものを受け取ってパーザを⽣成かつてはコンパイラコンパイラと呼ばれていたトップダウン型とボトムアップ型トップダウン︓ LL法、PEG ボトムアップ︓ LR法（今回説明しなかった）

JavaCC JavaCC Java⽤パーザジェネレータ LL(k) デフォルトではk = 1 Semantic Predicate装備実⽤上割と重要
構⽂⽊⾃動⽣成機能付き枯れている https://javacc.java.net/

Coco/R Coco/R LL(k) 多⾔語対応 C#, C++, F#, VB.NET, Swi ,
Oberon(!), etc. http://www.ssw.uni-linz.ac.at/Coco/

ANTLR V4 ANTLR V4 主にJava⽤ ALL(*): 最先端の構⽂解析アルゴリズム左再帰もサポートしているよ http://www.antlr.org/

余談余談 LL(0) ⽂法は存在するか︖ 全く先読みせずに分岐を決定する︖ ある LL(0) ⽂法が受理する⾔語 = 特定の1⽂字列のみ
からなる⾔語︖

質問タイム質問タイムどんどん質問してください

LL（１）構文解析の紹介

LL（１）構文解析の紹介

More Decks by Opt Technologies

Other Decks in Programming

Featured

Transcript