TreeDiff - Analýza evolúcie zdrojových textov s využitím abstraktných syntaktických stromov

Analýza evolúcie zdrojových textov s využitím AST Bc. Juraj Kostolanský
vedúci práce: Ing. Peter Lacko, PhD. Slovenská technická univerzita v Bratislave Fakulta informatiky a informačných technológií

Cieľ práce Detekcia zmien medzi dvoma verziami zdrojového textu •
využitie syntaktických stromov Postup 1. vstup: 2 verzie zdrojového textu (2 súbory) 2. vygenerovanie syntaktických stromov 3. vytvorenie párovania vrcholov stromov 4. vytvorenie zoznamu zmien

Existujúce riešenia • porovnávanie textových reťazcov ◦ menej vhodné pre
zdrojové texty • využitie stromovej štruktúry ◦ prístup zhora nadol ▪ uprednostnené párovanie vnútorných vrcholov ▪ menej úspešný ◦ prístup zdola nahor ▪ uprednostnené párovanie listov ▪ menšie využitie štruktúry stromu

Generovanie syntaktických stromov Nástroj ANTLR • generátor lexikálnych a syntaktických
analyzátorov • univerzálnosť • gramatiky známych prog. jazykov voľne dostupné • vstup: ◦ gramatika jazyka ◦ zdrojový text • výstup: ◦ syntaktický strom

Párovanie vrcholov stromov Párovanie: 1. podstromov 2. vnútorných vrcholov 3.
listov • iteratívnosť • využitie existujúceho párovania

Fázy párovania Fáza 1 • párovanie podstromov (rôzna hĺbka) •
párovanie vnútorných vrcholov Fáza 2 • párovanie listov (nezmenených, zmenených) • párovanie vnútorných vrcholov Fáza 3 • dodatočné spracovanie párovania ◦ odstránenie chybných presunov ◦ dodatočné párovanie vnútorných vrcholov

Párovanie podstromov • maximálna hĺbka h max , obsahujú aspoň
jeden list • vytvorenie množín podobných podstromov (štruktúra) • výber najpodobnejšieho podstromu ◦ predchodcovia v pôvodnom strome ◦ doterajšie párovanie

Párovanie vnútorných vrcholov Dva vnútorné vrcholy (x, y) sú spárované,
ak príslušné podstromy majú dostatočný počet (spoločne) spárovaných listov: common(x, y) / max(|x|, |y|) > t • prahová hodnota t je dynamická ◦ znižuje sa pre malé podstromy

Párovanie listov • vytvorenie množín podobných listov ◦ obsahová podobnosť
listov (Jaccard + n-gram) • výber najpodobnejšieho listu ◦ podobnosť predchodcov v pôvodnom strome ◦ doterajšie párovanie vrcholov

Zoznam zmien • Operácie DEL, INS, UPD, MOV

Overovanie • implementovaný prototyp - jazyk Java • priebežné testovanie
- umelé dáta • záverečné overovanie - dáta z 3 reálnych softvérov ◦ Apache Hadoop, Elasticsearch, Spring Framework ◦ 50 dvojíc súborov ◦ od malých zmien až po 70% riadkov, priemer 13% ◦ 250 riadkov / súbor (bez komentárov a prázdnych riadkov) ◦ 4.000 vrcholov stromu / súbor ◦ manuálne vyhodnocovanie ▪ FP - počet uzlov, ktoré nástroj chybne spároval ▪ FN - počet uzlov, ktoré nástroj chybne ponechal nespárované ▪ rýchlosť tvorby párovania

Výsledky • priemere správne spárovaných vrcholov: 99,5 % • priemerná
hodnota presnosti: 99,9 % • priemerná hodnota pokrytia: 99,5 % • hodnoty vždy > 94 % • FP < FN • čas párovania vrcholov ◦ priemer: 434ms ◦ medián: 170ms

Výsledky • závislosť správne spárovaných vrcholov od veľkosti zmien iba
v menšej miere • správnosť závisí od typu zmien

Výsledky • párovanie podstromov ~ 99 % párovaní • pomer
vrcholov spárovaných v prvej fáze klesá so vzrastajúcou veľkosťou zmien v texte:

Publikácie • IIT.SRC 2014 ◦ cena dekana • Journal of
Universal Computer Science ◦ rozpracovaný

Ďalšia práca • overenie univerzálnosti navrhnutého riešenia ◦ iné programovacie
jazyky • rozšírenie syntaktických stromov o sémantické hrany ◦ napr. previazanie premenných / metód s ich deklaráciami (premenovania) • podpora presunov medzi súbormi ◦ virtuálny vrchol • prepojenia nástroja so systémom na riadenie revízií

Zhrnutie • Detekcia zmien v zdrojových textoch 1. Generovanie stromov
(ANTLR) 2. Párovanie: a. podstromov b. vnútorných vrcholov c. listov 3. Generovanie zoznamu zmien (INS, DEL, UPD, MOV) • správnych párovaní priemerne ~ 99 % (FP < FN) • priemerná rýchlosť ~ 170 ms • porovnateľné s existujúcimi riešeniami

Sémantika ASG = AST + sémantické hrany: • viaceré výhody
◦ premenovania: spájanie entít (metód, premenných) s ich deklaráciami ◦ všímanie si kontextu (presuny v rámci metódy / medzi metódami, …) ◦ ... • vlastná implementácia ◦ nie je triviálna (rozsah platnosti, deklarácie v iných súboroch, …) • existujúci nástroj pre sémantickú analýzu ◦ iný generátor syntaktických stromov s podporou sémentickej analýzy ◦ samostatný sémantický analyzátor • problém s univerzálnosťou

Porovnanie s existujúcimi riešeniami • nástrojov je málo, väčšinou vedecké
články ◦ autori nezverejňujú ich nástroje ◦ autori nezverejňujú testovacie dáta • určené pre zdrojové texty konkrétnych jazykov • výnimka - ChangeDistiller

ChangeDistiller • jazyk Java, dostupné zdrojové texty • prorovnanie napriek
tomu komplikované ◦ odlišné syntaktické stromy ◦ rozdielna detekcia zmien komentárov, anotácií, deklarácií importov… ◦ problém stanoviť “jednotku” • subjektívne: výsledky podobné, nástroje sa dopĺňali ◦ ťažké určiť, ktorý je lepší - závisí od dát ◦ konkrétne typy rozdielneho párovania v práci • náš nástroj generoval detailnejší zoznam zmien ◦ súvisí s rozdielnou povahou generovaných stromov

TreeDiff - Analýza evolúcie zdrojových textov s...

TreeDiff - Analýza evolúcie zdrojových textov s využitím abstraktných syntaktických stromov

Juraj Kostolanský

Other Decks in Research

Featured

Transcript

Analýza evolúcie zdrojových textov s využitím AST Bc. Juraj Kostolanský

Cieľ práce Detekcia zmien medzi dvoma verziami zdrojového textu •

Existujúce riešenia • porovnávanie textových reťazcov ◦ menej vhodné pre

Generovanie syntaktických stromov Nástroj ANTLR • generátor lexikálnych a syntaktických

Párovanie vrcholov stromov Párovanie: 1. podstromov 2. vnútorných vrcholov 3.

Fázy párovania Fáza 1 • párovanie podstromov (rôzna hĺbka) •

Párovanie podstromov • maximálna hĺbka h max , obsahujú aspoň

Párovanie vnútorných vrcholov Dva vnútorné vrcholy (x, y) sú spárované,

Párovanie listov • vytvorenie množín podobných listov ◦ obsahová podobnosť

Zoznam zmien • Operácie DEL, INS, UPD, MOV

Overovanie • implementovaný prototyp - jazyk Java • priebežné testovanie

Výsledky • priemere správne spárovaných vrcholov: 99,5 % • priemerná

Výsledky • závislosť správne spárovaných vrcholov od veľkosti zmien iba

Výsledky • párovanie podstromov ~ 99 % párovaní • pomer

Publikácie • IIT.SRC 2014 ◦ cena dekana • Journal of

Ďalšia práca • overenie univerzálnosti navrhnutého riešenia ◦ iné programovacie

Zhrnutie • Detekcia zmien v zdrojových textoch 1. Generovanie stromov

Sémantika ASG = AST + sémantické hrany: • viaceré výhody

Porovnanie s existujúcimi riešeniami • nástrojov je málo, väčšinou vedecké

ChangeDistiller • jazyk Java, dostupné zdrojové texty • prorovnanie napriek