Identifying Utility Functions using Random Forests (SANER 2016)

Identifying Utility Functions using Random Forests Tamara Mendes, Marco Tulio
Valente, Andre Hora Federal University of Minas Gerais, Brazil Alexander Serebrenik Eindhoven University of Technology, The Netherlands SANER 2016

Utility Functions General purpose functions Separately packaged to facilitate reuse
Examples: date, time, string manipulation, etc 2

Examples /* ace/lib/ace/incremental_search.js */ function isRegExp(obj) { return obj instanceof
RegExp; } /* brackets/src/language/HTMLTokenizer.js */ function isWhitespace(c) { return c === " " || c === "\t" || c === "\r" || c === "\n"; } 3

/* ace/lib/ace/incremental_search.js */ function isRegExp(obj) { return obj instanceof RegExp;
} /* brackets/src/language/HTMLTokenizer.js */ function isWhitespace(c) { return c === " " || c === "\t" || c === "\r" || c === "\n"; } Wrongly Placed Utility Functions 4

/* ace/lib/ace/incremental_search.js */ function isRegExp(obj) { return obj instanceof RegExp;
} /* brackets/src/language/HTMLTokenizer.js */ function isWhitespace(c) { return c === " " || c === "\t" || c === "\r" || c === "\n"; } ✖ ✖ Wrongly Placed Utility Functions 5 Speciﬁc library Speciﬁc library

Speciﬁc library! ! ! ! ! ! /* ace/lib/ace/incremental_search.js */
function isRegExp(obj) { return obj instanceof RegExp; } Utility library! ! ! ! ! ! /* ace/lib/ace/util.js */ function isRegExp(obj) { return obj instanceof RegExp; } … … … … Wrongly Placed Utility Functions 6

Solution Use machine learning to identify utility functions Suggest Move
Method refactoring Utility functions in util libraries: increase visibility, reuse, and decrease code duplication 7

Preliminary Exploratory Study Assumption 1 (Research problem) There are utility
functions that are not implemented in util libraries FP: functions implemented in util libraries that are not utility functions FN: utility functions not implemented in util libraries Assumption 2 (Availability of Training Data)! Most functions in util libraries are indeed utility functions 8

Preliminary Exploratory Study Assumption 1 (Research problem) There are utility
functions that are not implemented in util libraries FP: functions implemented in util libraries that are not utility functions FN: utility functions not implemented in util libraries Assumption 2 (Availability of Training Data)! Most functions in util libraries are indeed utility functions 9

Study Design: Case Studies ! 22 JavaScript popular projects from
GitHub ! 84 Java projects from Qualitas Corpus + 10

Study Design: Classiﬁer • Random Forest: robust to noise and
outliers & widely used in software engineering research + 10 fold-cross validation • Predictors: collected by static analysis (function level) • 20 for JavaScript (eg, complexity, LOC, DOM uses, references to this, function calls…) • 24 for Java (eg, complexity, LOC, is static, outcoming and incoming calls…) 11

Study Design: Input Data % of utility functions n Utility
functions! functions with path = *util* n Non-util functions! randomly selected functions with path ≠ *util* 12

Results: AUC and Precision 0.9 0.8 0.83 0.75 13 java
javascript java javascript

Results: Recall and FM 0.88 0.89 0.84 0.76 14 java
javascript java javascript

Best Predictors:Java average rank position best predictors 15

Best Predictors: JavaScript average rank position best predictors 16

Speciﬁc library! ! ! ! ! ! /* ace/lib/ace/incremental_search.js */
function isRegExp(obj) { return obj instanceof RegExp; } Utility library! ! ! ! ! ! /* ace/lib/ace/util.js */ function isRegExp(obj) { return obj instanceof RegExp; } … … … … Practical Application: Move Utility Function 17 Utility functions in util libraries: increase visibility, reuse, and decrease code duplication

Identifying Utility Functions using Random Forests Tamara Mendes, Marco Tulio
Valente, Andre Hora Federal University of Minas Gerais, Brazil Alexander Serebrenik Eindhoven University of Technology, The Netherlands SANER 2016

Identifying Utility Functions using Random Fore...

Identifying Utility Functions using Random Forests (SANER 2016)

ASERG, DCC, UFMG

More Decks by ASERG, DCC, UFMG

Other Decks in Research

Featured

Transcript

Identifying Utility Functions using Random Forests Tamara Mendes, Marco Tulio

Utility Functions General purpose functions Separately packaged to facilitate reuse

Examples /* ace/lib/ace/incremental_search.js */ function isRegExp(obj) { return obj instanceof

/* ace/lib/ace/incremental_search.js */ function isRegExp(obj) { return obj instanceof RegExp;

/* ace/lib/ace/incremental_search.js */ function isRegExp(obj) { return obj instanceof RegExp;

Speciﬁc library! ! ! ! ! ! /* ace/lib/ace/incremental_search.js */

Solution Use machine learning to identify utility functions Suggest Move

Preliminary Exploratory Study Assumption 1 (Research problem) There are utility

Preliminary Exploratory Study Assumption 1 (Research problem) There are utility

Study Design: Case Studies ! 22 JavaScript popular projects from

Study Design: Classiﬁer • Random Forest: robust to noise and

Study Design: Input Data % of utility functions n Utility

Results: AUC and Precision 0.9 0.8 0.83 0.75 13 java

Results: Recall and FM 0.88 0.89 0.84 0.76 14 java

Best Predictors:Java average rank position best predictors 15

Best Predictors: JavaScript average rank position best predictors 16

Speciﬁc library! ! ! ! ! ! /* ace/lib/ace/incremental_search.js */

Identifying Utility Functions using Random Forests Tamara Mendes, Marco Tulio