08 Interpreting Feedback

Anne Schuth (Blendle / University of Amsterdam, The Netherlands) Krisztian
Balog (University of Stavanger, Norway) Tutorial at ECIR 2016 in Padua, Italy Interpreting Feedback

2 Why do interleaving?

2 Why do interleaving? • Within subject design

2 Why do interleaving? • Within subject design • As
opposed to between subject (A/B testing)

opposed to between subject (A/B testing) • Reduces variance (same users/queries for both A and B)

opposed to between subject (A/B testing) • Reduces variance (same users/queries for both A and B) • Need 1 to 2 orders of magnitude less data

opposed to between subject (A/B testing) • Reduces variance (same users/queries for both A and B) • Need 1 to 2 orders of magnitude less data • ~100K queries for interleaving in a mature web search engine (>>1M for A/B testing)

3 Downsides of interleaving • Online possible for measuring differences
in ranking algorithms, such as: new ranking algorithms new ranking features new (types of) documents • So, not for UI changes not for ways of displaying snippets not for other aspects such as colors/fonts/… that change

4 Interleaving Methods • Interleaving • Balanced interleave (Joachims et
al., 2006) • Team Draft interleave (Radlinski et al., 2008) • Document constraints interleave (He et al., 2009) • Probabilistic interleave (Hofmann et al., 2011) • Optimized interleave (Radlinski and Craswell, 2013) • Upper bound interleave (Kharitonov et al., 2013) • Vertical aware team draft interleave (Chuklin et al., 2013) • Generalized team draft interleave (Kharitonov et al 2015) • Multileaving • Team draft multileave (Schuth et al., 2014) • Optimized multileave (Schuth et al., 2014) • Probabilistic multileave (Schuth et al., 2015)

Team Draft Interleave doc 1 doc 2 doc 3 doc
4 doc 5 doc 2 doc 4 doc 7 doc 1 doc 3 A B

4 doc 7 A B

4 doc 7 A B A > B Inference:

Team Draft Multileave doc 1 doc 2 doc 3 doc
4 doc 5 doc 2 doc 4 doc 7 doc 1 doc 3 doc 1 doc 2 doc 8 doc 3 doc 9 doc 4 doc 2 doc 1 doc 9 doc 5 doc 3 doc 1 doc 2 doc 5 doc 7 A B C D E

9 doc 3 A B C D E X X X X X

9 doc 3 A B C D E A > E & B & C & D Inference: X X X X X

Optimized Interleave (OI) doc 1 doc 2 doc 3 doc
4 doc 2 doc 4 doc 3 doc 1 A B 1. Preﬁx Constraints:

4 doc 2 doc 4 doc 3 doc 1 A B doc 1 doc 2 doc 3 doc 4 1. Preﬁx Constraints:

4 doc 2 doc 4 doc 3 doc 1 A B doc 1 doc 2 doc 3 doc 4 doc 1 1. Preﬁx Constraints:

4 doc 2 doc 4 doc 3 doc 1 A B doc 1 doc 2 doc 3 doc 4 doc 1 doc 2 1. Preﬁx Constraints:

4 doc 2 doc 4 doc 3 doc 1 A B doc 1 doc 2 doc 3 doc 4 doc 1 doc 2 doc 4 1. Preﬁx Constraints:

4 doc 2 doc 4 doc 3 doc 1 A B doc 1 doc 2 doc 3 doc 4 doc 1 doc 2 doc 4 doc 3 1. Preﬁx Constraints:

4 doc 2 doc 4 doc 3 doc 1 A B doc 1 doc 2 doc 3 doc 4 doc 1 doc 2 doc 4 doc 3 doc 2 doc 1 doc 3 doc 4 doc 2 doc 1 doc 4 doc 3 doc 2 doc 4 doc 1 doc 3 doc 2 doc 4 doc 3 doc 1 1. Preﬁx Constraints:

4 doc 2 doc 4 doc 3 doc 1 A B doc 1 doc 2 doc 3 doc 4 doc 1 doc 2 doc 4 doc 3 doc 2 doc 1 doc 3 doc 4 doc 2 doc 1 doc 4 doc 3 doc 2 doc 4 doc 1 doc 3 doc 2 doc 4 doc 3 doc 1 1. Preﬁx 2. Unbiased Constraints:

4 doc 2 doc 4 doc 3 doc 1 A B doc 1 doc 2 doc 3 doc 4 doc 1 doc 2 doc 4 doc 3 doc 2 doc 1 doc 3 doc 4 doc 2 doc 1 doc 4 doc 3 doc 2 doc 4 doc 1 doc 3 doc 2 doc 4 doc 3 doc 1 1. Preﬁx 2. Unbiased 3 Constraints:

4 doc 2 doc 4 doc 3 doc 1 A B doc 1 doc 2 doc 3 doc 4 doc 1 doc 2 doc 4 doc 3 doc 2 doc 1 doc 3 doc 4 doc 2 doc 1 doc 4 doc 3 doc 2 doc 4 doc 1 doc 3 doc 2 doc 4 doc 3 doc 1 1. Preﬁx 2. Unbiased 3 -1 Constraints:

4 doc 2 doc 4 doc 3 doc 1 A B doc 1 doc 2 doc 3 doc 4 doc 1 doc 2 doc 4 doc 3 doc 2 doc 1 doc 3 doc 4 doc 2 doc 1 doc 4 doc 3 doc 2 doc 4 doc 1 doc 3 doc 2 doc 4 doc 3 doc 1 1. Preﬁx 2. Unbiased 3 -1 0 Constraints:

4 doc 2 doc 4 doc 3 doc 1 A B doc 1 doc 2 doc 3 doc 4 doc 1 doc 2 doc 4 doc 3 doc 2 doc 1 doc 3 doc 4 doc 2 doc 1 doc 4 doc 3 doc 2 doc 4 doc 1 doc 3 doc 2 doc 4 doc 3 doc 1 1. Preﬁx 2. Unbiased 3 -1 0 -2 3 -1 -2 0 -1 3 0 -2 -1 3 -2 0 -1 -2 3 0 -1 -2 0 3 Constraints:

4 doc 2 doc 4 doc 3 doc 1 A B doc 1 doc 2 doc 3 doc 4 doc 1 doc 2 doc 4 doc 3 doc 2 doc 1 doc 3 doc 4 doc 2 doc 1 doc 4 doc 3 doc 2 doc 4 doc 1 doc 3 doc 2 doc 4 doc 3 doc 1 1. Preﬁx 2. Unbiased * p1 + * p2 + *p3 + *p4 + *p5 + *p6 = 0 3 -1 0 -2 3 -1 -2 0 -1 3 0 -2 -1 3 -2 0 -1 -2 3 0 -1 -2 0 3 Constraints:

4 doc 2 doc 4 doc 3 doc 1 A B doc 1 doc 2 doc 3 doc 4 doc 1 doc 2 doc 4 doc 3 doc 2 doc 1 doc 3 doc 4 doc 2 doc 1 doc 4 doc 3 doc 2 doc 4 doc 1 doc 3 doc 2 doc 4 doc 3 doc 1 1. Preﬁx 2. Unbiased * p1 + * p2 + *p3 + *p4 + *p5 + *p6 = 0 * p1 + * p2 + *p3 + *p4 + *p5 + *p6 = 0 * p1 + * p2 + *p3 + *p4 + *p5 + *p6 = 0 * p1 + * p2 + *p3 + *p4 + *p5 + *p6 = 0 3 -1 0 -2 3 -1 -2 0 -1 3 0 -2 -1 3 -2 0 -1 -2 3 0 -1 -2 0 3 Constraints:

4 doc 2 doc 4 doc 3 doc 1 A B doc 1 doc 2 doc 3 doc 4 doc 1 doc 2 doc 4 doc 3 doc 2 doc 1 doc 3 doc 4 doc 2 doc 1 doc 4 doc 3 doc 2 doc 4 doc 1 doc 3 doc 2 doc 4 doc 3 doc 1 1. Preﬁx 2. Unbiased * p1 + * p2 + *p3 + *p4 + *p5 + *p6 = 0 p2=.25 p4=.35 p5=.40 * p1 + * p2 + *p3 + *p4 + *p5 + *p6 = 0 * p1 + * p2 + *p3 + *p4 + *p5 + *p6 = 0 * p1 + * p2 + *p3 + *p4 + *p5 + *p6 = 0 3 -1 0 -2 3 -1 -2 0 -1 3 0 -2 -1 3 -2 0 -1 -2 3 0 -1 -2 0 3 Constraints:

4 doc 2 doc 4 doc 3 doc 1 A B doc 1 doc 2 doc 3 doc 4 doc 1 doc 2 doc 4 doc 3 doc 2 doc 1 doc 3 doc 4 doc 2 doc 1 doc 4 doc 3 doc 2 doc 4 doc 1 doc 3 doc 2 doc 4 doc 3 doc 1 1. Preﬁx 2. Unbiased p2=.25 p4=.35 p5=.40 3 -1 -2 0 -1 3 -2 0 -1 -2 3 0 Constraints:

4 doc 2 doc 4 doc 3 doc 1 A B doc 1 doc 2 doc 3 doc 4 doc 1 doc 2 doc 4 doc 3 doc 2 doc 1 doc 3 doc 4 doc 2 doc 1 doc 4 doc 3 doc 2 doc 4 doc 1 doc 3 doc 2 doc 4 doc 3 doc 1 1. Preﬁx 2. Unbiased p2=.25 p4=.35 p5=.40 3. Sensitivity 3 -1 -2 0 -1 3 -2 0 -1 -2 3 0 Constraints:

4 doc 2 doc 4 doc 3 doc 1 A B doc 1 doc 2 doc 3 doc 4 doc 1 doc 2 doc 4 doc 3 doc 2 doc 1 doc 3 doc 4 doc 2 doc 1 doc 4 doc 3 doc 2 doc 4 doc 1 doc 3 doc 2 doc 4 doc 3 doc 1 1. Preﬁx 2. Unbiased p2=.25 p4=.35 p5=.40 3. Sensitivity p5 3 -1 -2 0 -1 3 -2 0 -1 -2 3 0 Constraints:

4 doc 2 doc 4 doc 3 doc 1 A B doc 2 doc 4 doc 1 doc 3 1. Preﬁx 2. Unbiased 3. Sensitivity -1 -2 3 0 Constraints:

4 doc 2 doc 4 doc 3 doc 1 A B doc 2 doc 4 doc 1 doc 3 1. Preﬁx 2. Unbiased 3. Sensitivity A > B Inference: -1 -2 3 0 Constraints:

Optimized Multileave doc 1 doc 2 doc 3 doc 4
doc 2 doc 4 doc 7 doc 1 doc 1 doc 2 doc 8 doc 3 doc 4 doc 2 doc 1 doc 9 doc 3 doc 1 doc 2 doc 5 A B C D E

doc 2 doc 4 doc 7 doc 1 doc 1 doc 2 doc 8 doc 3 doc 4 doc 2 doc 1 doc 9 doc 3 doc 1 doc 2 doc 5 A B C D E • Preﬁx constraint: too many multileavings

doc 2 doc 4 doc 7 doc 1 doc 1 doc 2 doc 8 doc 3 doc 4 doc 2 doc 1 doc 9 doc 3 doc 1 doc 2 doc 5 A B C D E • Preﬁx constraint: too many multileavings • Sampling

doc 2 doc 4 doc 7 doc 1 doc 1 doc 2 doc 8 doc 3 doc 4 doc 2 doc 1 doc 9 doc 3 doc 1 doc 2 doc 5 A B C D E • Preﬁx constraint: too many multileavings • Sampling • In expectation unbiased

doc 2 doc 4 doc 7 doc 1 doc 1 doc 2 doc 8 doc 3 doc 4 doc 2 doc 1 doc 9 doc 3 doc 1 doc 2 doc 5 A B C D E doc 1 doc 2 doc 8 doc 4 doc 3 doc 2 doc 4 doc 7 doc 1 doc 2 doc 4 doc 9 doc 2 doc 4 doc 1 doc 7

doc 2 doc 4 doc 7 doc 1 doc 1 doc 2 doc 8 doc 3 doc 4 doc 2 doc 1 doc 9 doc 3 doc 1 doc 2 doc 5 A B C D E doc 1 doc 2 doc 8 doc 4 doc 3 doc 2 doc 4 doc 7 doc 1 doc 2 doc 4 doc 9 doc 2 doc 4 doc 1 doc 7 p1=.25 p3=.35 p4=.30 p2=.10

doc 2 doc 4 doc 7 doc 1 doc 1 doc 2 doc 8 doc 3 doc 4 doc 2 doc 1 doc 9 doc 3 doc 1 doc 2 doc 5 A B C D E doc 1 doc 2 doc 8 doc 4 doc 3 doc 2 doc 4 doc 7 doc 1 doc 2 doc 4 doc 9 doc 2 doc 4 doc 1 doc 7 p1=.25 p3=.35 p4=.30 p2=.10 p2

doc 2 doc 4 doc 7 doc 1 doc 1 doc 2 doc 8 doc 3 doc 4 doc 2 doc 1 doc 9 doc 3 doc 1 doc 2 doc 5 A B C D E doc 3 doc 2 doc 4 doc 7

doc 2 doc 4 doc 7 doc 1 doc 1 doc 2 doc 8 doc 3 doc 4 doc 2 doc 1 doc 9 doc 3 doc 1 doc 2 doc 5 A B C D E doc 3 doc 2 doc 4 doc 7 1/2 + 1/4 1/1 + 1/2 1/2 + 1/5 1/2 + 1/1 1/3 + 1/5

doc 2 doc 4 doc 7 doc 1 doc 1 doc 2 doc 8 doc 3 doc 4 doc 2 doc 1 doc 9 doc 3 doc 1 doc 2 doc 5 A B C D E doc 3 doc 2 doc 4 doc 7 1/2 + 1/4 1/1 + 1/2 1/2 + 1/5 1/2 + 1/1 1/3 + 1/5 B A > E & & C & D Inference: A E C & > E C >

Probabilistic Interleave doc 1 doc 2 doc 3 doc 4
doc 2 doc 4 doc 7 doc 1 doc 3 A B doc 5

doc 2 doc 4 doc 7 doc 3 A B doc 5

doc 4 doc 7 doc 3 A B doc 5

Probabilistic Interleave A B doc 1 doc 4 doc 3
doc 2 doc 5

doc 4 doc 2 doc 4 doc 7 doc 1 doc 3 doc 5 doc 1 doc 4 doc 3 doc 2 doc 5

doc 4 doc 2 doc 4 doc 7 doc 1 doc 3 doc 5 doc 1 doc 4 doc 3 doc 2 doc 5 doc 1 doc 4 doc 3 doc 2 doc 5 doc 1 doc 4 doc 3 doc 2 doc 5 doc 1 doc 4 doc 3 doc 2 doc 5 doc 1 doc 4 doc 3 doc 2 doc 5 …

doc 4 doc 2 doc 4 doc 7 doc 1 doc 3 doc 5 doc 1 doc 4 doc 3 doc 2 doc 5 doc 1 doc 4 doc 3 doc 2 doc 5 doc 1 doc 4 doc 3 doc 2 doc 5 doc 1 doc 4 doc 3 doc 2 doc 5 doc 1 doc 4 doc 3 doc 2 doc 5 … .3 .2 .1 .1 .1 illustrative example, not actual …

Probabilistic Interleave A B A > B Inference: doc 1
doc 2 doc 3 doc 4 doc 2 doc 4 doc 7 doc 1 doc 3 doc 5 doc 1 doc 4 doc 3 doc 2 doc 5 doc 1 doc 4 doc 3 doc 2 doc 5 doc 1 doc 4 doc 3 doc 2 doc 5 doc 1 doc 4 doc 3 doc 2 doc 5 doc 1 doc 4 doc 3 doc 2 doc 5 … .3 .2 .1 .1 .1 illustrative example, not actual …

10 Interleaving Methods Team Draft Optimized Probabilistic In between interleavings
yes yes no

yes yes no Sensitive no yes yes

yes yes no Sensitive no yes yes Allows for data reuse no no (?) yes

yes yes no Sensitive no yes yes Allows for data reuse no no (?) yes Fast yes no no

yes yes no Sensitive no yes yes Allows for data reuse no no (?) yes Fast yes no no Multileave yes yes yes

yes yes no Sensitive no yes yes Allows for data reuse no no (?) yes Fast yes no no Multileave yes yes yes Used in practice yes no (?) no (?)

• T. Joachims, L. A. Granka, B. Pan, H. Hembrooke,F.Radlinski,
and G. Gay. Evaluating the accuracy of implicit feedback from clicks and query reformulations in Web search. ACM Transactions on Information Systems (TOIS), 25(2), 2007. • O.Chapelle,T.Joachims,F.Radlinski,and Y.Yue. Large-scale validation and analysis of interleaved search evaluation. ACM Transactions on Information Systems (TOIS), 30(1), 2012. • T. Joachims. Evaluating Retrieval Performance using Clickthrough Data. In TextMining. Physica/ Springer, 2003. • F. Radlinski, M. Kurup, and T. Joachims. How does clickthrough data reﬂect retrieval quality? In CIKM'08, ACM Press, 2008. • J. He,C. Zhai,and X. Li. Evaluation of methods for relative comparison of retrieval systems based on clickthroughs. In CIKM ’09. ACM Press, 2009. • K. Hofmann, S. Whiteson, and M. de Rijke. A probabilistic method for inferring preferences from clicks. In CIKM ’11. ACM Press, 2011. • E. Kharitonov, C. Macdonald, P. Serdyukov. Using Historical Click Data to Increase Interleaving Sensitivity. In CIKM ’13. ACM Press, 2013. • F. Radlinski and N. Craswell. Optimized interleaving for online retrieval evaluation. In WSDM’13. ACM Press, 2013. • E. Kharitonov, C. Macdonald, P. Serdyukov, and I. Ounis. Generalized Team Draft Interleaving. In CIKM'15. ACM Press, 2015. References

08 Interpreting Feedback

08 Interpreting Feedback

More Decks by LiLa'16

Other Decks in Research

Featured

Transcript