Upgrade to Pro — share decks privately, control downloads, hide ads and more …

A Discussion of Visual Inference

adam loy
December 05, 2018
110

A Discussion of Visual Inference

Graphical methods are commonly used for exploratory data analysis and model checking in, however, graphics are often criticized due to the subjectivity involved. Recently, a protocol that puts graphics into an inferential framework has been developed, allowing analysts to understand the extent to which perceived structure in a plot occurs by chance. This talk will review the development and implementation of this protocol and discuss it's two most compelling applications: estimating the power of competing visual designs; and diagnosing models when asymptotic results are not available.

adam loy

December 05, 2018
Tweet

Transcript

  1. A discussion of visual inference Adam Loy Statistical Sciences Seminar,

    Los Alamos National Laboratory December 5, 2018 Carleton College, Department of Mathematics and Statistics
  2. Inspiration The classical formulation of hypothesis testing provides an established

    framework for inference: 1. Formulate two competing hypotheses: H0 and H1 . 2. Choose a test statistic that characterizes the information in the sample relevant to H0 . 3. Determine the sampling distribution of the chosen statistic when H0 is true. 4. Compare the calculated test statistic to the sampling distribution to determine whether it is “extreme.” 1
  3. Lineup protocol Conventional Inference Lineup Protocol Hypothesis: H0 : sample

    is normal vs H1 : sample is not normal Test statistic: 3
  4. Lineup protocol Conventional Inference Lineup Protocol Hypothesis: H0 : sample

    is normal vs H1 : sample is not normal Test statistic: T(x) = n +∞ −∞ |Fn(x)−F(x)|2 (F(x)(1−F(x)) dF(x) 3
  5. Lineup protocol Conventional Inference Lineup Protocol Hypothesis: H0 : sample

    is normal vs H1 : sample is not normal Test statistic: T(x) = n +∞ −∞ |Fn(x)−F(x)|2 (F(x)(1−F(x)) dF(x) T(x) = −2 0 2 −2 −1 0 1 2 theoretical sample 3
  6. Lineup protocol Conventional Inference Lineup Protocol Hypothesis: H0 : sample

    is normal vs H1 : sample is not normal Test statistic: T(x) = n +∞ −∞ |Fn(x)−F(x)|2 (F(x)(1−F(x)) dF(x) T(x) = −2 0 2 −2 −1 0 1 2 theoretical sample Sampling distribution: 3
  7. Lineup protocol Conventional Inference Lineup Protocol Hypothesis: H0 : sample

    is normal vs H1 : sample is not normal Test statistic: T(x) = n +∞ −∞ |Fn(x)−F(x)|2 (F(x)(1−F(x)) dF(x) T(x) = −2 0 2 −2 −1 0 1 2 theoretical sample Sampling distribution: fT(x) (t) = 0 1 2 3 0.0 0.5 1.0 1.5 2.0 t density 3
  8. Lineup protocol Conventional Inference Lineup Protocol Hypothesis: H0 : sample

    is normal vs H1 : sample is not normal Test statistic: T(x) = n +∞ −∞ |Fn(x)−F(x)|2 (F(x)(1−F(x)) dF(x) T(x) = −2 0 2 −2 −1 0 1 2 theoretical sample Sampling distribution: fT(x) (t) = 0 1 2 3 0.0 0.5 1.0 1.5 2.0 t density 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 3
  9. Lineup protocol Conventional Inference Lineup Protocol Hypothesis: H0 : sample

    is normal vs H1 : sample is not normal Test statistic: T(x) = n +∞ −∞ |Fn(x)−F(x)|2 (F(x)(1−F(x)) dF(x) T(x) = −2 0 2 −2 −1 0 1 2 theoretical sample Sampling distribution: fT(x) (t) = 0 1 2 3 0.0 0.5 1.0 1.5 2.0 t density 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 Evidence against H0 if 3
  10. Lineup protocol Conventional Inference Lineup Protocol Hypothesis: H0 : sample

    is normal vs H1 : sample is not normal Test statistic: T(x) = n +∞ −∞ |Fn(x)−F(x)|2 (F(x)(1−F(x)) dF(x) T(x) = −2 0 2 −2 −1 0 1 2 theoretical sample Sampling distribution: fT(x) (t) = 0 1 2 3 0.0 0.5 1.0 1.5 2.0 t density 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 Evidence against H0 if actual T is extreme 3
  11. Lineup protocol Conventional Inference Lineup Protocol Hypothesis: H0 : sample

    is normal vs H1 : sample is not normal Test statistic: T(x) = n +∞ −∞ |Fn(x)−F(x)|2 (F(x)(1−F(x)) dF(x) T(x) = −2 0 2 −2 −1 0 1 2 theoretical sample Sampling distribution: fT(x) (t) = 0 1 2 3 0.0 0.5 1.0 1.5 2.0 t density 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 Evidence against H0 if actual T is extreme actual plot is identifiable 3
  12. Which plot is the most different? q q q q

    q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q qq q q q q q qq q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q qq q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q qq q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q 16 17 18 19 20 11 12 13 14 15 6 7 8 9 10 1 2 3 4 5 4
  13. Quantifying evidence Following Hofmann et al. (2015): • Assume we

    have N independent observers evaluating the same lineup • Let Xi be the number of observers who pick panel i = 1, . . . , m • Let pi is the probability of choosing panel • Then model Xi as X|pi ∼ Binomial(N, pi ) pi ∼ Dirichlet(α) 5
  14. Quantifying evidence The probability that panel i is identified as

    the most different x times out of N evaluations is P(Xi = x) = N x Beta(x + α, N − x + (m − 1)α) Beta(α, (m − 1)α) Setting α = 1: q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q N: 5 N: 10 N: 15 0 1 2 3 4 5 0 1 2 3 4 5 6 7 8 9 10 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 0.0 0.2 0.4 0.6 0.8 Number of data detections, x P(X = x) 6
  15. Quantifying evidence The probability that panel i is identified as

    the most different x times out of N evaluations is P(Xi = x) = N x Beta(x + α, N − x + (m − 1)α) Beta(α, (m − 1)α) Setting α = 1: q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q N: 5 N: 10 N: 15 0 1 2 3 4 5 0 1 2 3 4 5 6 7 8 9 10 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 0.0 0.2 0.4 0.6 0.8 Number of data detections, x P(X = x) A visual p-value is given by P(Xi ≥ x) 6
  16. The linear mixed-effects model Consider the two-level continuous-response linear mixed-effects

    (LME) model: yi = Xi β + Zi bi + εi where • εi ∼ N(0, σ2I) • bi iid ∼ N(0, D) • εi ⊥ bj Can we directly use the model’s assumptions to devise diagnostic plots? 7
  17. Which diagnostic plots are problematic? εi vs. x • •

    • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • 10 15 8
  18. Which diagnostic plots are problematic? εi vs. x εi vs.

    x • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • 10 15 12 13 14 15 17 18 19 20 8
  19. Which diagnostic plots are problematic? εi vs. x εi vs.

    x εi by group • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • 10 15 12 13 14 15 17 18 19 20 • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • •• • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • •• • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • 6 7 8 11 12 13 16 17 18 8
  20. Which diagnostic plots are problematic? εi vs. x εi vs.

    x εi by group distribution of bj • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • 10 15 12 13 14 15 17 18 19 20 • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • •• • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • •• • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • 6 7 8 11 12 13 16 17 18 • • • • • • • • • • • • •• • • • • • • • • • • • • • • •• • • • • • • • • •• • • •• • • • • • • • • • • • • • • • • • • • • • • • • • • • •• • • • • • • • • • • • • • • •• • • • • • • • • • • • • • • • • • • • • • • • • • •• • • • •• • • • • • • • • • • • • • • • • • •• • • • • • • • • • • • • • • • • • • • • •• • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • •• • • • • • • • • • • • • • • • • • • •• • • • • • •• • • • • • • • • • • • • • • • • • • • • • • • • •• • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • •• • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • •• • •• • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • •• • • • • • • • • • • • • • • • • • • • • • • • • • • • •• • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • •• • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • •• • • • • • • • • • • • • •• • • • • • • • • • • • • • • • • • • • • • • • • • • • • • •• ••• • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • 11 12 13 16 17 18 8
  21. Which diagnostic plots are problematic? εi vs. x εi vs.

    x εi by group distribution of bj • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • 10 15 12 13 14 15 17 18 19 20 • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • •• • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • •• • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • 6 7 8 11 12 13 16 17 18 • • • • • • • • • • • • •• • • • • • • • • • • • • • • •• • • • • • • • • •• • • •• • • • • • • • • • • • • • • • • • • • • • • • • • • • •• • • • • • • • • • • • • • • •• • • • • • • • • • • • • • • • • • • • • • • • • • •• • • • •• • • • • • • • • • • • • • • • • • •• • • • • • • • • • • • • • • • • • • • • •• • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • •• • • • • • • • • • • • • • • • • • • •• • • • • • •• • • • • • • • • • • • • • • • • • • • • • • • • •• • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • •• • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • •• • •• • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • •• • • • • • • • • • • • • • • • • • • • • • • • • • • • •• • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • •• • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • •• • • • • • • • • • • • • •• • • • • • • • • • • • • • • • • • • • • • • • • • • • • • •• ••• • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • 11 12 13 16 17 18 Only the first plot comes from a deficient model... 8
  22. LME model wrinkles Conventional tools for model selection/validation encounter problems

    when we work with finite samples, e.g. • Residual plots display artificial structure • No test to detect heteroscedasticity of the error terms, εij , with small group sizes • Distribution of the predicted random effects does not match the theoretical distribution • We cannot always use the likelihood ratio test to select random effects Visual inference offers us a solution • Forces comparisons between our expectations of the model and the reality in the data 9
  23. Conventional test for heteroscedasticity of the error terms • Recall

    that εij iid ∼ N(0, σ2 ε ) • Conventional strategy: compute g∗ i=1 d2 i , where d2 i is the standardized measure of dispersion for a regression model fit to each group • Problem: for small group sizes this will fail 10
  24. Visual test for heteroscedasticitys of the error terms Test statistic:

    boxplots of the predicted error terms by group Generate null plots: use the parametric bootstrap • generate b∗ i ∼ N(0, D) for i = 1, . . . , g • generate ε∗ i ∼ N(0, σ2Ii ) for i = 1, . . . , g • y∗ i for each group i = 1, . . . , g from y∗ i = Xi β + Zi b∗ i + ε∗ i • Refit the model to the bootstrap samples. • Repeat steps 1–4 B times. 11
  25. Radon example Gelman and Pardoe (2006) discuss the following two-level

    LME model to model radon levels in Minnesota homes: yij = β0 + β1 · uraniumi + β2 · basementij + b0i + b1i · uraniumi + εij • Data consist of a stratified random sample of 919 owner-occupied homes in 85 counties • ni varies greatly: 50% of counties have between 3 and 10 measurements, largest county has 116 measurements • basement = whether the measurement was taken in the basement (0) or a higher level (1) • uranium = county-level average soil uranium content 12
  26. Example: Which plot is most different? q q q q

    q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q qq q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q qq q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q qq q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 13
  27. Longituginal example Vonesh and Chinchilli (1997) discuss the following model

    for serum bilirubin measurements taken in week j on individual i: yij = β0 + β1 × weekij + β2 × (weekij )2 + β3 × baselinei + β4 × treatmenti + b1 × weekij + b2 × (weekij )2 + εij • 66 subjects: 31 in placebo group; 35 in treatment group • Measurements taken initially and at weekly intervals for 4 weeks 14
  28. Example: Which plot is most different? • • • •

    • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • •• • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • •• • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • •• • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • •• • • • • • • • • • • • • • • • • • • • • • • • • • • • •• • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • •• • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • •• • • • • •• •• • • • • • • • • • • • • • 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 15
  29. Visual test for a random effect Conventional strategy: Test H0

    : σ2 b1 = 0 vs. H1 : σ2 b1 > 0 using a likelihood ratio test Problem: σ2 b1 = 0 is on the boundary of the parameter space =⇒ The likelihood ratio test statistic does not have a χ2 distribution =⇒ There is no general approximation to the sampling distribution of the likelihood ratio test statistic Visual test: • Test statistic: overlayed group trajectories • Generating null plots: parametric bootstrap approach 16
  30. Model selection 1 2 3 4 5 6 7 8

    9 10 11 12 13 14 15 16 17 18 19 20 17
  31. Model selection 1 2 3 4 5 6 7 8

    9 10 11 12 13 14 15 16 17 18 19 20 18
  32. Comparing Q-Q plot designs Control Standard, DH ord. Detrended, DH

    adj. Detrended, DH Standard, TS ord. Detrended, TS 19
  33. Comparing Q-Q plot designs Control Standard, DH ord. Detrended, DH

    adj. Detrended, DH Standard, TS ord. Detrended, TS adj. Detrended, TS 19
  34. Procedure for comparison 1. Create lineup data: signal panel; 19

    noise panels 2. Create lineups from competing designs 3. Observers evaluate lineups 4. Evaluate competing designs 20
  35. Simulating data and null plots • Data plots simulated from

    one of 12 t-distributions created from all combinations of d.f. ∈ {2, 5, 10} and n ∈ {20, 30, 50, 75}. • Two data plots generated in each setting • Two sets of 19 null plots were simulated from N(0, 1) for each of the 12 settings. • The 48 lineup data sets were rendered in each of the 7 Q-Q plot variations. 21
  36. Simulating data and null plots • Data plots simulated from

    one of 12 t-distributions created from all combinations of d.f. ∈ {2, 5, 10} and n ∈ {20, 30, 50, 75}. • Two data plots generated in each setting • Two sets of 19 null plots were simulated from N(0, 1) for each of the 12 settings. • The 48 lineup data sets were rendered in each of the 7 Q-Q plot variations. • Need to evaluate 48 × 7 = 336 lineups. 21
  37. Crowd sourcing assessment Amazon’s Mechanical Turk allowed us to crowdsource

    this experiment • Each Turker was asked to evaluate 10 lineups • Randomly assigned Turkers to lineups • A Turker evaluated a given Q-Q plot variation no more than twice • A Turker never saw a data set twice 22
  38. Power of visual tests We can use a mixed-effects logistic

    regression model for the probability of identifying the data plot from a lineup Yi = g−1(ηi ) + εi g(πi ) = ηi = µ + τj(i) plot design + δk(i) d.f. + νs(i) sample size + uu(i) individual ability + dd(i) lineup difficulty where • g is the logit link • uu(i) ∼ N(0, σ2 u ) • dd(i) ∼ N(0, σ2 d ) • E[ε] = 0 and Var[ε] = σ2 23
  39. Power of visual tests odds (low, high) design (CI) Control

    1.00 — Standard (DH) 1.11 (0.92, 1.33) Standard (TS) 0.83 (0.67, 1.04) ord. detrended (DH) 0.66 (0.54, 0.79) ord. detrended (TS) 1.03 (0.83, 1.28) adj. detrended (DH) 1.52 (1.22, 1.89) adj. detrended (TS) 1.37 (1.10, 1.70) sample size 20 1.00 — 30 2.92 (0.64, 13.43) 50 20.13 (4.37, 92.77) 75 10.59 (2.29, 49.04) degrees of freedom 2 436.30 (114.26, 1666.09) 5 10.44 (2.80, 38.93) 10 1.00 — 24
  40. Summary • The lineup protocol enables us to create graphical

    tests • We can use graphical tests to explore complex models in situations where where intuition is hard to develop, or where theoretical results break down • The lineup protocol also provides a framework to compare the power of competing designs 26
  41. Future directions • Work is needed to validate visual inference

    for more-complex models • Are all bootstrap methods created equal? • Are the proposed tests powerful? • Can we automate the evaluation of lineups to avoid crowdsourcing? 27
  42. 29

  43. References I Buja, A., Cook, D., Hofmann, H., Lawrence, M.,

    Lee, E.-K., Swayne, D. F., and Wickham, H. (2009). Statistical inference for exploratory data analysis and model diagnostics. Philosophical Transactions of the Royal Society A: Mathematical, Physical and Engineering Sciences, 367(1906):4361–4383. Gelman, A. and Pardoe, I. (2006). Bayesian measures of explained variance and pooling in multilevel (hierarchical) models. Technometrics, 48(2):241–251. Heer, J. and Bostock, M. (2010). Crowdsourcing graphical perception: using mechanical turk to assess visualization design. In Proceedings of the 28th international conference on Human factors in computing systems, CHI ´ 10, pages 203–212, New York, NY, USA. ACM. 30
  44. References II Hofmann, H., Follett, L., Majumder, M., and Cook,

    D. (2012). Graphical tests for power comparison of competing designs. IEEE Transactions on Visualization and Computer Graphics, 18(12):2441–2448. Hofmann, H., R¨ ottger, C. G., Cook, D., Buja, A., and Dixon, P. (2015). Distributions for visual inference under different lineup scenarios. arXiv.org. Kosara, R. and Ziemkiewicz, C. (2010). Do mechanical turks dream of square pie charts? In Proceedings of the 3rd BELIV’10 Workshop: BEyond Time and Errors: Novel evaLuation Methods for Information Visualization, BELIV ’10, pages 63–70, New York, NY, USA. ACM. Loy, A., Follett, L., and Hofmann, H. (2016). Variations of Q–Q plots: The power of our eyes! The American Statistician, 70(2):202–214. Majumder, M., Hofmann, H., and Cook, D. (2013). Validation of visual statistical inference, applied to linear models. Journal of the American Statistical Association, 108(503):942–956. 31
  45. References III Vonesh, E. F. and Chinchilli, V. M. (1997).

    Linear and Nonlinear Models for the Analysis of Repeated Measurements. Marcel Dekker, New York. Wilkinson, L. and Wills, G. (2008). Scagnostics distributions. J. Comput. Graph. Stat., 17(2):473–491. 32