July 31, 2019
50

# Visual inference for model checking

We strive to specify models that resemble data collected in studies or observed from processes. One way to check whether the model is a reasonable abstraction of reality is to display the data in the model space, such as residual plots for linear models. While these plots are well-behaved for simple models, such as linear regression with uncorrelated errors, this is not the case for more-complex models. For example, residual plots for multilevel models often show patterns that are artifacts of the model-fitting process, and are not indicative of a model deficiency. This talk will outline how visual inference can be utilized during model validation for multilevel models, and how this approach can be generalized to other models. I will also discuss how these techniques have informed how I teach model validation to undergraduate students.

July 31, 2019

## Transcript

1. ### Visual inference for model checking Adam Loy – aloy.rbind.io July

31, 2019 Carleton College, Department of Mathematics and Statistics

3. ### Inspiration The classical formulation of hypothesis testing provides an established

framework for inference: 1. Formulate two competing hypotheses: H0 and H1 . 2. Choose a test statistic that characterizes the information in the sample relevant to H0 . 3. Determine the sampling distribution of the chosen statistic when H0 is true. 4. Compare the calculated test statistic to the sampling distribution to determine whether it is “extreme.” 1

5. ### Lineup protocol Conventional Inference Lineup Protocol Hypothesis: H0 : sample

is normal vs H1 : sample is not normal 3
6. ### Lineup protocol Conventional Inference Lineup Protocol Hypothesis: H0 : sample

is normal vs H1 : sample is not normal Test statistic: 3
7. ### Lineup protocol Conventional Inference Lineup Protocol Hypothesis: H0 : sample

is normal vs H1 : sample is not normal Test statistic: T(x) = n +∞ −∞ |Fn(x)−F(x)|2 (F(x)(1−F(x)) dF(x) 3
8. ### Lineup protocol Conventional Inference Lineup Protocol Hypothesis: H0 : sample

is normal vs H1 : sample is not normal Test statistic: T(x) = n +∞ −∞ |Fn(x)−F(x)|2 (F(x)(1−F(x)) dF(x) T(x) = −2 0 2 −2 −1 0 1 2 theoretical sample 3
9. ### Lineup protocol Conventional Inference Lineup Protocol Hypothesis: H0 : sample

is normal vs H1 : sample is not normal Test statistic: T(x) = n +∞ −∞ |Fn(x)−F(x)|2 (F(x)(1−F(x)) dF(x) T(x) = −2 0 2 −2 −1 0 1 2 theoretical sample Sampling distribution: 3
10. ### Lineup protocol Conventional Inference Lineup Protocol Hypothesis: H0 : sample

is normal vs H1 : sample is not normal Test statistic: T(x) = n +∞ −∞ |Fn(x)−F(x)|2 (F(x)(1−F(x)) dF(x) T(x) = −2 0 2 −2 −1 0 1 2 theoretical sample Sampling distribution: fT(x) (t) = 0 1 2 3 0.0 0.5 1.0 1.5 2.0 t density 3
11. ### Lineup protocol Conventional Inference Lineup Protocol Hypothesis: H0 : sample

is normal vs H1 : sample is not normal Test statistic: T(x) = n +∞ −∞ |Fn(x)−F(x)|2 (F(x)(1−F(x)) dF(x) T(x) = −2 0 2 −2 −1 0 1 2 theoretical sample Sampling distribution: fT(x) (t) = 0 1 2 3 0.0 0.5 1.0 1.5 2.0 t density 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 3
12. ### Lineup protocol Conventional Inference Lineup Protocol Hypothesis: H0 : sample

is normal vs H1 : sample is not normal Test statistic: T(x) = n +∞ −∞ |Fn(x)−F(x)|2 (F(x)(1−F(x)) dF(x) T(x) = −2 0 2 −2 −1 0 1 2 theoretical sample Sampling distribution: fT(x) (t) = 0 1 2 3 0.0 0.5 1.0 1.5 2.0 t density 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 Evidence against H0 if 3
13. ### Lineup protocol Conventional Inference Lineup Protocol Hypothesis: H0 : sample

is normal vs H1 : sample is not normal Test statistic: T(x) = n +∞ −∞ |Fn(x)−F(x)|2 (F(x)(1−F(x)) dF(x) T(x) = −2 0 2 −2 −1 0 1 2 theoretical sample Sampling distribution: fT(x) (t) = 0 1 2 3 0.0 0.5 1.0 1.5 2.0 t density 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 Evidence against H0 if actual T is extreme 3
14. ### Lineup protocol Conventional Inference Lineup Protocol Hypothesis: H0 : sample

is normal vs H1 : sample is not normal Test statistic: T(x) = n +∞ −∞ |Fn(x)−F(x)|2 (F(x)(1−F(x)) dF(x) T(x) = −2 0 2 −2 −1 0 1 2 theoretical sample Sampling distribution: fT(x) (t) = 0 1 2 3 0.0 0.5 1.0 1.5 2.0 t density 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 Evidence against H0 if actual T is extreme actual plot is identiﬁable 3

16. ### Which plot is the most diﬀerent? q q q q

q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q qq q q q q q qq q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q qq q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q qq q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q 16 17 18 19 20 11 12 13 14 15 6 7 8 9 10 1 2 3 4 5 4

18. ### Quantifying evidence Following Hofmann et al. (2015): • Assume we

have N independent observers evaluating the same lineup • Let Xi be the number of observers who pick panel i = 1, . . . , m • Let pi is the probability of choosing panel • Then model Xi as X|pi ∼ Binomial(N, pi ) pi ∼ Dirichlet(α) 5
19. ### Quantifying evidence The probability that panel i is identiﬁed as

the most diﬀerent x times out of N evaluations is P(Xi = x) = N x Beta(x + α, N − x + (m − 1)α) Beta(α, (m − 1)α) We use α = 1 to calculate a visual p-value, P(Xi ≥ x) 6
20. ### Quantifying evidence The probability that panel i is identiﬁed as

the most diﬀerent x times out of N evaluations is P(Xi = x) = N x Beta(x + α, N − x + (m − 1)α) Beta(α, (m − 1)α) We use α = 1 to calculate a visual p-value, P(Xi ≥ x) As α → ∞, this converges in distribution to the Binomial q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q N: 5 N: 10 N: 15 0 1 2 3 4 5 0 1 2 3 4 5 6 7 8 9 10 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 0.0 0.2 0.4 0.6 0.8 Number of data detections, x P(X = x) Image from Hofmann et al. (2015) 6

22. ### The linear mixed-eﬀects model Consider the two-level continuous-response linear mixed-eﬀects

(LME) model: yi = Xi β + Zi bi + εi where • εi ∼ N(0, σ2I) • bi iid ∼ N(0, D) • εi ⊥ bj Can we directly use the model’s assumptions to devise diagnostic plots? 7

24. ### Which diagnostic plots are problematic? εi vs. x • •

• • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • 10 15 8
25. ### Which diagnostic plots are problematic? εi vs. x εi vs.

x • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • 10 15 12 13 14 15 17 18 19 20 8
26. ### Which diagnostic plots are problematic? εi vs. x εi vs.

x εi by group • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • 10 15 12 13 14 15 17 18 19 20 • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • •• • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • •• • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • 6 7 8 11 12 13 16 17 18 8
27. ### Which diagnostic plots are problematic? εi vs. x εi vs.

x εi by group distribution of bj • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • 10 15 12 13 14 15 17 18 19 20 • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • •• • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • •• • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • 6 7 8 11 12 13 16 17 18 • • • • • • • • • • • • •• • • • • • • • • • • • • • • •• • • • • • • • • •• • • •• • • • • • • • • • • • • • • • • • • • • • • • • • • • •• • • • • • • • • • • • • • • •• • • • • • • • • • • • • • • • • • • • • • • • • • •• • • • •• • • • • • • • • • • • • • • • • • •• • • • • • • • • • • • • • • • • • • • • •• • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • •• • • • • • • • • • • • • • • • • • • •• • • • • • •• • • • • • • • • • • • • • • • • • • • • • • • • •• • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • •• • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • •• • •• • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • •• • • • • • • • • • • • • • • • • • • • • • • • • • • • •• • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • •• • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • •• • • • • • • • • • • • • •• • • • • • • • • • • • • • • • • • • • • • • • • • • • • • •• ••• • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • 11 12 13 16 17 18 8
28. ### Which diagnostic plots are problematic? εi vs. x εi vs.

x εi by group distribution of bj • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • 10 15 12 13 14 15 17 18 19 20 • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • •• • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • •• • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • 6 7 8 11 12 13 16 17 18 • • • • • • • • • • • • •• • • • • • • • • • • • • • • •• • • • • • • • • •• • • •• • • • • • • • • • • • • • • • • • • • • • • • • • • • •• • • • • • • • • • • • • • • •• • • • • • • • • • • • • • • • • • • • • • • • • • •• • • • •• • • • • • • • • • • • • • • • • • •• • • • • • • • • • • • • • • • • • • • • •• • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • •• • • • • • • • • • • • • • • • • • • •• • • • • • •• • • • • • • • • • • • • • • • • • • • • • • • • •• • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • •• • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • •• • •• • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • •• • • • • • • • • • • • • • • • • • • • • • • • • • • • •• • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • •• • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • •• • • • • • • • • • • • • •• • • • • • • • • • • • • • • • • • • • • • • • • • • • • • •• ••• • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • 11 12 13 16 17 18 Only the ﬁrst plot comes from a deﬁcient model... 8
29. ### LME model wrinkles Conventional tools for model selection/validation encounter problems

when we work with ﬁnite samples, e.g. • Residual plots display artiﬁcial structure • No test to detect heteroscedasticity of the error terms, εij , with small group sizes • Distribution of the predicted random eﬀects does not match the theoretical distribution • We cannot always use the likelihood ratio test to select random eﬀects Visual inference oﬀers us a solution • Forces comparisons between our expectations of the model and the reality in the data 9
30. ### Conventional test for heteroscedasticity of the error terms • Recall

that εij iid ∼ N(0, σ2 ε ) • Conventional strategy: compute g∗ i=1 d2 i , where d2 i is the standardized measure of dispersion for a regression model ﬁt to each group • Problem: for small group sizes this will fail 10
31. ### Visual test for heteroscedasticity of the error terms Test statistic:

boxplots of the predicted error terms by group Generate null plots: use the parametric bootstrap • generate b∗ i ∼ N(0, D) for i = 1, . . . , g • generate ε∗ i ∼ N(0, σ2Ii ) for i = 1, . . . , g • y∗ i for each group i = 1, . . . , g from y∗ i = Xi β + Zi b∗ i + ε∗ i • Reﬁt the model to the bootstrap samples. • Repeat steps 1–4 B times. 11
32. ### Radon example Gelman and Pardoe (2006) discuss the following two-level

LME model to model radon levels in Minnesota homes: yij = β0 + β1 · uraniumi + β2 · basementij + b0i + b1i · uraniumi + εij • Data consist of a stratiﬁed random sample of 919 owner-occupied homes in 85 counties • ni varies greatly: 50% of counties have between 3 and 10 measurements, largest county has 116 measurements • basement = whether the measurement was taken in the basement (0) or a higher level (1) • uranium = county-level average soil uranium content 12
33. ### Example: Which plot is most diﬀerent? q q q q

q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q qq q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q qq q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q qq q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 13

35. ### Longituginal example Vonesh and Chinchilli (1997) discuss the following model

for serum bilirubin measurements taken in week j on individual i: yij = β0 + β1 × weekij + β2 × (weekij )2 + β3 × baselinei + β4 × treatmenti + b1 × weekij + b2 × (weekij )2 + εij • 66 subjects: 31 in placebo group; 35 in treatment group • Measurements taken initially and at weekly intervals for 4 weeks 14
36. ### Example: Which plot is most diﬀerent? • • • •

• • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • •• • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • •• • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • •• • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • •• • • • • • • • • • • • • • • • • • • • • • • • • • • • •• • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • •• • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • •• • • • • •• •• • • • • • • • • • • • • • 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 15

38. ### Visual test for a random eﬀect Conventional strategy: Test H0

: σ2 b1 = 0 vs. H1 : σ2 b1 > 0 using a likelihood ratio test Problem: σ2 b1 = 0 is on the boundary of the parameter space =⇒ The likelihood ratio test statistic does not have a χ2 distribution =⇒ There is no general approximation to the sampling distribution of the likelihood ratio test statistic Visual test: • Test statistic: overlayed group trajectories • Generating null plots: parametric bootstrap approach 16
39. ### Model selection 1 2 3 4 5 6 7 8

9 10 11 12 13 14 15 16 17 18 19 20 17

41. ### Recap Diagnostic lineups • Check structure of ﬁxed eﬀects using

lineups of ε and bj against predictors • Check distributional assumptions placed on ε and bj Model selection • Alternative to conventional 50:50 mixture of χ2 for selection of random eﬀects • Visual test for ﬁxed eﬀects See Loy et al. (2017) 18

45. ### Common student struggles Is that a substantial deviation? Is that

diﬀerence interesting? Control q q 10 20 30 Extrinsic Intrinsic Treatment Score 19
46. ### Common student struggles Is that a substantial deviation? Is that

diﬀerence interesting? Is that random scatter? Control q q 10 20 30 Extrinsic Intrinsic Treatment Score q q q qq q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q −1.0 −0.5 0.0 0.5 1.0 1.5 3 6 9 12 Fitted values Residuals 19
47. ### Lineups build intuition q q q qq q q q

q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q qq q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q qq q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q qq q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q qq q q q q q q q q q q q q q q qq q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q qq q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q qq q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q qq q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q qq q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q 16 17 18 19 20 11 12 13 14 15 6 7 8 9 10 1 2 3 4 5 3 6 9 12 3 6 9 12 3 6 9 12 3 6 9 12 3 6 9 12 −1 0 1 −1 0 1 −1 0 1 −1 0 1 Fitted values Residuals 20

50. ### Model diagnostics • We can use graphical tests to explore

complex models in situations where where intuition is hard to develop, or where theoretical results break down • Work is needed to validate visual inference for more-complex models • Are all bootstraps created equal? • Are the proposed tests powerful? Pedagogical use • The lineup protocol provides a framework to introduce new graphics in the classroom • Q-Q plots; residual plots; group comparisons; empirical logit plots • Shiny apps will be available on aloy.rbind.io later this summer for common situations 21
51. ### References I Buja, A., Cook, D., Hofmann, H., Lawrence, M.,

Lee, E.-K., Swayne, D. F., and Wickham, H. (2009). Statistical inference for exploratory data analysis and model diagnostics. Philosophical Transactions of the Royal Society A: Mathematical, Physical and Engineering Sciences, 367(1906):4361–4383. Gelman, A. and Pardoe, I. (2006). Bayesian measures of explained variance and pooling in multilevel (hierarchical) models. Technometrics, 48(2):241–251. Hofmann, H., R¨ ottger, C. G., Cook, D., Buja, A., and Dixon, P. (2015). Distributions for visual inference under diﬀerent lineup scenarios. arXiv.org. Loy, A., Follett, L., and Hofmann, H. (2016). Variations of Q–Q plots: The power of our eyes! The American Statistician, 70(2):202–214. 22
52. ### References II Loy, A., Hofmann, H., and Cook, D. (2017).

Model choice and diagnostics for linear Mixed-Eﬀects models using statistics on street corners. J. Comput. Graph. Stat., 26(3):478–492. Majumder, M., Hofmann, H., and Cook, D. (2013). Validation of visual statistical inference, applied to linear models. Journal of the American Statistical Association, 108(503):942–956. Vonesh, E. F. and Chinchilli, V. M. (1997). Linear and Nonlinear Models for the Analysis of Repeated Measurements. Marcel Dekker, New York. Wilkinson, L. and Wills, G. (2008). Scagnostics distributions. J. Comput. Graph. Stat., 17(2):473–491. 23