Pro Yearly is on sale from $80 to $50! »

Visual inference for model checking

Be8b105981574b8ff35d09c8c68d932a?s=47 adam loy
July 31, 2019

Visual inference for model checking

We strive to specify models that resemble data collected in studies or observed from processes. One way to check whether the model is a reasonable abstraction of reality is to display the data in the model space, such as residual plots for linear models. While these plots are well-behaved for simple models, such as linear regression with uncorrelated errors, this is not the case for more-complex models. For example, residual plots for multilevel models often show patterns that are artifacts of the model-fitting process, and are not indicative of a model deficiency. This talk will outline how visual inference can be utilized during model validation for multilevel models, and how this approach can be generalized to other models. I will also discuss how these techniques have informed how I teach model validation to undergraduate students.

Be8b105981574b8ff35d09c8c68d932a?s=128

adam loy

July 31, 2019
Tweet

Transcript

  1. Visual inference for model checking Adam Loy – aloy.rbind.io July

    31, 2019 Carleton College, Department of Mathematics and Statistics
  2. The lineup protocol

  3. Inspiration The classical formulation of hypothesis testing provides an established

    framework for inference: 1. Formulate two competing hypotheses: H0 and H1 . 2. Choose a test statistic that characterizes the information in the sample relevant to H0 . 3. Determine the sampling distribution of the chosen statistic when H0 is true. 4. Compare the calculated test statistic to the sampling distribution to determine whether it is “extreme.” 1
  4. Lineup protocol (Buja et al., 2009) 2

  5. Lineup protocol Conventional Inference Lineup Protocol Hypothesis: H0 : sample

    is normal vs H1 : sample is not normal 3
  6. Lineup protocol Conventional Inference Lineup Protocol Hypothesis: H0 : sample

    is normal vs H1 : sample is not normal Test statistic: 3
  7. Lineup protocol Conventional Inference Lineup Protocol Hypothesis: H0 : sample

    is normal vs H1 : sample is not normal Test statistic: T(x) = n +∞ −∞ |Fn(x)−F(x)|2 (F(x)(1−F(x)) dF(x) 3
  8. Lineup protocol Conventional Inference Lineup Protocol Hypothesis: H0 : sample

    is normal vs H1 : sample is not normal Test statistic: T(x) = n +∞ −∞ |Fn(x)−F(x)|2 (F(x)(1−F(x)) dF(x) T(x) = −2 0 2 −2 −1 0 1 2 theoretical sample 3
  9. Lineup protocol Conventional Inference Lineup Protocol Hypothesis: H0 : sample

    is normal vs H1 : sample is not normal Test statistic: T(x) = n +∞ −∞ |Fn(x)−F(x)|2 (F(x)(1−F(x)) dF(x) T(x) = −2 0 2 −2 −1 0 1 2 theoretical sample Sampling distribution: 3
  10. Lineup protocol Conventional Inference Lineup Protocol Hypothesis: H0 : sample

    is normal vs H1 : sample is not normal Test statistic: T(x) = n +∞ −∞ |Fn(x)−F(x)|2 (F(x)(1−F(x)) dF(x) T(x) = −2 0 2 −2 −1 0 1 2 theoretical sample Sampling distribution: fT(x) (t) = 0 1 2 3 0.0 0.5 1.0 1.5 2.0 t density 3
  11. Lineup protocol Conventional Inference Lineup Protocol Hypothesis: H0 : sample

    is normal vs H1 : sample is not normal Test statistic: T(x) = n +∞ −∞ |Fn(x)−F(x)|2 (F(x)(1−F(x)) dF(x) T(x) = −2 0 2 −2 −1 0 1 2 theoretical sample Sampling distribution: fT(x) (t) = 0 1 2 3 0.0 0.5 1.0 1.5 2.0 t density 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 3
  12. Lineup protocol Conventional Inference Lineup Protocol Hypothesis: H0 : sample

    is normal vs H1 : sample is not normal Test statistic: T(x) = n +∞ −∞ |Fn(x)−F(x)|2 (F(x)(1−F(x)) dF(x) T(x) = −2 0 2 −2 −1 0 1 2 theoretical sample Sampling distribution: fT(x) (t) = 0 1 2 3 0.0 0.5 1.0 1.5 2.0 t density 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 Evidence against H0 if 3
  13. Lineup protocol Conventional Inference Lineup Protocol Hypothesis: H0 : sample

    is normal vs H1 : sample is not normal Test statistic: T(x) = n +∞ −∞ |Fn(x)−F(x)|2 (F(x)(1−F(x)) dF(x) T(x) = −2 0 2 −2 −1 0 1 2 theoretical sample Sampling distribution: fT(x) (t) = 0 1 2 3 0.0 0.5 1.0 1.5 2.0 t density 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 Evidence against H0 if actual T is extreme 3
  14. Lineup protocol Conventional Inference Lineup Protocol Hypothesis: H0 : sample

    is normal vs H1 : sample is not normal Test statistic: T(x) = n +∞ −∞ |Fn(x)−F(x)|2 (F(x)(1−F(x)) dF(x) T(x) = −2 0 2 −2 −1 0 1 2 theoretical sample Sampling distribution: fT(x) (t) = 0 1 2 3 0.0 0.5 1.0 1.5 2.0 t density 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 Evidence against H0 if actual T is extreme actual plot is identifiable 3
  15. Which plot is the most different? 4

  16. Which plot is the most different? q q q q

    q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q qq q q q q q qq q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q qq q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q qq q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q 16 17 18 19 20 11 12 13 14 15 6 7 8 9 10 1 2 3 4 5 4
  17. Which plot is the most different? 4

  18. Quantifying evidence Following Hofmann et al. (2015): • Assume we

    have N independent observers evaluating the same lineup • Let Xi be the number of observers who pick panel i = 1, . . . , m • Let pi is the probability of choosing panel • Then model Xi as X|pi ∼ Binomial(N, pi ) pi ∼ Dirichlet(α) 5
  19. Quantifying evidence The probability that panel i is identified as

    the most different x times out of N evaluations is P(Xi = x) = N x Beta(x + α, N − x + (m − 1)α) Beta(α, (m − 1)α) We use α = 1 to calculate a visual p-value, P(Xi ≥ x) 6
  20. Quantifying evidence The probability that panel i is identified as

    the most different x times out of N evaluations is P(Xi = x) = N x Beta(x + α, N − x + (m − 1)α) Beta(α, (m − 1)α) We use α = 1 to calculate a visual p-value, P(Xi ≥ x) As α → ∞, this converges in distribution to the Binomial q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q N: 5 N: 10 N: 15 0 1 2 3 4 5 0 1 2 3 4 5 6 7 8 9 10 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 0.0 0.2 0.4 0.6 0.8 Number of data detections, x P(X = x) Image from Hofmann et al. (2015) 6
  21. Model diagnostics

  22. The linear mixed-effects model Consider the two-level continuous-response linear mixed-effects

    (LME) model: yi = Xi β + Zi bi + εi where • εi ∼ N(0, σ2I) • bi iid ∼ N(0, D) • εi ⊥ bj Can we directly use the model’s assumptions to devise diagnostic plots? 7
  23. Which diagnostic plots are problematic? 8

  24. Which diagnostic plots are problematic? εi vs. x • •

    • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • 10 15 8
  25. Which diagnostic plots are problematic? εi vs. x εi vs.

    x • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • 10 15 12 13 14 15 17 18 19 20 8
  26. Which diagnostic plots are problematic? εi vs. x εi vs.

    x εi by group • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • 10 15 12 13 14 15 17 18 19 20 • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • •• • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • •• • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • 6 7 8 11 12 13 16 17 18 8
  27. Which diagnostic plots are problematic? εi vs. x εi vs.

    x εi by group distribution of bj • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • 10 15 12 13 14 15 17 18 19 20 • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • •• • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • •• • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • 6 7 8 11 12 13 16 17 18 • • • • • • • • • • • • •• • • • • • • • • • • • • • • •• • • • • • • • • •• • • •• • • • • • • • • • • • • • • • • • • • • • • • • • • • •• • • • • • • • • • • • • • • •• • • • • • • • • • • • • • • • • • • • • • • • • • •• • • • •• • • • • • • • • • • • • • • • • • •• • • • • • • • • • • • • • • • • • • • • •• • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • •• • • • • • • • • • • • • • • • • • • •• • • • • • •• • • • • • • • • • • • • • • • • • • • • • • • • •• • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • •• • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • •• • •• • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • •• • • • • • • • • • • • • • • • • • • • • • • • • • • • •• • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • •• • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • •• • • • • • • • • • • • • •• • • • • • • • • • • • • • • • • • • • • • • • • • • • • • •• ••• • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • 11 12 13 16 17 18 8
  28. Which diagnostic plots are problematic? εi vs. x εi vs.

    x εi by group distribution of bj • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • 10 15 12 13 14 15 17 18 19 20 • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • •• • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • •• • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • 6 7 8 11 12 13 16 17 18 • • • • • • • • • • • • •• • • • • • • • • • • • • • • •• • • • • • • • • •• • • •• • • • • • • • • • • • • • • • • • • • • • • • • • • • •• • • • • • • • • • • • • • • •• • • • • • • • • • • • • • • • • • • • • • • • • • •• • • • •• • • • • • • • • • • • • • • • • • •• • • • • • • • • • • • • • • • • • • • • •• • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • •• • • • • • • • • • • • • • • • • • • •• • • • • • •• • • • • • • • • • • • • • • • • • • • • • • • • •• • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • •• • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • •• • •• • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • •• • • • • • • • • • • • • • • • • • • • • • • • • • • • •• • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • •• • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • •• • • • • • • • • • • • • •• • • • • • • • • • • • • • • • • • • • • • • • • • • • • • •• ••• • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • 11 12 13 16 17 18 Only the first plot comes from a deficient model... 8
  29. LME model wrinkles Conventional tools for model selection/validation encounter problems

    when we work with finite samples, e.g. • Residual plots display artificial structure • No test to detect heteroscedasticity of the error terms, εij , with small group sizes • Distribution of the predicted random effects does not match the theoretical distribution • We cannot always use the likelihood ratio test to select random effects Visual inference offers us a solution • Forces comparisons between our expectations of the model and the reality in the data 9
  30. Conventional test for heteroscedasticity of the error terms • Recall

    that εij iid ∼ N(0, σ2 ε ) • Conventional strategy: compute g∗ i=1 d2 i , where d2 i is the standardized measure of dispersion for a regression model fit to each group • Problem: for small group sizes this will fail 10
  31. Visual test for heteroscedasticity of the error terms Test statistic:

    boxplots of the predicted error terms by group Generate null plots: use the parametric bootstrap • generate b∗ i ∼ N(0, D) for i = 1, . . . , g • generate ε∗ i ∼ N(0, σ2Ii ) for i = 1, . . . , g • y∗ i for each group i = 1, . . . , g from y∗ i = Xi β + Zi b∗ i + ε∗ i • Refit the model to the bootstrap samples. • Repeat steps 1–4 B times. 11
  32. Radon example Gelman and Pardoe (2006) discuss the following two-level

    LME model to model radon levels in Minnesota homes: yij = β0 + β1 · uraniumi + β2 · basementij + b0i + b1i · uraniumi + εij • Data consist of a stratified random sample of 919 owner-occupied homes in 85 counties • ni varies greatly: 50% of counties have between 3 and 10 measurements, largest county has 116 measurements • basement = whether the measurement was taken in the basement (0) or a higher level (1) • uranium = county-level average soil uranium content 12
  33. Example: Which plot is most different? q q q q

    q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q qq q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q qq q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q qq q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 13
  34. Example: Which plot is most different? 13

  35. Longituginal example Vonesh and Chinchilli (1997) discuss the following model

    for serum bilirubin measurements taken in week j on individual i: yij = β0 + β1 × weekij + β2 × (weekij )2 + β3 × baselinei + β4 × treatmenti + b1 × weekij + b2 × (weekij )2 + εij • 66 subjects: 31 in placebo group; 35 in treatment group • Measurements taken initially and at weekly intervals for 4 weeks 14
  36. Example: Which plot is most different? • • • •

    • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • •• • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • •• • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • •• • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • •• • • • • • • • • • • • • • • • • • • • • • • • • • • • •• • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • •• • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • •• • • • • •• •• • • • • • • • • • • • • • 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 15
  37. Example: Which plot is most different? 15

  38. Visual test for a random effect Conventional strategy: Test H0

    : σ2 b1 = 0 vs. H1 : σ2 b1 > 0 using a likelihood ratio test Problem: σ2 b1 = 0 is on the boundary of the parameter space =⇒ The likelihood ratio test statistic does not have a χ2 distribution =⇒ There is no general approximation to the sampling distribution of the likelihood ratio test statistic Visual test: • Test statistic: overlayed group trajectories • Generating null plots: parametric bootstrap approach 16
  39. Model selection 1 2 3 4 5 6 7 8

    9 10 11 12 13 14 15 16 17 18 19 20 17
  40. Model selection 17

  41. Recap Diagnostic lineups • Check structure of fixed effects using

    lineups of ε and bj against predictors • Check distributional assumptions placed on ε and bj Model selection • Alternative to conventional 50:50 mixture of χ2 for selection of random effects • Visual test for fixed effects See Loy et al. (2017) 18
  42. Pedagogical use

  43. Common student struggles 19

  44. Common student struggles Is that a substantial deviation? Control 19

  45. Common student struggles Is that a substantial deviation? Is that

    difference interesting? Control q q 10 20 30 Extrinsic Intrinsic Treatment Score 19
  46. Common student struggles Is that a substantial deviation? Is that

    difference interesting? Is that random scatter? Control q q 10 20 30 Extrinsic Intrinsic Treatment Score q q q qq q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q −1.0 −0.5 0.0 0.5 1.0 1.5 3 6 9 12 Fitted values Residuals 19
  47. Lineups build intuition q q q qq q q q

    q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q qq q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q qq q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q qq q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q qq q q q q q q q q q q q q q q qq q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q qq q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q qq q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q qq q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q qq q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q 16 17 18 19 20 11 12 13 14 15 6 7 8 9 10 1 2 3 4 5 3 6 9 12 3 6 9 12 3 6 9 12 3 6 9 12 3 6 9 12 −1 0 1 −1 0 1 −1 0 1 −1 0 1 Fitted values Residuals 20
  48. Lineups build intuition 20

  49. Conclusions and future directions

  50. Model diagnostics • We can use graphical tests to explore

    complex models in situations where where intuition is hard to develop, or where theoretical results break down • Work is needed to validate visual inference for more-complex models • Are all bootstraps created equal? • Are the proposed tests powerful? Pedagogical use • The lineup protocol provides a framework to introduce new graphics in the classroom • Q-Q plots; residual plots; group comparisons; empirical logit plots • Shiny apps will be available on aloy.rbind.io later this summer for common situations 21
  51. References I Buja, A., Cook, D., Hofmann, H., Lawrence, M.,

    Lee, E.-K., Swayne, D. F., and Wickham, H. (2009). Statistical inference for exploratory data analysis and model diagnostics. Philosophical Transactions of the Royal Society A: Mathematical, Physical and Engineering Sciences, 367(1906):4361–4383. Gelman, A. and Pardoe, I. (2006). Bayesian measures of explained variance and pooling in multilevel (hierarchical) models. Technometrics, 48(2):241–251. Hofmann, H., R¨ ottger, C. G., Cook, D., Buja, A., and Dixon, P. (2015). Distributions for visual inference under different lineup scenarios. arXiv.org. Loy, A., Follett, L., and Hofmann, H. (2016). Variations of Q–Q plots: The power of our eyes! The American Statistician, 70(2):202–214. 22
  52. References II Loy, A., Hofmann, H., and Cook, D. (2017).

    Model choice and diagnostics for linear Mixed-Effects models using statistics on street corners. J. Comput. Graph. Stat., 26(3):478–492. Majumder, M., Hofmann, H., and Cook, D. (2013). Validation of visual statistical inference, applied to linear models. Journal of the American Statistical Association, 108(503):942–956. Vonesh, E. F. and Chinchilli, V. M. (1997). Linear and Nonlinear Models for the Analysis of Repeated Measurements. Marcel Dekker, New York. Wilkinson, L. and Wills, G. (2008). Scagnostics distributions. J. Comput. Graph. Stat., 17(2):473–491. 23