Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Materials for ReproducibiliTea session on Isager (2020)

Materials for ReproducibiliTea session on Isager (2020)

ReproducibiliTea Tokyo
2022.1.6.

Daiki Nakamura

January 06, 2022
Tweet

More Decks by Daiki Nakamura

Other Decks in Research

Transcript

  1. Test validity defined as d-connection between target and measured attribute:

    Expanding the causal definition of Borsboom et al. Presentation by Daiki Nakamura @ReproducibiliTea Tokyo ☕ January 6, 2022 Isager, P. M. (2020, September 28). Test validity defined as d-connection between target and measured attribute: Expanding the causal definition of Borsboom et al. (2004). https://doi.org/10.31234/osf.io/btgsr
  2. About Author Peder M. Isager Assistant Professor at Oslo New

    University College 私は、アイントホーフェン工科大学で心理学の研究実践を研究する博士 課程の学生です。Daniël Lakens,Anne Scheel,Leo Tiokhinとともに, "Increasing the Reliability and Efficiency of Psychological Science"(心 理学的科学の信頼性と効率性の向上)というプロジェクトに取り組んで います。また、Psychological Science AcceleratorのMethodology & Data Analysis委員会のボードメンバーでもあります。
  3. Author note 3 This article assumes some basic knowledge of

    causal graph model terminology. D-separation is a particularly relevant concept. For a brief but excellent introduction to d-separation, and the general framework of causal modeling, see Dablander (2020). For a more comprehensive introduction, see Pearl (2009) or Hernán & Robins (2020). This article is written in response to Borsboom et al. (2004), and hence assumes some familiarity with the arguments put forward in that work. この論文は、因果関係のあるグラフィカルモデルの用語に関する基本的な知識を前提と しています。d-separationは特に関連性の高い概念である。(中略) この記事はBorsboom et al.(2004)への回答として書かれたものであり、そのため、こ の研究で提示された議論にある程度精通していることを前提としている。 この論文では、Borsboom et al. (2004) によって提唱された テスト妥当性の定義の修正(要件の緩和)を提案する
  4. Graphical model 4 ◼ d-separation(有向分離) X:車のバッテリーの状態 {充電済み,空} Y:ガソリンタンクの状態 {満タン,空} Z:車が動くかどうか

    {動く,動かない} • あるグラフ G において X と Y をつなぐすべてのパスが Z によって 完全にブロック されている時(条件付き独立) 、X と Y は Z を所与 として有向分離されているという。 • dsep(X, Z, Y)と表記 X Y Z X Y Z 𝑝(𝑋, 𝑌|𝑍) = 𝑝 𝑋, 𝑍, 𝑌 /𝑝(𝑍) = 𝑝(𝑋)𝑝(𝑍|𝑋)𝑝(𝑌|𝑍)/𝑝(𝑍) = 𝑝(𝑋|𝑍)(𝑌|𝑍) 𝑝(𝑋, 𝑍, 𝑌) = 𝑝(𝑋)𝑝(𝑍|𝑋)𝑝(𝑌|𝑍) ノードXとYは、Zが観測された状態では独立になる →条件付き独立 X Y Z X Y Z ◼ 条件付き独立 → d-connection
  5. 妥当性概念の変遷 5 ⚫ 妥当性概念の変遷(村山,2006, 2012) 理論から得られる命題を 実証的に検討 → nomological network

    三位一体観 単一的な 構成概念妥当性へ ◼ Kelley(1927) “A test is valid if it measures what it purports to measure” ◼ Cronbach & Meehl(1955) 尺度は理論的・仮説的な構成概念を測定している。 構成概念は他の構成概念との関係で定義される。 ◼ Messick(1995) 得点の解釈に必要な証拠を集める (validation) e.g., 内容的、本質的、構造的、一般化、外的、結果的 ◼ Borsboom et al.(2004) 測りたいものが測れているかどうか(validity) テストがある属性の測定にとって妥当であるのは、 (a)属性が存在し、 (b)属性の変動(variation)が測定結果の変動を 因果的に生み出すとき ◼ 南風原(2012) 妥当性 = 𝑉 𝑐 𝑉 𝑥
  6. Introduction 6 ⚫ Borsboomによる妥当性の定義 • 妥当性とは、その測定器が対象となる属性の変動に敏感であるかどうかの特性である (Borsboom et al., 2009)

    • テストがある属性の測定にとって妥当であるのは、 (a)属性が存在し、 (b)属性の変動が測定結果の変動を因果的に生み出すとき(Borsboom et al., 2004) ⚫ 著者の問題意識・主張 • 測定器が「属性の変動に敏感である」ためには、属性の変化が測定結果の変化を因果 的に生み出す必要はないのでは? • 測定値と属性がd-connectされていれば(d-separateされていなければ)十分 ➢ テストの結果が、過去に対象となる属性に何が起こったかや、将来に対象となる属性 に何が起こるかのいずれかを知らせてくれるとき、テストは有効である
  7. D-connection definition of test validity 7 ⚫ 提案する妥当性の定義 • (a)

    対象となる属性が存在し、 (b) 測定された属性の変動が対象となる属性の変動 と統計的に関連するようにd-connectしている場合、 有効な測定である ➢ 真の因果グラフにおいて、測定器と測定したい属 性との間に「開かれた経路」がある場合、その測 定器は有効である • 有効性は、測定された属性が対象となる属性に よって引き起こされる場合に限定されないという ことが、Borsboomとの違い • 測定された属性の観察によって対象となる属性に 関する情報が得られるすべての因果関係のシナリ オを有効なものとして認めるべき A~Dは有効、E~Fは無効 A = ターゲット属性,M = 測定された属性, U = 測定されていない非ターゲット属性, S = 共有された因果関係のある子孫
  8. Example A, B 8 • ターゲット属性Aと測定された属性Mは、AがMの因果関係の親であ る場合、d-connectedである • Mの変動は、過去にAに何が起こったかという情報を与えてくれる •

    多くの科学分野における測定器の最も典型的な因果関係のシナリオ ➢ 神経活動Aが同じ領域の血流Mに因果関係を持っているため、MRIは 脳の領域における神経活動の有効な測定となる ◼ ターゲット属性Aが測定属性Mを引き起こす • 測定された属性Mがターゲット属性Aとの因果関係の親である場合、 d-connectedである • Mの変動は、将来Aに何が起こるかについての情報を与えてくれる • 仕事で良い結果を出す応募者を採用したいと考えている場合、過去 の仕事の経験Mが将来の仕事のパフォーマンスAに影響するなら、M はAの有効な測定となる • これは、Borsboomの基準では妥当と見なされなかったもの ◼ 測定された属性Mがターゲット属性Aを引き起こす
  9. Example C, D 9 • MとAが因果関係のある親Uを共有している場合、d-connectedである • Mは、過去にUに何が起こったかという情報を与えてくれる • 過去の職務経験Mは、応募者が受けた教育歴Uの指標であり、それが

    将来の職務遂行能力Aの指標となるので、過去の職務経験Mは将来の 職務遂行能力Aの測定に有効 ◼ ターゲット属性Aと測定属性Mは、どちらも第3の属性Uによって引き起こされる • MとAの両方が何らかの共有された子孫変数Sに因果的な影響を与え ており、Mを使ってAを測定する前にSを条件とする場合 • 身長Mを反射神経Aの尺度とする際、バスケットボール選手であると いう条件Sを与えた場合、身長と反射神経のどちらかが無いと選手に なれないと考えられることから、MがAの有効な測定になる ◼ ターゲット属性Aと測定属性Mの両方が、条件づけられた第3の属性Sを引き起こす collider variable
  10. Measuring target attribute scores vs. measuring the effect of treatment

    on the target attribute 10 • RCTによる介入を考えた場合、Aは測定され た属性Mとd-connectedだが、BはMがf(T)と d-separatedなため、有効な測定でなくなっ ている。 • 研修プログラムTが将来の職務遂行能力Aに 与える影響を知りたい場合、過去の職務経験 Mは、将来の職務遂行能力Aの有効な測定値 となるが、Mは研修プログラムTのパフォー マンスf(T)への効果を測定するには有効では ない。 A = ターゲット属性,M = 測定された属性, T = 処遇, f(T) = 処遇の関数としてのターゲット属性の変化
  11. Using a measured attribute for conditioning on a target attribute

    that is a confounder. 11 ⚫ 交絡因子の条件付けに測定値を利用することが目的の場合の測定値の妥当性 • Mがd-connectionの定義に従ってAの測定に有効であっ ても、MをAの条件付けに使用して、XとYの間のバッ クドアパスを遮断することはできない。 • 因果効果(X→Y)を推定したいときに、Aが交絡因子 であり、XのYに対する因果効果を正確に推定するため に条件付けする必要がある場合、測定された属性Mは、 Aを通るオープンパスを(部分的に)ブロックするた めに使用できる
  12. Implications of accepting the d-connection definition of validity 12 •

    d-connectionの定義は、“measure”、“estimate”、“predict”、“decide”、 “compute ”などの用語の間に実質的な違いがないことを示唆している。 • これは、まだ起こっていないことを測定できることを意味する。 • 測定器と測定しようとしている属性との間に直接的な因果関係がなくても、 測定器は有効であることも意味する。 • d-connectionの定義では、測定対象とターゲット属性の間に特定の因果関 係の近接性を必要としない。 • ただし、媒介経路が長いと(例えば、A→B→C→D→E→M)誤差の原因が多 いことを意味し、測定の信頼性が低下するため、因果関係の近接性は依然 として測定にとって重要 • Twitter上での議論: https://twitter.com/peder_isager/status/1395331493359140865