Materials for ReproducibiliTea session on Isager (2020)

Test validity defined as d-connection between target and measured attribute:
Expanding the causal definition of Borsboom et al. Presentation by Daiki Nakamura @ReproducibiliTea Tokyo ☕ January 6, 2022 Isager, P. M. (2020, September 28). Test validity defined as d-connection between target and measured attribute: Expanding the causal definition of Borsboom et al. (2004). https://doi.org/10.31234/osf.io/btgsr

About Author Peder M. Isager Assistant Professor at Oslo New
University College 私は、アイントホーフェン工科大学で心理学の研究実践を研究する博士課程の学生です。Daniël Lakens，Anne Scheel，Leo Tiokhinとともに， "Increasing the Reliability and Efficiency of Psychological Science"（心理学的科学の信頼性と効率性の向上）というプロジェクトに取り組んでいます。また、Psychological Science AcceleratorのMethodology & Data Analysis委員会のボードメンバーでもあります。

Author note 3 This article assumes some basic knowledge of
causal graph model terminology. D-separation is a particularly relevant concept. For a brief but excellent introduction to d-separation, and the general framework of causal modeling, see Dablander (2020). For a more comprehensive introduction, see Pearl (2009) or Hernán & Robins (2020). This article is written in response to Borsboom et al. (2004), and hence assumes some familiarity with the arguments put forward in that work. この論文は、因果関係のあるグラフィカルモデルの用語に関する基本的な知識を前提としています。d-separationは特に関連性の高い概念である。（中略）この記事はBorsboom et al.（2004）への回答として書かれたものであり、そのため、この研究で提示された議論にある程度精通していることを前提としている。この論文では、Borsboom et al. (2004) によって提唱されたテスト妥当性の定義の修正（要件の緩和）を提案する

Graphical model 4 ◼ d-separation（有向分離） X：車のバッテリーの状態 {充電済み，空} Y：ガソリンタンクの状態 {満タン，空} Z：車が動くかどうか
{動く，動かない} • あるグラフ G において X と Y をつなぐすべてのパスが Z によって完全にブロックされている時（条件付き独立）、X と Y は Z を所与として有向分離されているという。 • dsep(X, Z, Y)と表記 X Y Z X Y Z 𝑝(𝑋, 𝑌|𝑍) = 𝑝 𝑋, 𝑍, 𝑌 /𝑝(𝑍) = 𝑝(𝑋)𝑝(𝑍|𝑋)𝑝(𝑌|𝑍)/𝑝(𝑍) = 𝑝(𝑋|𝑍)(𝑌|𝑍) 𝑝(𝑋, 𝑍, 𝑌) = 𝑝(𝑋)𝑝(𝑍|𝑋)𝑝(𝑌|𝑍) ノードXとYは、Zが観測された状態では独立になる →条件付き独立 X Y Z X Y Z ◼ 条件付き独立 → d-connection

妥当性概念の変遷 5 ⚫ 妥当性概念の変遷（村山，2006, 2012）理論から得られる命題を実証的に検討 → nomological network
三位一体観単一的な構成概念妥当性へ ◼ Kelley（1927） “A test is valid if it measures what it purports to measure” ◼ Cronbach & Meehl（1955）尺度は理論的・仮説的な構成概念を測定している。構成概念は他の構成概念との関係で定義される。 ◼ Messick（1995）得点の解釈に必要な証拠を集める（validation） e.g., 内容的、本質的、構造的、一般化、外的、結果的 ◼ Borsboom et al.（2004）測りたいものが測れているかどうか（validity）テストがある属性の測定にとって妥当であるのは、（a）属性が存在し、（b）属性の変動（variation）が測定結果の変動を因果的に生み出すとき ◼ 南風原（2012）妥当性 = 𝑉 𝑐 𝑉 𝑥

Introduction 6 ⚫ Borsboomによる妥当性の定義 • 妥当性とは、その測定器が対象となる属性の変動に敏感であるかどうかの特性である（Borsboom et al., 2009）
• テストがある属性の測定にとって妥当であるのは、（a）属性が存在し、（b）属性の変動が測定結果の変動を因果的に生み出すとき（Borsboom et al., 2004） ⚫ 著者の問題意識・主張 • 測定器が「属性の変動に敏感である」ためには、属性の変化が測定結果の変化を因果的に生み出す必要はないのでは？ • 測定値と属性がd-connectされていれば（d-separateされていなければ）十分 ➢ テストの結果が、過去に対象となる属性に何が起こったかや、将来に対象となる属性に何が起こるかのいずれかを知らせてくれるとき、テストは有効である

D-connection definition of test validity 7 ⚫ 提案する妥当性の定義 • (a)
対象となる属性が存在し、 (b) 測定された属性の変動が対象となる属性の変動と統計的に関連するようにd-connectしている場合、有効な測定である ➢ 真の因果グラフにおいて、測定器と測定したい属性との間に「開かれた経路」がある場合、その測定器は有効である • 有効性は、測定された属性が対象となる属性によって引き起こされる場合に限定されないということが、Borsboomとの違い • 測定された属性の観察によって対象となる属性に関する情報が得られるすべての因果関係のシナリオを有効なものとして認めるべき A～Dは有効、E~Fは無効 A = ターゲット属性，M = 測定された属性， U = 測定されていない非ターゲット属性， S = 共有された因果関係のある子孫

Example A, B 8 • ターゲット属性Aと測定された属性Mは、AがMの因果関係の親である場合、d-connectedである • Mの変動は、過去にAに何が起こったかという情報を与えてくれる •
多くの科学分野における測定器の最も典型的な因果関係のシナリオ ➢ 神経活動Aが同じ領域の血流Mに因果関係を持っているため、MRIは脳の領域における神経活動の有効な測定となる ◼ ターゲット属性Aが測定属性Mを引き起こす • 測定された属性Mがターゲット属性Aとの因果関係の親である場合、 d-connectedである • Mの変動は、将来Aに何が起こるかについての情報を与えてくれる • 仕事で良い結果を出す応募者を採用したいと考えている場合、過去の仕事の経験Mが将来の仕事のパフォーマンスAに影響するなら、M はAの有効な測定となる • これは、Borsboomの基準では妥当と見なされなかったもの ◼ 測定された属性Mがターゲット属性Aを引き起こす

Example C, D 9 • MとAが因果関係のある親Uを共有している場合、d-connectedである • Mは、過去にUに何が起こったかという情報を与えてくれる • 過去の職務経験Mは、応募者が受けた教育歴Uの指標であり、それが
将来の職務遂行能力Aの指標となるので、過去の職務経験Mは将来の職務遂行能力Aの測定に有効 ◼ ターゲット属性Aと測定属性Mは、どちらも第3の属性Uによって引き起こされる • MとAの両方が何らかの共有された子孫変数Sに因果的な影響を与えており、Mを使ってAを測定する前にSを条件とする場合 • 身長Mを反射神経Aの尺度とする際、バスケットボール選手であるという条件Sを与えた場合、身長と反射神経のどちらかが無いと選手になれないと考えられることから、MがAの有効な測定になる ◼ ターゲット属性Aと測定属性Mの両方が、条件づけられた第3の属性Sを引き起こす collider variable

Measuring target attribute scores vs. measuring the effect of treatment
on the target attribute 10 • RCTによる介入を考えた場合、Aは測定された属性Mとd-connectedだが、BはMがf(T)と d-separatedなため、有効な測定でなくなっている。 • 研修プログラムTが将来の職務遂行能力Aに与える影響を知りたい場合、過去の職務経験 Mは、将来の職務遂行能力Aの有効な測定値となるが、Mは研修プログラムTのパフォーマンスf(T)への効果を測定するには有効ではない。 A = ターゲット属性，M = 測定された属性， T = 処遇， f(T) = 処遇の関数としてのターゲット属性の変化

Using a measured attribute for conditioning on a target attribute
that is a confounder. 11 ⚫ 交絡因子の条件付けに測定値を利用することが目的の場合の測定値の妥当性 • Mがd-connectionの定義に従ってAの測定に有効であっても、MをAの条件付けに使用して、XとYの間のバックドアパスを遮断することはできない。 • 因果効果（X→Y）を推定したいときに、Aが交絡因子であり、XのYに対する因果効果を正確に推定するために条件付けする必要がある場合、測定された属性Mは、 Aを通るオープンパスを（部分的に）ブロックするために使用できる

Implications of accepting the d-connection definition of validity 12 •
d-connectionの定義は、“measure”、“estimate”、“predict”、“decide”、 “compute ”などの用語の間に実質的な違いがないことを示唆している。 • これは、まだ起こっていないことを測定できることを意味する。 • 測定器と測定しようとしている属性との間に直接的な因果関係がなくても、測定器は有効であることも意味する。 • d-connectionの定義では、測定対象とターゲット属性の間に特定の因果関係の近接性を必要としない。 • ただし、媒介経路が長いと（例えば、A→B→C→D→E→M）誤差の原因が多いことを意味し、測定の信頼性が低下するため、因果関係の近接性は依然として測定にとって重要 • Twitter上での議論： https://twitter.com/peder_isager/status/1395331493359140865

Materials for ReproducibiliTea session on Isage...

Materials for ReproducibiliTea session on Isager (2020)

Daiki Nakamura

More Decks by Daiki Nakamura

Other Decks in Research

Featured

Transcript

Test validity defined as d-connection between target and measured attribute:

About Author Peder M. Isager Assistant Professor at Oslo New

Author note 3 This article assumes some basic knowledge of

Graphical model 4 ◼ d-separation（有向分離） X：車のバッテリーの状態 {充電済み，空} Y：ガソリンタンクの状態 {満タン，空} Z：車が動くかどうか

妥当性概念の変遷 5 ⚫ 妥当性概念の変遷（村山，2006, 2012）理論から得られる命題を実証的に検討 → nomological network

Introduction 6 ⚫ Borsboomによる妥当性の定義 • 妥当性とは、その測定器が対象となる属性の変動に敏感であるかどうかの特性である（Borsboom et al., 2009）

D-connection definition of test validity 7 ⚫ 提案する妥当性の定義 • (a)

Example A, B 8 • ターゲット属性Aと測定された属性Mは、AがMの因果関係の親である場合、d-connectedである • Mの変動は、過去にAに何が起こったかという情報を与えてくれる •

Example C, D 9 • MとAが因果関係のある親Uを共有している場合、d-connectedである • Mは、過去にUに何が起こったかという情報を与えてくれる • 過去の職務経験Mは、応募者が受けた教育歴Uの指標であり、それが

Measuring target attribute scores vs. measuring the effect of treatment

Using a measured attribute for conditioning on a target attribute

Implications of accepting the d-connection definition of validity 12 •