Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Chap.15 自動テスト構成(Rによる項目反応理論)

Chap.15 自動テスト構成(Rによる項目反応理論)

加藤ら(2014)「Rによる項目反応理論」の第15章に関する発表と補足です。

Daiki Nakamura

January 21, 2022
Tweet

More Decks by Daiki Nakamura

Other Decks in Education

Transcript

  1. 第15章 自動テスト構成 (pp. 344-370) 2022年1月21日 IRT-club 担当:中村 大輝(広島大学大学院)

  2. 第15章の見通し 2 ⚫ 等化された項目プールの中から、テストを構成する問題を どのように選ぶのが良いか? ⚫ 数値計算によって最適な項目を選ぶ作業を自動化したい →自動テスト構成(automatic test assembly)

    ⚫ 受験者の回答パターンに応じて困難度の異なるアイテムを 選んで出題することにより、効率的に測定を行いたい →コンピュータ適応型テスト(computer adaptive test) ◼ 本章で使用する記号 識別力 α,困難度 β,当て推量 γ
  3. 15.1 自動テスト構成の概略 3 自動テスト構成は、主に2つのステップからなる。 ①テスト仕様の決定 • テスト仕様の分類と例 ②テスト仕様のモデル化 • テスト仕様を線形計画問題として表現し、数値的最適化によってテスト構成を決定する。

    • テスト仕様は、制約条件と目的関数のいずれかとして数式で表現される。 タイプ レベル テストセット テスト 項目セット 刺激 項目 質的 多肢選択は10問 以下 領域の範囲 教示文の内容 量的 作成するフォーム の数 回答時間60分 一定以上の精度 領域の数 教示文の長さ 項目の文章量 論理的 領域間の包含関係 項目Aを必ず含め る
  4. 15.2.1 数学テストの構成例 4 数学に関する90項目の項目プールがあるとする(表15.2)。 これらの項目は、2PLMで共通尺度上に等化されている。 この項目プールから、以下の仕様を満たすテストフォームを1つ作成したい 1. 総項目数は30 問に固定する。 2.

    幾何および代数の領域からそれぞれ8問以上、確率統計から5問以上の項目を含む。 3. 項目30,60,90 は類似した題材を用いた応用問題であるため同時に同じテストには含めない。 4. 項目1,2,3 は組み問題であるため、このうちいずれかの項目をテストに含める場合は、残り すべても必ずテストに含める。 5. 標準的な θ のレンジにおいて一定以上の測定精度が保たれている。
  5. 15.2.2 線形計画法とは 5 ◆ 定義 Ax = b, x ≧

    0 という制約条件のもとで、目的関数 cT x の値を最小にするような x の値を求める。 ⚫ 制約条件 = arg min T ⚫ 目的関数 項目 j がテストに含まれる場合は 𝑥𝑗 = 1, そうでなければ 𝑥𝑗 = 0。 最終的に計算によって求められる。 仕様 i によって決定され る項目 j に関する要素𝑎𝑖𝑗 1. 総項目数は30 問 2. 幾何および代数の領域から各8 問以上、確率統計から5 問以上 3. 項目30,60,90 は同時に含めない 4. 項目1,2,3 のいずれかを含める場合は、残りも含める 5. TIFの下限値 仕様 i によって 決定される要素 𝑏𝑖 最も小さいTIF 今回の文脈では、項目j の識別力。 ※決定変数 x の各要素が整数値しか取らないもの を整数計画法、さらに 0or1 の二値しか取らない ものを0-1整数計画法と呼ぶ。
  6. 15.2.3 項目数に関する制約 6 1.総項目数は30 問に固定する(i =1) σ 𝑗=1 90 𝑥𝑗

    = 30 になるようなAとbは、 2.幾何および代数の領域からそれぞれ8問以上、確率統計から5問以上の項目を含む (i =2,3,4) 幾何の問題について、制約式は σ 𝑗=1 30 𝑥𝑗 ≥ 8 になる。ここで、幾何の問題は 𝑥1 ~𝑥30 なので、 Aとbは、 となる。同様に、代数と確率統計の問題について、 制約は右のように表現できる。
  7. 15.2.4 項目の包含・排除関係 7 項目30,60,90 を同時には含めないという仕様を制約条件として表すと、 𝑥30 + 𝑥60 + 𝑥90

    ≤ 1 となる。このような制約は、以下のように表現できる。 3.項目30,60,90 は類似した題材を用いた応用問題であるため、同時に同じテストには含めない(i =5) 4. 項目1,2,3 は組み問題であるため、このうちいずれかの項目をテストに含める場合は、残りすべても 必ずテストに含める。(i =6) この仕様を制約条件として表すと、2𝑥1 − 𝑥2 − 𝑥3 = 0 となる。よって、
  8. 15.2.5 テスト情報関数に関する制約 8 「一定以上の測定精度」の設定は、目標となるTIF (𝐼(𝜃)) を定めることと同義である。 TIFが、 𝐼 𝜃 =

    σ 𝐽=1 𝐽 𝐼𝑗 𝜃 = σ 𝐽=1 𝐽 𝐷2𝑎𝑗 2𝑃𝑗 𝜃 𝑄𝑗 (𝜃) であり、 መ 𝜃 の標準誤差が、 𝑆𝐸 መ 𝜃 𝜃 = 1 𝐼(𝜃) であったことを思い出せば、 あらかじめ標準誤差をどの程度以下に抑えたいか定めることで、TIFを定めることができる。 しかし、実際の項目の性能とテスト仕様の制約から、標準誤差をどこまでも小さくできる訳ではない。 どの程度のTIFなら達成できそうか、項目プールのTIFを描画してあたりを付ける必要がある。 「標準的な θ のレンジ」を、−1 < 𝜃 < 1 として(灰色部分)、 破線で示すようなTIFを想定するとすると、 レンジ内で、 𝐼 ≥ 6 (i.e., SE=0.41) を達成できそうである。 ただし、レンジ境界の2点だけでは、目標TIFの形が定まらないので、 表のように複数の評価点をとる。このようにして定めたTIFに対して、 制約条件は、 5.標準的な θ のレンジにおいて、一定以上の測定精度が保たれている(i =7) 約68%
  9. 15.2.5 テスト情報関数に関する制約(続き) 9 目標TIFのM個の評価点について、それぞれ制約条件を設定する。 例えば、𝜃1 = −2 𝑚 = 1

    での制約条件は、 5.標準的な θ のレンジにおいて、一定以上の測定精度が保たれている(i =7) 約68% となる。同様に、他の評価点についても以下のように表現できる。
  10. 制約条件の指定 10 これですべての制約条件の指定ができた。 制約の総数は11 個(I=11)なので、A はサイズ11 × 90 の行列、 b

    は長さ11 のベクトルとなっている。 𝑖 = 1 𝑖 = 2 𝑖 = 3 𝑖 = 4 𝑖 = 5 𝑖 = 6 𝑖 = 7 𝑖 = 8 𝑖 = 9 𝑖 = 10 𝑖 = 11 1 1 1 ⋯ 1 1 ⋯ 1 1 ⋯ 1 1 1 1 ⋯ 1 0 ⋯ 0 0 ⋯ 0 0 0 0 ⋯ 0 1 ⋯ 1 0 ⋯ 0 0 0 0 ⋯ 0 0 ⋯ 0 1 ⋯ 1 0 0 0 ⋯ 1 0 ⋯ 1 0 ⋯ 1 2 −1 −1 ⋯ 0 0 ⋯ 0 0 ⋯ 0 0.12 0.49 ⋯ ⋯ ⋯ 0.05 0.26 1.46 ⋯ ⋯ ⋯ 0.10 0.35 0.39 ⋯ ⋯ ⋯ 0.17 0.24 0.04 ⋯ ⋯ ⋯ 0.20 0.10 0.00 ⋯ ⋯ ⋯ 0.16 × 𝑥1 𝑥2 𝑥3 𝑥4 𝑥5 𝑥6 𝑥7 𝑥8 𝑥9 𝑥10 𝑥11 = ≥ ≥ ≥ ≤ = ≥ ≥ ≥ ≥ ≥ 30 8 8 5 1 0 2.57 6.00 8.43 6.00 2.57 𝐀 𝑥1 𝑥2 𝑥3 … 𝑥30 𝑥31 … 𝑥60 𝑥61 … 𝑥90 𝐱 𝐛 これらの連立方程式を満たす解 (x) は複数存在するため、 目的関数を設定することで、解を1つに絞る。
  11. 15.2.6 目的関数 11 制約条件5では、TIFの下限値を設定した一方で、上限値は定めていなかった。 今回は、制約条件を満たす解の中で、TIFができるだけ小さい(目標値に近い)ことを 目指し、目的関数として設定する。 2PLM の場合は、項目 j の情報関数

    𝐼𝑗 (𝜃) の下側の面積𝐴𝑗 は識別力 𝛼𝑗 に一致することが知られている(Lord & Novick, 1968, p. 461)。 TIFはIIFの和であることから、TIF最小化は、 arg min ෍ 𝑗=1 90 𝛼𝑗 𝑥𝑗 と表現できる。 こうすれば、解が1つに定まる。
  12. 15.3 R による自動テスト構成 12 ベクトルb のタイプ表記 𝑖 = 1 𝑖

    = 2 𝑖 = 3 𝑖 = 4 𝑖 = 5 𝑖 = 6 𝑖 = 7 𝑖 = 8 𝑖 = 9 𝑖 = 10 𝑖 = 11 1 1 1 ⋯ 1 1 ⋯ 1 1 ⋯ 1 1 1 1 ⋯ 1 0 ⋯ 0 0 ⋯ 0 0 0 0 ⋯ 0 1 ⋯ 1 0 ⋯ 0 0 0 0 ⋯ 0 0 ⋯ 0 1 ⋯ 1 0 0 0 ⋯ 1 0 ⋯ 1 0 ⋯ 1 2 −1 −1 ⋯ 0 0 ⋯ 0 0 ⋯ 0 0.12 0.49 ⋯ ⋯ ⋯ 0.05 0.26 1.46 ⋯ ⋯ ⋯ 0.10 0.35 0.39 ⋯ ⋯ ⋯ 0.17 0.24 0.04 ⋯ ⋯ ⋯ 0.20 0.10 0.00 ⋯ ⋯ ⋯ 0.16 × 𝑥1 𝑥2 𝑥3 𝑥4 𝑥5 𝑥6 𝑥7 𝑥8 𝑥9 𝑥10 𝑥11 = ≥ ≥ ≥ ≤ = ≥ ≥ ≥ ≥ ≥ 30 8 8 5 1 0 2.57 6.00 8.43 6.00 2.57 𝐀 𝑥1 𝑥2 𝑥3 … 𝑥30 𝑥31 … 𝑥60 𝑥61 … 𝑥90 𝐱 𝐛
  13. コンピュータ適応型テスト(補足) 13 ⚫ 受験者の回答パターンに応じて困難度の異なるアイテムを選んで 出題することにより、効率的に測定を行いたい →コンピュータ適応型テスト(computer adaptive test) ⚫ 前の問題の正誤に合わせて、より最適な困難度の問題を出せば、

    能力値θの推定の誤差を効率的に小さくできる ⚫ 事前に設定した標準誤差を下回ったら、回答を終了する ⚫ mirtCATパッケージを使って実装してみよう
  14. 14 今日で青本終了! お疲れ様でした!!