Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
Chap.15 自動テスト構成(Rによる項目反応理論)
Search
Daiki Nakamura
January 21, 2022
Education
0
250
Chap.15 自動テスト構成(Rによる項目反応理論)
加藤ら(2014)「Rによる項目反応理論」の第15章に関する発表と補足です。
Daiki Nakamura
January 21, 2022
Tweet
Share
More Decks by Daiki Nakamura
See All by Daiki Nakamura
適切な回帰推定量の使用が学力調査の推定精度を向上させる効果の検討
arumakan
0
14
Developing a Diverse Interests Scale for STEM Learners: Based on the ROSES Survey in Japan
arumakan
0
10
条件制御能力を測定するコンピュータ適応型テストの開発
arumakan
0
160
科学教育の読書会を中心とした新しい研究活動の展開
arumakan
0
170
The Value of Science Education in an Age of Misinformation
arumakan
1
170
教育研究における研究倫理問題の論点整理
arumakan
0
530
TIMSS 2019 環境認識尺度に関する日本人学習者の特徴
arumakan
0
190
統計勉強会2023春@岡山大学
arumakan
0
900
Materials for ReproducibiliTea session on Pownall et al. 2022
arumakan
0
170
Other Decks in Education
See All in Education
1106
cbtlibrary
0
410
Comment aborder et contribuer sereinement à un projet open source ? (Masterclass Université Toulouse III)
pylapp
0
3.2k
Evaluation Methods - Lecture 6 - Human-Computer Interaction (1023841ANR)
signer
PRO
0
690
脳卒中になってしまった さあ、どうする
japanstrokeassociation
0
610
construindo uma carreira com opensource
caarlos0
0
240
CompTIA Security+ SY0-601 Resumo
mariliarochas
2
2.6k
Comezando coas redes
irocho
0
370
Chapitre_1_-__L_atmosphère_et_la_vie_-_Partie_1.pdf
bernhardsvt
0
220
Kindleストアで本を探すことの善悪 #Izumo Developers' Guild 第1回 LT大会
totodo713
0
130
week15@tcue2024
nonxxxizm
0
570
AWS All Certが伝える 新AWS認定試験取得のコツ (Machine Learning Engineer - Associate)
nnydtmg
1
570
Introduction - Lecture 1 - Web Technologies (1019888BNR)
signer
PRO
0
4.9k
Featured
See All Featured
Git: the NoSQL Database
bkeepers
PRO
427
64k
The Myth of the Modular Monolith - Day 2 Keynote - Rails World 2024
eileencodes
16
2.1k
Documentation Writing (for coders)
carmenintech
65
4.4k
Being A Developer After 40
akosma
86
590k
Become a Pro
speakerdeck
PRO
25
5k
GraphQLとの向き合い方2022年版
quramy
43
13k
Visualization
eitanlees
145
15k
GitHub's CSS Performance
jonrohan
1030
460k
Keith and Marios Guide to Fast Websites
keithpitt
409
22k
What's new in Ruby 2.0
geeforr
343
31k
JavaScript: Past, Present, and Future - NDC Porto 2020
reverentgeek
47
5k
Embracing the Ebb and Flow
colly
84
4.5k
Transcript
第15章 自動テスト構成 (pp. 344-370) 2022年1月21日 IRT-club 担当:中村 大輝(広島大学大学院)
第15章の見通し 2 ⚫ 等化された項目プールの中から、テストを構成する問題を どのように選ぶのが良いか? ⚫ 数値計算によって最適な項目を選ぶ作業を自動化したい →自動テスト構成(automatic test assembly)
⚫ 受験者の回答パターンに応じて困難度の異なるアイテムを 選んで出題することにより、効率的に測定を行いたい →コンピュータ適応型テスト(computer adaptive test) ◼ 本章で使用する記号 識別力 α,困難度 β,当て推量 γ
15.1 自動テスト構成の概略 3 自動テスト構成は、主に2つのステップからなる。 ①テスト仕様の決定 • テスト仕様の分類と例 ②テスト仕様のモデル化 • テスト仕様を線形計画問題として表現し、数値的最適化によってテスト構成を決定する。
• テスト仕様は、制約条件と目的関数のいずれかとして数式で表現される。 タイプ レベル テストセット テスト 項目セット 刺激 項目 質的 多肢選択は10問 以下 領域の範囲 教示文の内容 量的 作成するフォーム の数 回答時間60分 一定以上の精度 領域の数 教示文の長さ 項目の文章量 論理的 領域間の包含関係 項目Aを必ず含め る
15.2.1 数学テストの構成例 4 数学に関する90項目の項目プールがあるとする(表15.2)。 これらの項目は、2PLMで共通尺度上に等化されている。 この項目プールから、以下の仕様を満たすテストフォームを1つ作成したい 1. 総項目数は30 問に固定する。 2.
幾何および代数の領域からそれぞれ8問以上、確率統計から5問以上の項目を含む。 3. 項目30,60,90 は類似した題材を用いた応用問題であるため同時に同じテストには含めない。 4. 項目1,2,3 は組み問題であるため、このうちいずれかの項目をテストに含める場合は、残り すべても必ずテストに含める。 5. 標準的な θ のレンジにおいて一定以上の測定精度が保たれている。
15.2.2 線形計画法とは 5 ◆ 定義 Ax = b, x ≧
0 という制約条件のもとで、目的関数 cT x の値を最小にするような x の値を求める。 ⚫ 制約条件 = arg min T ⚫ 目的関数 項目 j がテストに含まれる場合は 𝑥𝑗 = 1, そうでなければ 𝑥𝑗 = 0。 最終的に計算によって求められる。 仕様 i によって決定され る項目 j に関する要素𝑎𝑖𝑗 1. 総項目数は30 問 2. 幾何および代数の領域から各8 問以上、確率統計から5 問以上 3. 項目30,60,90 は同時に含めない 4. 項目1,2,3 のいずれかを含める場合は、残りも含める 5. TIFの下限値 仕様 i によって 決定される要素 𝑏𝑖 最も小さいTIF 今回の文脈では、項目j の識別力。 ※決定変数 x の各要素が整数値しか取らないもの を整数計画法、さらに 0or1 の二値しか取らない ものを0-1整数計画法と呼ぶ。
15.2.3 項目数に関する制約 6 1.総項目数は30 問に固定する(i =1) σ 𝑗=1 90 𝑥𝑗
= 30 になるようなAとbは、 2.幾何および代数の領域からそれぞれ8問以上、確率統計から5問以上の項目を含む (i =2,3,4) 幾何の問題について、制約式は σ 𝑗=1 30 𝑥𝑗 ≥ 8 になる。ここで、幾何の問題は 𝑥1 ~𝑥30 なので、 Aとbは、 となる。同様に、代数と確率統計の問題について、 制約は右のように表現できる。
15.2.4 項目の包含・排除関係 7 項目30,60,90 を同時には含めないという仕様を制約条件として表すと、 𝑥30 + 𝑥60 + 𝑥90
≤ 1 となる。このような制約は、以下のように表現できる。 3.項目30,60,90 は類似した題材を用いた応用問題であるため、同時に同じテストには含めない(i =5) 4. 項目1,2,3 は組み問題であるため、このうちいずれかの項目をテストに含める場合は、残りすべても 必ずテストに含める。(i =6) この仕様を制約条件として表すと、2𝑥1 − 𝑥2 − 𝑥3 = 0 となる。よって、
15.2.5 テスト情報関数に関する制約 8 「一定以上の測定精度」の設定は、目標となるTIF (𝐼(𝜃)) を定めることと同義である。 TIFが、 𝐼 𝜃 =
σ 𝐽=1 𝐽 𝐼𝑗 𝜃 = σ 𝐽=1 𝐽 𝐷2𝑎𝑗 2𝑃𝑗 𝜃 𝑄𝑗 (𝜃) であり、 መ 𝜃 の標準誤差が、 𝑆𝐸 መ 𝜃 𝜃 = 1 𝐼(𝜃) であったことを思い出せば、 あらかじめ標準誤差をどの程度以下に抑えたいか定めることで、TIFを定めることができる。 しかし、実際の項目の性能とテスト仕様の制約から、標準誤差をどこまでも小さくできる訳ではない。 どの程度のTIFなら達成できそうか、項目プールのTIFを描画してあたりを付ける必要がある。 「標準的な θ のレンジ」を、−1 < 𝜃 < 1 として(灰色部分)、 破線で示すようなTIFを想定するとすると、 レンジ内で、 𝐼 ≥ 6 (i.e., SE=0.41) を達成できそうである。 ただし、レンジ境界の2点だけでは、目標TIFの形が定まらないので、 表のように複数の評価点をとる。このようにして定めたTIFに対して、 制約条件は、 5.標準的な θ のレンジにおいて、一定以上の測定精度が保たれている(i =7) 約68%
15.2.5 テスト情報関数に関する制約(続き) 9 目標TIFのM個の評価点について、それぞれ制約条件を設定する。 例えば、𝜃1 = −2 𝑚 = 1
での制約条件は、 5.標準的な θ のレンジにおいて、一定以上の測定精度が保たれている(i =7) 約68% となる。同様に、他の評価点についても以下のように表現できる。
制約条件の指定 10 これですべての制約条件の指定ができた。 制約の総数は11 個(I=11)なので、A はサイズ11 × 90 の行列、 b
は長さ11 のベクトルとなっている。 𝑖 = 1 𝑖 = 2 𝑖 = 3 𝑖 = 4 𝑖 = 5 𝑖 = 6 𝑖 = 7 𝑖 = 8 𝑖 = 9 𝑖 = 10 𝑖 = 11 1 1 1 ⋯ 1 1 ⋯ 1 1 ⋯ 1 1 1 1 ⋯ 1 0 ⋯ 0 0 ⋯ 0 0 0 0 ⋯ 0 1 ⋯ 1 0 ⋯ 0 0 0 0 ⋯ 0 0 ⋯ 0 1 ⋯ 1 0 0 0 ⋯ 1 0 ⋯ 1 0 ⋯ 1 2 −1 −1 ⋯ 0 0 ⋯ 0 0 ⋯ 0 0.12 0.49 ⋯ ⋯ ⋯ 0.05 0.26 1.46 ⋯ ⋯ ⋯ 0.10 0.35 0.39 ⋯ ⋯ ⋯ 0.17 0.24 0.04 ⋯ ⋯ ⋯ 0.20 0.10 0.00 ⋯ ⋯ ⋯ 0.16 × 𝑥1 𝑥2 𝑥3 𝑥4 𝑥5 𝑥6 𝑥7 𝑥8 𝑥9 𝑥10 𝑥11 = ≥ ≥ ≥ ≤ = ≥ ≥ ≥ ≥ ≥ 30 8 8 5 1 0 2.57 6.00 8.43 6.00 2.57 𝐀 𝑥1 𝑥2 𝑥3 … 𝑥30 𝑥31 … 𝑥60 𝑥61 … 𝑥90 𝐱 𝐛 これらの連立方程式を満たす解 (x) は複数存在するため、 目的関数を設定することで、解を1つに絞る。
15.2.6 目的関数 11 制約条件5では、TIFの下限値を設定した一方で、上限値は定めていなかった。 今回は、制約条件を満たす解の中で、TIFができるだけ小さい(目標値に近い)ことを 目指し、目的関数として設定する。 2PLM の場合は、項目 j の情報関数
𝐼𝑗 (𝜃) の下側の面積𝐴𝑗 は識別力 𝛼𝑗 に一致することが知られている(Lord & Novick, 1968, p. 461)。 TIFはIIFの和であることから、TIF最小化は、 arg min 𝑗=1 90 𝛼𝑗 𝑥𝑗 と表現できる。 こうすれば、解が1つに定まる。
15.3 R による自動テスト構成 12 ベクトルb のタイプ表記 𝑖 = 1 𝑖
= 2 𝑖 = 3 𝑖 = 4 𝑖 = 5 𝑖 = 6 𝑖 = 7 𝑖 = 8 𝑖 = 9 𝑖 = 10 𝑖 = 11 1 1 1 ⋯ 1 1 ⋯ 1 1 ⋯ 1 1 1 1 ⋯ 1 0 ⋯ 0 0 ⋯ 0 0 0 0 ⋯ 0 1 ⋯ 1 0 ⋯ 0 0 0 0 ⋯ 0 0 ⋯ 0 1 ⋯ 1 0 0 0 ⋯ 1 0 ⋯ 1 0 ⋯ 1 2 −1 −1 ⋯ 0 0 ⋯ 0 0 ⋯ 0 0.12 0.49 ⋯ ⋯ ⋯ 0.05 0.26 1.46 ⋯ ⋯ ⋯ 0.10 0.35 0.39 ⋯ ⋯ ⋯ 0.17 0.24 0.04 ⋯ ⋯ ⋯ 0.20 0.10 0.00 ⋯ ⋯ ⋯ 0.16 × 𝑥1 𝑥2 𝑥3 𝑥4 𝑥5 𝑥6 𝑥7 𝑥8 𝑥9 𝑥10 𝑥11 = ≥ ≥ ≥ ≤ = ≥ ≥ ≥ ≥ ≥ 30 8 8 5 1 0 2.57 6.00 8.43 6.00 2.57 𝐀 𝑥1 𝑥2 𝑥3 … 𝑥30 𝑥31 … 𝑥60 𝑥61 … 𝑥90 𝐱 𝐛
コンピュータ適応型テスト(補足) 13 ⚫ 受験者の回答パターンに応じて困難度の異なるアイテムを選んで 出題することにより、効率的に測定を行いたい →コンピュータ適応型テスト(computer adaptive test) ⚫ 前の問題の正誤に合わせて、より最適な困難度の問題を出せば、
能力値θの推定の誤差を効率的に小さくできる ⚫ 事前に設定した標準誤差を下回ったら、回答を終了する ⚫ mirtCATパッケージを使って実装してみよう
14 今日で青本終了! お疲れ様でした!!