Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
Chap.15 自動テスト構成(Rによる項目反応理論)
Search
Daiki Nakamura
January 21, 2022
Education
0
280
Chap.15 自動テスト構成(Rによる項目反応理論)
加藤ら(2014)「Rによる項目反応理論」の第15章に関する発表と補足です。
Daiki Nakamura
January 21, 2022
Tweet
Share
More Decks by Daiki Nakamura
See All by Daiki Nakamura
諸外国の理科カリキュラムにおけるビッグアイデアの構造比較
arumakan
0
330
国際調査ROSESの標本調査設計および調査実施の工夫
arumakan
0
19
適切な回帰推定量の使用が学力調査の推定精度を向上させる効果の検討
arumakan
0
49
Developing a Diverse Interests Scale for STEM Learners: Based on the ROSES Survey in Japan
arumakan
0
39
条件制御能力を測定するコンピュータ適応型テストの開発
arumakan
0
230
科学教育の読書会を中心とした新しい研究活動の展開
arumakan
0
210
The Value of Science Education in an Age of Misinformation
arumakan
1
290
教育研究における研究倫理問題の論点整理
arumakan
0
610
TIMSS 2019 環境認識尺度に関する日本人学習者の特徴
arumakan
0
390
Other Decks in Education
See All in Education
人になにかを教えるときに考えていること(2025-05版 / VRC-LT #18)
sksat
4
1k
モンテカルロ法(3) 発展的アルゴリズム / Simulation 04
kaityo256
PRO
7
1.3k
小さなチャレンジが生んだチームの大きな変化 -私のふりかえり探求の原点
callas1900
0
550
バックオフィス組織にも「チームトポロジー」の考えが使えるかもしれない!!
masakiokuda
0
110
GitHubとAzureを使って開発者になろう
ymd65536
1
120
IMU-00 Pi
kanaya
0
370
Visualisation Techniques - Lecture 8 - Information Visualisation (4019538FNR)
signer
PRO
0
2.4k
プレゼンテーション実践
takenawa
0
6.8k
計算情報学研究室 (数理情報学第7研究室)紹介スライド (2025)
tomonatu8
0
540
OJTに夢を見すぎていませんか? ロールプレイ研修の試行錯誤/tryanderror-in-roleplaying-training
takipone
1
160
SkimaTalk Tutorial for Students
skimatalk
0
1.8k
自己紹介 / who-am-i
yasulab
PRO
3
5.2k
Featured
See All Featured
Building Flexible Design Systems
yeseniaperezcruz
328
39k
RailsConf & Balkan Ruby 2019: The Past, Present, and Future of Rails at GitHub
eileencodes
138
34k
Producing Creativity
orderedlist
PRO
346
40k
Distributed Sagas: A Protocol for Coordinating Microservices
caitiem20
331
22k
Java REST API Framework Comparison - PWX 2021
mraible
31
8.7k
Dealing with People You Can't Stand - Big Design 2015
cassininazir
367
26k
Creating an realtime collaboration tool: Agile Flush - .NET Oxford
marcduiker
30
2.1k
The Psychology of Web Performance [Beyond Tellerrand 2023]
tammyeverts
48
2.9k
Visualizing Your Data: Incorporating Mongo into Loggly Infrastructure
mongodb
46
9.6k
Scaling GitHub
holman
460
140k
Docker and Python
trallard
44
3.5k
Designing for humans not robots
tammielis
253
25k
Transcript
第15章 自動テスト構成 (pp. 344-370) 2022年1月21日 IRT-club 担当:中村 大輝(広島大学大学院)
第15章の見通し 2 ⚫ 等化された項目プールの中から、テストを構成する問題を どのように選ぶのが良いか? ⚫ 数値計算によって最適な項目を選ぶ作業を自動化したい →自動テスト構成(automatic test assembly)
⚫ 受験者の回答パターンに応じて困難度の異なるアイテムを 選んで出題することにより、効率的に測定を行いたい →コンピュータ適応型テスト(computer adaptive test) ◼ 本章で使用する記号 識別力 α,困難度 β,当て推量 γ
15.1 自動テスト構成の概略 3 自動テスト構成は、主に2つのステップからなる。 ①テスト仕様の決定 • テスト仕様の分類と例 ②テスト仕様のモデル化 • テスト仕様を線形計画問題として表現し、数値的最適化によってテスト構成を決定する。
• テスト仕様は、制約条件と目的関数のいずれかとして数式で表現される。 タイプ レベル テストセット テスト 項目セット 刺激 項目 質的 多肢選択は10問 以下 領域の範囲 教示文の内容 量的 作成するフォーム の数 回答時間60分 一定以上の精度 領域の数 教示文の長さ 項目の文章量 論理的 領域間の包含関係 項目Aを必ず含め る
15.2.1 数学テストの構成例 4 数学に関する90項目の項目プールがあるとする(表15.2)。 これらの項目は、2PLMで共通尺度上に等化されている。 この項目プールから、以下の仕様を満たすテストフォームを1つ作成したい 1. 総項目数は30 問に固定する。 2.
幾何および代数の領域からそれぞれ8問以上、確率統計から5問以上の項目を含む。 3. 項目30,60,90 は類似した題材を用いた応用問題であるため同時に同じテストには含めない。 4. 項目1,2,3 は組み問題であるため、このうちいずれかの項目をテストに含める場合は、残り すべても必ずテストに含める。 5. 標準的な θ のレンジにおいて一定以上の測定精度が保たれている。
15.2.2 線形計画法とは 5 ◆ 定義 Ax = b, x ≧
0 という制約条件のもとで、目的関数 cT x の値を最小にするような x の値を求める。 ⚫ 制約条件 = arg min T ⚫ 目的関数 項目 j がテストに含まれる場合は 𝑥𝑗 = 1, そうでなければ 𝑥𝑗 = 0。 最終的に計算によって求められる。 仕様 i によって決定され る項目 j に関する要素𝑎𝑖𝑗 1. 総項目数は30 問 2. 幾何および代数の領域から各8 問以上、確率統計から5 問以上 3. 項目30,60,90 は同時に含めない 4. 項目1,2,3 のいずれかを含める場合は、残りも含める 5. TIFの下限値 仕様 i によって 決定される要素 𝑏𝑖 最も小さいTIF 今回の文脈では、項目j の識別力。 ※決定変数 x の各要素が整数値しか取らないもの を整数計画法、さらに 0or1 の二値しか取らない ものを0-1整数計画法と呼ぶ。
15.2.3 項目数に関する制約 6 1.総項目数は30 問に固定する(i =1) σ 𝑗=1 90 𝑥𝑗
= 30 になるようなAとbは、 2.幾何および代数の領域からそれぞれ8問以上、確率統計から5問以上の項目を含む (i =2,3,4) 幾何の問題について、制約式は σ 𝑗=1 30 𝑥𝑗 ≥ 8 になる。ここで、幾何の問題は 𝑥1 ~𝑥30 なので、 Aとbは、 となる。同様に、代数と確率統計の問題について、 制約は右のように表現できる。
15.2.4 項目の包含・排除関係 7 項目30,60,90 を同時には含めないという仕様を制約条件として表すと、 𝑥30 + 𝑥60 + 𝑥90
≤ 1 となる。このような制約は、以下のように表現できる。 3.項目30,60,90 は類似した題材を用いた応用問題であるため、同時に同じテストには含めない(i =5) 4. 項目1,2,3 は組み問題であるため、このうちいずれかの項目をテストに含める場合は、残りすべても 必ずテストに含める。(i =6) この仕様を制約条件として表すと、2𝑥1 − 𝑥2 − 𝑥3 = 0 となる。よって、
15.2.5 テスト情報関数に関する制約 8 「一定以上の測定精度」の設定は、目標となるTIF (𝐼(𝜃)) を定めることと同義である。 TIFが、 𝐼 𝜃 =
σ 𝐽=1 𝐽 𝐼𝑗 𝜃 = σ 𝐽=1 𝐽 𝐷2𝑎𝑗 2𝑃𝑗 𝜃 𝑄𝑗 (𝜃) であり、 መ 𝜃 の標準誤差が、 𝑆𝐸 መ 𝜃 𝜃 = 1 𝐼(𝜃) であったことを思い出せば、 あらかじめ標準誤差をどの程度以下に抑えたいか定めることで、TIFを定めることができる。 しかし、実際の項目の性能とテスト仕様の制約から、標準誤差をどこまでも小さくできる訳ではない。 どの程度のTIFなら達成できそうか、項目プールのTIFを描画してあたりを付ける必要がある。 「標準的な θ のレンジ」を、−1 < 𝜃 < 1 として(灰色部分)、 破線で示すようなTIFを想定するとすると、 レンジ内で、 𝐼 ≥ 6 (i.e., SE=0.41) を達成できそうである。 ただし、レンジ境界の2点だけでは、目標TIFの形が定まらないので、 表のように複数の評価点をとる。このようにして定めたTIFに対して、 制約条件は、 5.標準的な θ のレンジにおいて、一定以上の測定精度が保たれている(i =7) 約68%
15.2.5 テスト情報関数に関する制約(続き) 9 目標TIFのM個の評価点について、それぞれ制約条件を設定する。 例えば、𝜃1 = −2 𝑚 = 1
での制約条件は、 5.標準的な θ のレンジにおいて、一定以上の測定精度が保たれている(i =7) 約68% となる。同様に、他の評価点についても以下のように表現できる。
制約条件の指定 10 これですべての制約条件の指定ができた。 制約の総数は11 個(I=11)なので、A はサイズ11 × 90 の行列、 b
は長さ11 のベクトルとなっている。 𝑖 = 1 𝑖 = 2 𝑖 = 3 𝑖 = 4 𝑖 = 5 𝑖 = 6 𝑖 = 7 𝑖 = 8 𝑖 = 9 𝑖 = 10 𝑖 = 11 1 1 1 ⋯ 1 1 ⋯ 1 1 ⋯ 1 1 1 1 ⋯ 1 0 ⋯ 0 0 ⋯ 0 0 0 0 ⋯ 0 1 ⋯ 1 0 ⋯ 0 0 0 0 ⋯ 0 0 ⋯ 0 1 ⋯ 1 0 0 0 ⋯ 1 0 ⋯ 1 0 ⋯ 1 2 −1 −1 ⋯ 0 0 ⋯ 0 0 ⋯ 0 0.12 0.49 ⋯ ⋯ ⋯ 0.05 0.26 1.46 ⋯ ⋯ ⋯ 0.10 0.35 0.39 ⋯ ⋯ ⋯ 0.17 0.24 0.04 ⋯ ⋯ ⋯ 0.20 0.10 0.00 ⋯ ⋯ ⋯ 0.16 × 𝑥1 𝑥2 𝑥3 𝑥4 𝑥5 𝑥6 𝑥7 𝑥8 𝑥9 𝑥10 𝑥11 = ≥ ≥ ≥ ≤ = ≥ ≥ ≥ ≥ ≥ 30 8 8 5 1 0 2.57 6.00 8.43 6.00 2.57 𝐀 𝑥1 𝑥2 𝑥3 … 𝑥30 𝑥31 … 𝑥60 𝑥61 … 𝑥90 𝐱 𝐛 これらの連立方程式を満たす解 (x) は複数存在するため、 目的関数を設定することで、解を1つに絞る。
15.2.6 目的関数 11 制約条件5では、TIFの下限値を設定した一方で、上限値は定めていなかった。 今回は、制約条件を満たす解の中で、TIFができるだけ小さい(目標値に近い)ことを 目指し、目的関数として設定する。 2PLM の場合は、項目 j の情報関数
𝐼𝑗 (𝜃) の下側の面積𝐴𝑗 は識別力 𝛼𝑗 に一致することが知られている(Lord & Novick, 1968, p. 461)。 TIFはIIFの和であることから、TIF最小化は、 arg min 𝑗=1 90 𝛼𝑗 𝑥𝑗 と表現できる。 こうすれば、解が1つに定まる。
15.3 R による自動テスト構成 12 ベクトルb のタイプ表記 𝑖 = 1 𝑖
= 2 𝑖 = 3 𝑖 = 4 𝑖 = 5 𝑖 = 6 𝑖 = 7 𝑖 = 8 𝑖 = 9 𝑖 = 10 𝑖 = 11 1 1 1 ⋯ 1 1 ⋯ 1 1 ⋯ 1 1 1 1 ⋯ 1 0 ⋯ 0 0 ⋯ 0 0 0 0 ⋯ 0 1 ⋯ 1 0 ⋯ 0 0 0 0 ⋯ 0 0 ⋯ 0 1 ⋯ 1 0 0 0 ⋯ 1 0 ⋯ 1 0 ⋯ 1 2 −1 −1 ⋯ 0 0 ⋯ 0 0 ⋯ 0 0.12 0.49 ⋯ ⋯ ⋯ 0.05 0.26 1.46 ⋯ ⋯ ⋯ 0.10 0.35 0.39 ⋯ ⋯ ⋯ 0.17 0.24 0.04 ⋯ ⋯ ⋯ 0.20 0.10 0.00 ⋯ ⋯ ⋯ 0.16 × 𝑥1 𝑥2 𝑥3 𝑥4 𝑥5 𝑥6 𝑥7 𝑥8 𝑥9 𝑥10 𝑥11 = ≥ ≥ ≥ ≤ = ≥ ≥ ≥ ≥ ≥ 30 8 8 5 1 0 2.57 6.00 8.43 6.00 2.57 𝐀 𝑥1 𝑥2 𝑥3 … 𝑥30 𝑥31 … 𝑥60 𝑥61 … 𝑥90 𝐱 𝐛
コンピュータ適応型テスト(補足) 13 ⚫ 受験者の回答パターンに応じて困難度の異なるアイテムを選んで 出題することにより、効率的に測定を行いたい →コンピュータ適応型テスト(computer adaptive test) ⚫ 前の問題の正誤に合わせて、より最適な困難度の問題を出せば、
能力値θの推定の誤差を効率的に小さくできる ⚫ 事前に設定した標準誤差を下回ったら、回答を終了する ⚫ mirtCATパッケージを使って実装してみよう
14 今日で青本終了! お疲れ様でした!!