Upgrade to Pro — share decks privately, control downloads, hide ads and more …

論文紹介 : Multi objective optimization of item selection in computerized adaptive testing

yusumi
July 25, 2022

論文紹介 : Multi objective optimization of item selection in computerized adaptive testing

Dena F. Mujtaba and Nihar R. Mahapatra. 2021. Multi-objective optimization of item selection in computerized adaptive testing. In Proceedings of the Genetic and Evolutionary Computation Conference (GECCO '21). Association for Computing Machinery, New York, NY, USA, 1018–1026. https://doi.org/10.1145/3449639.3459334

yusumi

July 25, 2022
Tweet

More Decks by yusumi

Other Decks in Research

Transcript

  1. コンピュータ上で実施されるテスト GECCO 2021 2 ◼ 近年コンピュータを使ったオンラインテストが増えている TOEFL-iBT : 英語 4

    技能テスト CASEC : 日本語母語話者向け英語テスト SPI2 : 就職採用テスト J-CAT : 非日本語母語話者向け日本語テスト GMAT : MBA 受験用の標準試験
  2. コンピュータテストは大きく 2 種類存在 GECCO 2021 3 CBT (Computer Based Testing)

    方式 ◼ コンピュータ上で受験、採点、合否通知を一貫して行う ◼ 受験者は全員同じ問題を解答 CTA (Computer Adaptive Testing) 方式 ◼ コンピュータ上で受験、採点、合否通知を一貫して行う ◼ 受験者の理解度に応じて個別に問題の難易度、出題数を調整
  3. 本論文の目的 GECCO 2021 4 CTA (Computer Adaptive Testing) 方式 ◼

    コンピュータ上で受験、採点、合否通知を一貫して行う ◼ 受験者の理解度に応じて個別に問題の難易度、出題数を調整 本論文では進化計算を用いて CTA の出題方式を最適化する
  4. CTA における個人の能力の推定 GECCO 2021 5 ◼ 個人の潜在能力 𝜃 の推定過程 ①

    Item pool setup テスト問題の 集合を用意 ② Select best Item ユーザに提示する 問題を 1 つ選択 ③ Scoring model ユーザの解答に 応じて能力 𝜃 を更新 ④ Estimate ෠ 𝜃 能力の推定 結果を出力 終了条件を満たすまで繰り返す
  5. ユーザに提示する問題の選択手法 GECCO 2021 6 ◼ 潜在特性値 𝜃 のユーザがテスト問題を 𝑢 と解答する確率を次式で定義

    記号の定義 ➢ 潜在特性値 𝜃 : ユーザの能力を表す観測されない潜在変数 ➢ 項目パラメータ 𝜼 : 問題の難易度を特徴付けるパラメータ P 𝑈 = 𝑢 𝜃) = 𝑓(𝜃, 𝜼, 𝑢) 確率 P は関数 𝑓 によって決定され、値が高い問題をユーザに提示する ※ 𝜃, 𝜼 は項目反応理論 (Item Response Theory, IRT) から推定される
  6. 項目反応理論 GECCO 2021 7 選択肢が 2 値のテスト問題におけるユーザの解答結果から、 ユーザの潜在特性値と項目パラメータを推定する統計モデル P 𝑈𝑖𝑗

    = 1 𝜃𝑗 , 𝑏𝑖 , 𝑎𝑖 ) = 1 1 + 𝑒−𝑎𝑖(𝜃𝑗−𝑏𝑖) ◼ 関数 𝑓 に項目特性曲線 (ICC) を適用 ➢ 2 PL (2-Parameter-Logistic model) ◼ 問題 𝑖, ユーザ 𝑗 に関する記号の定義 ➢ 𝑈𝑖𝑗 : ユーザの解答 (𝑈𝑖𝑗 = 1 は正解) ➢ 𝜃𝑗 : ユーザの潜在特性値 (潜在能力) ➢ 𝑏𝑖 : 2 PL の項目困難度 (項目パラメータ) ➢ 𝑎𝑖 : 2 PL の項目識別力 (項目パラメータ)
  7. 能力の高いユーザほど 問題の正答確率が増加 項目特性曲線の解釈 GECCO 2021 8 𝜃 が大きい 𝜃 が小さい

    ⇔ 能力が低い ⇔ 能力が高い 能力が高いユーザの方が 問題 3 の正答確率が高い 能力が低いユーザの方が 問題 1 の正答確率が高い 正答確率 潜在特性値 𝜃 各項目は各問題に対応 𝑏𝑖 は曲線の立ち上がりを制御 𝑎𝑖 は 曲線の傾きを制御
  8. 潜在特性値の推定 GECCO 2021 9 ෡ 𝜃𝑗 EAP ≡ 𝐸 𝜃𝑗

    𝑼𝑘−1 ) = ׬ 𝜃𝑗 𝜋 𝜃𝑗 𝐿 𝜃𝑗 𝑼𝑘−1 )𝑑𝜃𝑗 ׬ 𝜋 𝜃𝑗 𝐿 𝜃𝑗 𝑼𝑘−1 )𝑑𝜃𝑗 ◼ 潜在特性値 𝜃𝑗 は問題に解答する度に推定される 𝑘 − 1 問目まで解答した時の期待事後推定量 (Expected A Posterior : EAP) による更新 ここで 𝜋 𝜃𝑗 ~ 𝑁(𝜇𝜃𝑗 , 1 𝜏𝜃𝑗 ) は 𝜃𝑗 の事前分布、𝐿 𝜃𝑗 𝑼𝑘−1,𝑗 ) は尤度を表す ※ 𝜇𝜃𝑗 , 1 𝜏𝜃𝑗 は解答データから得られる平均と精度 𝐿 𝜃𝑗 𝑼𝑘−1,𝑗 = 𝒖𝑗 ) = ෑ 𝑖=1 𝑘−1 P(𝜃𝑗 , 𝑏𝑖 , 𝑎𝑖 )𝑢𝑖𝑗{1 − P 𝜃𝑗 , 𝑏𝑖 , 𝑎𝑖 }1−𝑢𝑖𝑗 (𝑏𝑖 , 𝑎𝑖 は既知とする)
  9. 出題する問題数を多目的 GA で最適化 GECCO 2021 11 CTA (Computer Adaptive Testing)

    方式 ◼ コンピュータ上で受験、採点、合否通知を一貫して行う ◼ 受験者の理解度に応じて個別に問題の難易度、出題数を調整 CTA では「少ない問題数」で「個人の能力を精度良く推定」したい 両者はトレードオフの関係 多目的 GA (Multi-objective optimization) による最適化を検討
  10. トレードオフの関係にある2 つの目的関数 GECCO 2021 12 目的関数 ①: 出題数を制御する関数 𝑓1 の定義

    𝑓1 𝒙 = ෍ 𝑖=1 𝑁 𝑥𝑖 問題 𝑖 (𝑖 = 1, … , 𝑁) を出題するか否かを表す 2 値変数 𝑥𝑖 ∈ {0, 1} (1 なら出題) を利用 目的関数 ②: 潜在特性値 𝜃𝑗 の確信度を制御する関数 𝑓2 の定義 (SEM) 𝑓2 𝜃𝑗 , 𝒙 = 1 σ 𝑖=1 𝑁 𝐼𝑖 (𝜃𝑗 , 𝑏𝑖 , 𝑎𝑖 ) 𝑥𝑖 𝐼𝑖 (𝜃𝑗 , 𝑏𝑖 , 𝑎𝑖 ) は最尤推定量の漸近分散の 逆数であるフィッシャー情報量 ※ 項目反応理論におけるフィッシャー情報量 𝐼𝑖 𝜃𝑗 , 𝑏𝑖 , 𝑎𝑖 = 𝑎𝑖 2P(𝜃𝑗 , 𝑏𝑖 , 𝑎𝑖 ){1 − P 𝜃𝑗 , 𝑏𝑖 , 𝑎𝑖 }
  11. 最適化問題 GECCO 2021 13 ◼ CTA の各ステップで目的関数 ①、② を同時に最小化 min

    𝑖=1,…,𝑁 𝑓1 𝒙 , 𝑓2 𝜃𝑗 , 𝒙 subject to − ෍ 𝑖=1 𝑁 𝑥𝑖 + 2 ≤ 0 . 出題数は最低 2 以上とする 最適化アルゴリズム : NSGA-Ⅱ ➢ 得られたパレート最適解集合から 1 つ個体を選択し、 𝑥𝑖 = 1 の問題を出題 ➢ 出題された問題は変数から取り除き、次のステップへ更新
  12. 実験者による意思決定 GECCO 2021 14 ◼ 各個体 𝒙 の目的関数値別に重みを得ることが可能 𝑤𝑖 =

    (𝑓𝑖 max − 𝑓𝑖 (𝒙))/(𝑓𝑖 max − 𝑓𝑖 min) σ 𝑚=1 𝑀 (𝑓𝑚 max − 𝑓𝑚 (𝒙))/(𝑓𝑚 max − 𝑓𝑚 min) ◼ 𝑖 番目の目的関数 𝑓𝑖 に関する記号の定義 ➢ 添字 max : 得られた個体の中での最大値 ➢ 添字 min : 得られた個体の中での最小値 Pseudo-Weight
  13. 実験 1 | Pseudo-Weight GECCO 2021 15 ◼ 5 つのデータセットで実験

    (交差率 100 %、突然変異率 5 %) Pseudo-Weight の値と目的関数値の関係
  14. 実験 2 | パレートフロント GECCO 2021 16 ◼ 最終世代のパレートフロント ➢

    赤色の点 : Pseudo-Weight 𝑊1 , 𝑊2 , 𝑊3 の関数に対応 ➢ 緑色の点 : 目的関数別の最大値
  15. 実験 3 | 3 つのPseudo-Weight 別の RMSE による評価 GECCO 2021

    17 RMSE = σ 𝑖=1 𝑁 𝜃 − ෡ 𝜃𝑖 𝑁 ユーザが全ての問題に解答した 時の潜在特性値 𝜃 を真値とする
  16. まとめ GECCO 2021 19 ◼ CTA のトレードオフに多目的 GA を適用した応用研究 ◼

    個人の潜在特性値を項目反応理論から推定 ◼ 質問数の削減において一部のデータで有効性を確認