Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
Admire IRT Model's Fomula
Search
Sponsored
·
Your Podcast. Everywhere. Effortlessly.
Share. Educate. Inspire. Entertain. You do you. We'll handle the rest.
→
tetsuroito
April 19, 2019
Research
1
1k
Admire IRT Model's Fomula
Classiのチームの勉強会で発表した資料です
tetsuroito
April 19, 2019
Tweet
Share
More Decks by tetsuroito
See All by tetsuroito
Data Engineering Study#30 LT資料
tetsuroito
2
1.8k
データエンジニアリングの潮流を俯瞰する
tetsuroito
1
1.9k
Classiが取り組んできた 機械学習の試行錯誤
tetsuroito
0
890
事業会社でのデータマネジメントのプラクティス #TechMar
tetsuroito
1
700
Data Engineering Study #9 Classiのデータ組織の歩み
tetsuroito
5
6.2k
Data Engineering Study #3 基調講演_データ分析基盤の浸透に必要なこと
tetsuroito
4
5.1k
Subscription Meetup Vol.2 Opening Talk Slide
tetsuroito
0
170
Data_Pipeline_Casual_Talk_Vol.4_for_Ready.pdf
tetsuroito
0
1.7k
Data Pipeline Casual Talk Vol.3 for Ready #DPCT
tetsuroito
0
2.1k
Other Decks in Research
See All in Research
第66回コンピュータビジョン勉強会@関東 Epona: Autoregressive Diffusion World Model for Autonomous Driving
kentosasaki
0
510
"主観で終わらせない"定性データ活用 ― プロダクトディスカバリーを加速させるインサイトマネジメント / Utilizing qualitative data that "doesn't end with subjectivity" - Insight management that accelerates product discovery
kaminashi
16
23k
ペットのかわいい瞬間を撮影する オートシャッターAIアプリへの スマートラベリングの適用
mssmkmr
0
410
一般道の交通量減少と速度低下についての全国分析と熊本市におけるケーススタディ(20251122 土木計画学研究発表会)
trafficbrain
0
180
言語モデルから言語について語る際に押さえておきたいこと
eumesy
PRO
5
1.8k
FUSE-RSVLM: Feature Fusion Vision-Language Model for Remote Sensing
satai
3
270
2026 東京科学大 情報通信系 研究室紹介 (大岡山)
icttitech
0
1k
A History of Approximate Nearest Neighbor Search from an Applications Perspective
matsui_528
1
210
AI Agentの精度改善に見るML開発との共通点 / commonalities in accuracy improvements in agentic era
shimacos
6
1.4k
Grounding Text Complexity Control in Defined Linguistic Difficulty [Keynote@*SEM2025]
yukiar
0
140
それ、チームの改善になってますか?ー「チームとは?」から始めた組織の実験ー
hirakawa51
0
980
2026 東京科学大 情報通信系 研究室紹介 (すずかけ台)
icttitech
0
1k
Featured
See All Featured
Bash Introduction
62gerente
615
210k
Why Our Code Smells
bkeepers
PRO
340
58k
State of Search Keynote: SEO is Dead Long Live SEO
ryanjones
0
160
Information Architects: The Missing Link in Design Systems
soysaucechin
0
840
Tips & Tricks on How to Get Your First Job In Tech
honzajavorek
0
470
What's in a price? How to price your products and services
michaelherold
247
13k
Facilitating Awesome Meetings
lara
57
6.8k
Sharpening the Axe: The Primacy of Toolmaking
bcantrill
46
2.7k
DevOps and Value Stream Thinking: Enabling flow, efficiency and business value
helenjbeal
1
150
From Legacy to Launchpad: Building Startup-Ready Communities
dugsong
0
180
Primal Persuasion: How to Engage the Brain for Learning That Lasts
tmiket
0
300
How to Align SEO within the Product Triangle To Get Buy-In & Support - #RIMC
aleyda
1
1.5k
Transcript
IRTの数式を愛でる会 2019/04/19 データAI部 てつろう
はじめに みなさんは「テスト」がなぜあるのか考えたことありますか?
テストが果たす意味 そうです。テストは学習成果を測定したいために実施されます 素点の点数により、習 熟度を評価
• 点数 素点 : あるテストにおける達成度合い • 平均点: あるテストにおける平均水準 • 順位
ランキング : あるテストにおける順位 • 偏差値 :あるテストにおける分布の相対尺度 テストで測定できる指標 偏差値の求め方 素点を に従うように標準化処理をしているだけ!
ちょっとまって テストで測りたいのは学習成果なのに、テストの制約条件が存在
古典的テスト理論(Classical Test Theory)が登場! 古典的テスト理論とは - テストやテストの得点を科学的対象として扱う学問分野 - テストの性質やテストを受けた受験者の状態がわかる テストの標準化
テストの標準化とは - テストの尺度化:テスト品質を評価し能力測定の物差しをつくる - テストの等化:テストの品質を複数のテスト間で統一する
古典的テスト理論(CTT)で抑えておきたいポイント • 各項目の統計学的特徴 • 解答率 • 正答率 • 項目テスト相関
• 項目リメインダ相関 • テスト全体の信頼性係数
項目反応ってなに 項目反応は各テストの回答の有無と正答の有無のこと 人が 項目からなるテストを受けたとき、受験者 が項目 に回答したかを 回答 観測 欠測 :
= また 、受験者 の項目 に対する項目反応を 正答 誤答 : = とする
解答率と正答率 解答率は受験者が提示された項目に解答を起こした割合 項目 の解答率 ≦ ≦ 正答率は項目を提示されたもののうち、正答した率 通過率ともいう 項目 の正答率
≦ ≦
項目テスト相関と項目リメインダ相関 項目テスト相関→項目得点と和得点 のピアソンの積率相関係数 ≦ ≦ 相関係数が に近い → 当該項目で正答した人ほど和得点が高い
相関係数が に近い → 当該項目で正答した人ほど和得点が低い 後者の場合、項目としては不適切であると判断する 項目リメインダ相関は和得点から当該項目を除外した時の相関
信頼性係数 古典的テスト理論における最大の貢献 - テストは再現性が低い - 信頼性係数はテストの再現性を評価する指標 基本的な考え - 観測された得点は真値と誤差に分解できる -
:測定値、 :真値、 :誤差とすると、 - この式の分散は 信頼性係数の定義 全体の得点の分散に占める真値の分散割合
もっともポピュラーな信頼性係数 クロンバックのα係数 基本的な考え - 弱平行測定 項目測定力が等しい仮定 に従っている場合 - 各項目は能力に対して等しく
の測定力を持つとする 定義式
古典的テスト理論での受験者能力の考え方 基本的な考え - 和得点で評価する 弱平行性の仮定があるため - つまり作問が完璧に機能する前提 近年では計算力向上やeテスティング普及等で利用されなくなった この後に継承していくもの
- テストの信頼性の考え方 - テストの品質管理
古典テスト理論を計算してみるの巻 サンプルのテストデータを準備します 人 問題 項目反応データ
古典テスト理論を計算してみるの巻 テストデータだけあってまあまあやん
台頭してくるIRT 項目反応(応答)理論:IRT Item Response Theory
古典的テスト理論の限界と項目反応理論のメリット 古典的テスト理論の限界 - 項目分析、標準化からの知見が被験者の特性の分布に依存してしまう - 項目分析、標準化からの知見がテストそのものに依存してしまう 項目反応理論のメリット - 複数のテスト間の結果の比較が容易
- 測定精度をきめ細かく確認できる - 平均点をテスト実施前に制御できる - テスト得点の対応表が作成できる - 受験者ごとに最適な問題を瞬時に選び、出題できること 受験者集団に依存しない特性θを導入! この能力値パラメータθににより全てが動き出す
古典的テスト理論の限界と項目反応理論のメリット θ:それは奥ゆかしきパラメータ 人の能力を観測することはできないので、潜在因子推定 具体的な関数系を一意にできないため標準正規分布の密度関数の累積分布関数を 利用 * f(θ)はθに関する単調増加関数 これで項目特性曲線 が描ける!
ここから 母数正規累積モデルへ!
母数警察が出動します! ちょっとすみません〜 あなたの使っているその母数正しいものでしょうか? 最近、母集団や分母に対する誤用だ!誤用だ! が多いので、確認ですよ〜 θ:それは奥ゆかしきパラメータ こいつは母数で間違いありません!!
でもね、奥ゆかしさ故に2母数正規累積モデルは計算できないのです θ:それは奥ゆかしきパラメータ 途中計算に積分計算が存在するので、近似解としてロジスティックモデルを利用 ナイスなロジスティック回帰だね〜
では、たくさんのIRTモデルの数式を愛でましょう 母数ロジスティックモデル 母数ロジスティックモデル 母数〃 母数〃 項目 の識別度 項目 の困難度
項目 の当て推量 下方漸近線 上方漸近線
IRTの3PLを計算してみる
IRTのテスト精度の測り方 その前に最尤推定の性質から - 標本分布はnが大きくなるにしたがって正規分布に近づく(漸近正規性) - ヒストグラムの平均がnの増大に伴って限りなく真値(θ_i)に近づく - ヒストグラムの分散はnが大きくなるにしたがって、1/I(θ_i)に近く こいつはフィッシャー情報量 テスト情報量
インバースをとると、誤差分散 IRTの信頼性係数
項目プール(項目バンク) を用いると享受できるメリット - 尺度θが求まり、異なる項目のテスト結果の比較が可能になる - 測定精度が求まるので、受験者のレベルや目的に合わせて設計できる - 任意の集団に対して信頼性係数を推定できる - テスト実施前に予測結果を推定できる
必要な要素 項目プール(項目バンク) 項目母数が推定された項目の集まり - 単一グループ計画:同一の被験者集団で複数の異なるテストを実施 - 等質グループ計画:被験者の特性値の母数分布が近似できる集団で実施 →後者を等化の等質グループ計画という
等化係数法 項目母数の推定値が等しくない複数の被験者集団の特性値の分布が等しくない そんな時、等化係数を推定し、それを利用して項目母数を変換しちゃう方法 添字 のついた母数:等化される尺度 既尺度 添字 のついた母数:等化する尺度 新尺度
等化によるテスト計画のイメージ X Y 項目 受 験 者 共 通
受 験 者 X Y 項目 受 験 者 共通項目 X Y Z Z 項目 受 験 者 共 通 受 験 者 共 通 受 験 者 (係留テスト) 共通項目 共通受験者 共通項目 係留
等化を実際に計算してみる 項目パラメータと能力パラメータデータがそれぞれ下記にあるとした場合 paramF paramT paramtheta
等化を実際に計算してみる の パッケージで計算できます
等化を実際に計算してみる 等化前後のパラメータ比較
さあ、これでキミも新たなニューヒーローだ! 明日からグレイトなテスト計画を立てちゃおうぜ!
Appendix 参考文献 - 項目反応理論[入門編] 豊田秀樹[著] 朝倉書店 - 項目反応理論[事例編] 豊田秀樹[編著] 朝倉書店 - 項目反応理論[中級編] 豊田秀樹[著] 朝倉書店 - 項目反応理論[理論編] 豊田秀樹[編著] 朝倉書店
- 学習評価の新潮流 植野真臣 荘島宏二郎 [著] 朝倉書店 - Rによる項目反応理論 加藤健太郎 山田剛史 川端一光 [共著] オーム社