Slide 1

Slide 1 text

nhayato 2026-04-18 【第06回】Funabashi.dev 2026年共テ現代文を解く 言葉を操る力は LLMで測れるのか? 1

Slide 2

Slide 2 text

2 ヨヨイ(nhayato) 民泊・ホテルの会社で働くWebエンジニア 最近のホットな出来事 「情シスSlackに入った」 「食品衛生責任者を取ることにした」 自己紹介

Slide 3

Slide 3 text

3 ● Claude Codeを利用しコードを書かせていて、そこまで違和感ない ● 一方、日本語の出力については、まだまだ...と感じている ○ 全体の流れは悪くない(むしろかなり丁寧) ○ しかし全体的に薄っぺらい ■ 濃淡がない感じ。読んでて「で、なに?」となる ● たぶん... ○ 与えている指示(プロンプト)の問題 ○ 人間の 言葉を操る力 が関係しているのでは......? 最近感じている課題意識

Slide 4

Slide 4 text

4 ● 今、私が作った力 ではありますが...... ● 本当は「国語力」と言いたいが、私はこの分野に明るくないため、迂闊に 専門用語を使いたくない ○ 文部科学省が「国語力」についてのページを公開していますね ● 日本語の運用能力の測定方法って、何があるのか? ○ 英語は、TOEIC L&Rがよく使われています ○ 日本語能力試験は、日本語学習者向けの試験ですし...... 言葉を操る力 とは何か?

Slide 5

Slide 5 text

5 大学入試で使われる「共通テスト(共テ)」の現代文の問題を題材に、 言葉を操る力の計測方法に迫りたい なぜ共テ現代文? - 私が最後に受けた現代文の試験は、 (同じ大学入試センターが作成した)センター試験であり、 この現代文のテストは多くの人が受けているテストであろう - 高等教育機関である大学入学のための試験なのだから、 ホワイトカラーが持つことが期待されるレベルの言葉を操る力が 測られているだろうと想像 ※情報処理技術者試験は国語の問題とか言われますが、それは別の話 本発表のアプローチ

Slide 6

Slide 6 text

6 正式名称は「大学入学共通テスト」 国立大学一般入試の一次試験として機能しているが、 私立大学でも利用できるため多くの大学受験生が受けているはず。 マークシート式で平均点が6割になるよう設計されてると言われている ざっくり国語・数学・理科・社会・英語・情報の教科から、 受験する大学の指定する科目を選ぶ 「情報」教科の試験が追加されたことが最近話題に 補足)共通テストとは

Slide 7

Slide 7 text

7 立場 - 個別のモデルの性能を評価することには関心がない - LLMを使ったタスクを設計し、実施してみたい - 共通テストの現代文というタスクを味わう 作戦 - ①人間(自分)で解く - ②LLMでも解く 今回の立場と作戦

Slide 8

Slide 8 text

8 - 朝日新聞のWebサイトに今年の問題と解答がPDFで掲載 - 大学入試センターWebサイトは権利処理が終わってないらしい - コンビニでPDFを印刷 - 50枚、500円 - 本来は90分のテストのため、その時間机に向かう - 古文・漢文はすっかり忘れているし、 なんなら現役時代も捨ててた気がするから、受けない (人間の)実験準備と実施

Slide 9

Slide 9 text

9 私が解いた結果 大問 配点 得点 得点率(%) 処理時間(分) 評論 45 41 91.11% 30分 小説 45 38 84.44% 30分 実用文 20 12 60.00% 23分

Slide 10

Slide 10 text

10 センター試験・旧課程時代との差分に戸惑う - 「実用的な文章」なる大問が新設(パニック!) - メタ問題がある - 小説終わった!と思ったら、 その小説を読んだ人の感想文を読む問題が最後に残されてる 自身の能力の変化 - 現代文だけで80分かけてしまった...(古文漢文に時間が...) - 受験生の頃より自信を持って解答できた問題が多かった気がする(能力向上?) 20年ぶりに解いた感想

Slide 11

Slide 11 text

11 「実用的な文章」(第 3問)の驚き 複数の資料(絵本・インタビュー記事等)から、 説明する文章を作成するという問題 - 下書き文章を訂正して、 - 具体的な内容にふくらませる問題(問1) - 冗長な表現を削除させる問題(問2) - 性質の異なる資料の特徴を説明する問題(問3 i) - 今後の調査計画を立てる問題(問3 ii) 「これ、仕事では...?」 矛盾を捕捉し、 妥当な選択肢を選ぶ 旧来の国語の問題からは ジャンプがあると感じた というかこれができる人は LLMうまく使えるので は......?

Slide 12

Slide 12 text

12 2種類の実験を実施、各大問ごと に問題文を入力(つまり3分割) - 実験1: PDF入力 + 依頼プロンプト - 実験2: Markdown + 依頼プロンプト 使ったモデル(すべてブラウザから利用) - ChatGPT 5.4 Thinking - Gemini 3.1 Pro メモリ参照などの機能はOFFにしたが、見落としはあるかも...... LLMに解かせてみる

Slide 13

Slide 13 text

13 LLMに解かせてみる :実験 1 依頼 プロンプト 大問 ブラウザ 入力 目視 確認 問題 PDF 次の問題を解いてください。 - 問題文の指示に従って解答してく ださい - 選択肢の記号で答えてください - 理由を簡潔に説明してください 依頼プロンプト 分割フェーズ 実験フェーズ (3問分実施) 大問 3分割 - ChatGPT 5.4 Thinking - Gemini 3.1 Pro を利用

Slide 14

Slide 14 text

14 LLMに解かせてみる :実験 2 大問 3分割 依頼 プロンプト 大問 ブラウザ 入力 目視 確認 問題 PDF 分割フェーズ 実験フェーズ PDFから TXTへ 人手 誤り 訂正 Markdown 作成フェーズ - ChatGPT 5.4 Thinking - Gemini 3.1 Pro を利用

Slide 15

Slide 15 text

15 LLMの結果 大問 満点 ChatGPT(PDF) ChatGPT(MD) Gemini(PDF) Gemini(MD) 評論 45 22 41 28 45 小説 45 20 38 38 45 実用文 20 6 20 20 20 大問 ChatGPT(PDF)% ChatGPT(MD)% Gemini(PDF)% Gemini(MD)% 評論 48.89% 91.11% 62.22% 100.00% 小説 44.44% 84.44% 84.44% 100.00% 実用文 30.00% 100.00% 100.00% 100.00% 得点 得点割合 処理時間は PDFは5分 MDは3秒で 出力開始

Slide 16

Slide 16 text

16 PDFの処理は(予想に反して)まだうまくできなさそう - 👎大問ごとに5分の処理時間 - Markdown + プロンプトは3秒以内 - 問題用紙は縦書きPDFで、処理に不向き - 処理途中の情報曰く、内部で都度OCRを使ってそう - 問題文の傍線などの読み取りが失敗してそう - Gemini (PDF)は、問1と問3は不明瞭のため省略してきた - 👍回答数の欠損はなく、問題は理解できている 観察(LLM)

Slide 17

Slide 17 text

17 (例)漢字問題の難しさ 令和8年度共通テスト国語本試験 p9 結構ガチャガチャしてる

Slide 18

Slide 18 text

18 漢字: 肩を寄せあうを「軒を寄せ合う」と認識。(評論 問1) 「軒を寄せ合う」の「軒」。3の「堅実」の「堅」と同じ音ではないため注意だが、該当は「軒」で、選 択肢では「ケン」に当たる漢字を含む語としては文脈上これを問う形式で、正しくは 3 の「堅実」 ではなく…となりそうに見えますが、実際には「軒」を含む同音の語群対応から【 1】は 3 です。 Gemini (MD) がミスった問題1

Slide 19

Slide 19 text

19 感情推定:「妥協している」と選ぶべきところを 「恥じている」と選択(小説 問6 ii) 勝呂は、今の安定した生活を正当化しようとした瞬間に、母の死顔を思い出してしまう。その死 顔は、母の生き方や教えに背いている自分への責めとして働き、恥や反省を突きつけるので 「残酷な悪戯」のように感じられるから。 Gemini (MD) がミスった問題2 LifePromptさんの結果でも 同じことが指摘されていて、 人間は恥じる というバイア スが入っていると分析され ている

Slide 20

Slide 20 text

20 LLMを使った処理について - 共テ国語において、PDF丸投げは問題がありそうだし、 タスクを分解して実行するとわかりやすい - 一旦Markdownにしてしまったら、LLMは高得点を取れてしまう - 今回はリソースの制約があったので1回の試行であったが、 何回か回すと良いのではないか? 共通テスト現代文について - ロジックの問題から、情報処理の問題に変化していることを実感 - このテストで高得点が取れる人はLLMもうまく使えるのでは? (=言葉を操る力?) まとめ 詳しい結果は 個別開示 Welcomeです

Slide 21

Slide 21 text

21

Slide 22

Slide 22 text

22 次のPDF内容を、問題を解くための Markdownに変換してください。 要件: - 要約しない - 言い換えない - 問題文・選択肢・注記・見出しを保持する - 問題番号の構造が分かるようにする - 不明瞭な箇所は [判読不明] と明記する - 解答はしない 出力形式: - Markdown - 大問、本文、各設問、選択肢が分かるように整理する OCR実施プロンプト

Slide 23

Slide 23 text

23 Markdown方式では [傍線部]私は寿司が好き[/傍線部] のようにタグを使った マークアップの方法

Slide 24

Slide 24 text

24 GPT、Claude、Geminiに2026年大学入学共通テスト(1日目)を解かせてみた - https://zenn.dev/suiteck/articles/8ece15355a1077 - アプローチ: OCR文字起こし/画像併用 【満点9科目!】共通テスト2026を最新版AIに解かせてみた (Chatgpt、Gemini、Claude) - https://note.com/lifeprompt/n/nb87edfb2e7ca - アプローチ: 自動受験システム構築 2026共テを解いた先行事例