Upgrade to Pro — share decks privately, control downloads, hide ads and more …

AI活用_20250609_ Nakanishi Printing Company, Ltd.

Avatar for XSPA XSPA
June 15, 2025

AI活用_20250609_ Nakanishi Printing Company, Ltd.

学術情報XML推進協議会(XSPA)「JATSがわかる」出版記念全文XML実践Hybridセミナー
日付: 2025年6月9日 (月曜日)
場所: JST東京本部-別館(K’s五番町) 2階セミナー室

Avatar for XSPA

XSPA

June 15, 2025
Tweet

More Decks by XSPA

Other Decks in Business

Transcript

  1. AIとは? • 人間の「知能」が行っていたことを、計算機に行わせる技術の総称。 • 例)将棋ソフトの対戦相手、和英自動翻訳、(最近は)生成AI。 AI = 人工知能(Artificial Intelligence) •

    AIの一種。訓練データからの学習により、人工知能的処理を実行する コンピュータアルゴリズムと、その研究領域のこと。 • 訓練データ = 過去の実績値などのデータ。 機械学習
  2. 翻訳系 Copilotのできることの例 情報抽出系 要約 • 以下のメールのやり取 りで決まったことを完 結に教えて • 以下の文字起こしを議

    事録にまとめて エンティティ分析 • このやり取りの場所/ 人物/組織名を抽出し て 編集校正系 校正 • 誤字/脱字/タイプミ スを教えて 翻訳 • このテキストを英語に 翻訳して • このテキストを和訳し て キーフレーズ抽出 • この文章の重要なフ レーズを抽出して • この文書の書誌情報か ら著者名を抽出して 編集 • このテキストの改善点 を提案して • よりフォーマルな文章 に言い換えて 対話系 思考の壁打ち • こう思うんだけど、ど うかな? • この思考で抜けている 点を指摘して メンタルケア • 愚痴聞いて • 〇〇なんてことがあっ たんだけどクソだよね 生成系 コード作成 • 〇〇を変換するプログ ラムを作成して。 • 以下の情報を含めた WEBサイトのHTMLを 作って アイデア創出 • 先生に値上げを承諾さ せる具体的なアイデア を提案して • ミスの言い訳を考えて 検索系 情報検索 • 〇〇について教えて • 〇〇について検索した 結果をまとめて教えて Copilot推奨 おそらくCopilot以外OK ※あくまで目安
  3. 翻訳系 Copilotのできることの例 情報抽出系 要約 • 以下のメールのやり取 りで決まったことを完 結に教えて • 以下の文字起こしを議

    事録にまとめて エンティティ分析 • このやり取りの場所/ 人物/組織名を抽出し て 編集校正系 校正 • 誤字/脱字/タイプミ スを教えて 翻訳 • このテキストを英語に 翻訳して • このテキストを和訳し て キーフレーズ抽出 • この文章の重要なフ レーズを抽出して • この文書の書誌情報か ら著者名を抽出して 編集 • このテキストの改善点 を提案して • よりフォーマルな文章 に言い換えて 対話系 思考の壁打ち • こう思うんだけど、ど うかな? • この思考で抜けている 点を指摘して メンタルケア • 愚痴聞いて • 〇〇なんてことがあっ たんだけどクソだよね 生成系 コード作成 • 〇〇を変換するプログ ラムを作成して。 • 以下の情報を含めた WEBサイトのHTMLを 作って アイデア創出 • 先生に値上げを承諾さ せる具体的なアイデア を提案して • ミスの言い訳を考えて 検索系 情報検索 • 〇〇について教えて • 〇〇について検索した 結果をまとめて教えて Copilot推奨 おそらくCopilot以外OK ※あくまで目安 XML化の処理と同一では?
  4. 生成AIを用いたタグ付け自動化 生成AIシステムへの 入力は日本語。 生成AIシステムは与 えられた日本語の 「意味」を理解する。 テキストの意味に応 じたタグ付けの自動 化の可能性! 入力「こんにちは。お元気ですか?」

    ↓ 「こんにちは!元気ですよ。あなた はどうですか?」 入力「以下の引用文献テキストをJATS XML形式にタグ付けしてください」 ↓ 「〇〇〇〇〇!」
  5. 結果 ※実物データから雑誌名・著者名などは仮に差し替え 与えられた入力データ •中西明日輝・山本剛・山本久生・亀井賢二・楠健一(2012)中西印刷学会報告 58: 15-36. AI変換プログラムの出力 •<ref id=“B3” xml:lang=“ja”>

    <mixed-citation publication-type=“journal” publication-format=“print”> <person-group person-group-type=“author”> <string-name name-style=“eastern”><surname>中西</surname> <given-names>明日輝</given-names></string-name>・ <string-name name-style=“eastern”><surname>山本</surname> <given-names>剛</given-names></string-name>・ <string-name name-style=“eastern”><surname>山本</surname> <given-names>久生</given-names></string-name>・ <string-name name-style=“eastern”><surname>亀井</surname> <given-names>賢二</given-names></string-name>・ <string-name name-style=“eastern”><surname>楠</surname> <given-names>健一</given-names></string-name> </person-group> (<year>2012</year>)<source>中西印刷学会報告</source> <volume>58</volume>: <fpage>15</fpage>–<lpage>36</lpage>. </mixed-citation> </ref>
  6. 生成AIの(現状の)問題点 長文の一発変換は困難 • AIは入力テキストを全て計算変数に入れて出力を生成する。 • つまり、入力テキストが長ければ長いほど計算量が激増する=非現実的 • AIモデルが許容する入力テキスト長は思ったより短い 出力の正確性に欠ける •

    生成AIの出力には誤りが含まれる。精度が上がっても「万が一」は排除できない。 • XML構造そのものを把握しているわけでもないので、XMLとして不適切なこともある。 • 総体として「それっぽい」ものが出来てしまう。逆に問題
  7. 生成AIの(現状の)問題点 常に一定の出力が得られるわけではない • 生成AI以外のアルゴリズムとの最大の差異 • 同じプロンプトと入力でも、場合によって出力結果が異なる。 • チェックの手間は処理ごと発生。チェックをするのは誰? 入力データは外部に送信される •

    現状、ローカルLLMの処理能力は限定的。処理はクラウドで実施 • 生成AIの著名クラウド企業はほぼ外国企業。特に北米と中国。 • 「入力データの不正使用はしない」規約をどの程度信用できるか。論文は時に戦略的情報