自社データを生成AIに活用

「ローカル型LLMを使い社内情報を活用する」大野宏

AI研究の取り組み・廃棄物選別ロボットの開発・バラ積み部品のピッキングシステムの開発・金属製品の外観検査の自動化・野菜の形状色彩選別機の開発・ディープラーニングによる金属破断面観察画像の分類・機械学習によるCAE最適設計・機械学習を用いたFT-IRスペクトルデータ解析・機械学習による動画像解析と分類・３Dデータによる類似品検索と見積もりの省力化
・社内情報を活用する生成AIシステムＨ２８年度からAI ・共同研究・受託研究・技術支援・実用研究・講習会の開催Ｒ３年度からＤＸ推進

社内情報を活用する生成AIの開発・R6年度の県内企業との共同研究で実施研究概要：データベースと接続して情報を横断的かつ総合的に把握し、質問に適切に回答できる生成AIを開発します研究項目 ①生成AIに適した情報を統合的に扱うことのできるデータベースの構築 ②大規模言語モデルの活用手法の検討と回答システムの構築 ③構築したシステムの回答精度の検証と改良データベース大規模言語モデル（LLM）ローカル型
管理システムファイルデータ 3 Q＆A 【目的】生産性の向上【効果】技術や技能を言語化し継承に利用

使用した大規模言語モデル・社外秘をクラウドに上げたくないので自前のPCにダウンロードして使えるローカル型モデルを利用ネットを遮断した状態で利用可能・サイバーエージェント、東工大、富岳、SakanaAI等が開発したモデルがあり、回答精度の良いELYZA（東大発ベンチャーでKDDIの子会社）のELYZA3（80億パラメータ）を利用広く浅く良い回答を返す 24GBのGPUが必要モデルが小さいので、取り扱える文字数に制限がある Difyでも使える・経済産業省が支援し開発環境を提供（GENIAC）
4

クラウド型vsローカル型性能年クラウド型ローカル型 ELYZA3-8B ダウンロードして自前のPCで使う情報漏洩の危険がない GPUが必要
・メタが牽引、グーグルもローカル型Gemma3を公開それぞれ長所短所がある Llama-3-ELYZA-JP-8B DeepSeek cyberagent/DeepSeek-R1- Distill-Qwen-32B-Japanese DeepSeek ChatGPT4o

プログラム例 import torch from transformers import AutoModelForCausalLM, AutoTokenizer DEFAULT_SYSTEM_PROMPT =
"あなたは誠実で優秀な日本人のアシスタントです。特に指示が無い場合は、常に日本語で回答してください。" text = "仕事の熱意を取り戻すためのアイデアを5つ挙げてください。" model_name = "elyza/Llama-3-ELYZA-JP-8B" tokenizer = AutoTokenizer.from_pretrained(model_name) model = AutoModelForCausalLM.from_pretrained( model_name, torch_dtype="auto", device_map="auto", ) model.eval() messages = [ {"role": "system", "content": DEFAULT_SYSTEM_PROMPT}, {"role": "user", "content": text}, ] prompt = tokenizer.apply_chat_template( messages, tokenize=False, add_generation_prompt=True ) token_ids = tokenizer.encode( prompt, add_special_tokens=False, return_tensors="pt" ) with torch.no_grad(): output_ids = model.generate( token_ids.to(model.device), max_new_tokens=1200, do_sample=True, temperature=0.6, top_p=0.9, ) output = tokenizer.decode( output_ids.tolist()[0][token_ids.size(1):], skip_special_tokens=True ) print(output) 6 https://huggingface.co/elyza/Llama-3-ELYZA-JP-8B text = "仕事の熱意を取り戻すためのアイデアを5つ挙げてください。"

RAGのしくみ ①質問と関連度の高い文章を検索 ⇒ ②質問と一緒にこれらをLLM渡す ⇒ ③回答を生成 LLM 関連度の高い文章 A
Q 文章ファイル Q 「参照文章の絞り込み」ベクトル検索キーワード検索 LLMは関連度の高い文章を参照して回答を生成データベース

共同研究で取り組んだ内容・①社内規程に答える事務処理方法など会社独自の規程に答えてもらう（回答精度の検証が比較的容易）・②不適合を減らす過去事例を活用し不良品を減らす・③案件に速く適切に対応するため、過去の類似案件を検索する新規見積もり図面ではなく製品の仕様や概要を比較する・ ④PDFの請求書から必要な情報を取り出す転記ミスを防ぐ
8

共同研究で取り組んだ内容の結果・社内規程に答える回答精度は 90% 残り10％は参照文章を利用者が読むことで対応・不適合を減らす注意事項や対策方法を提示してくれるモデル自体の知識が浅く広くなので、深い回答を得るためには別途専門文章の参照が必要・新規見積もり案件に速く適切に対応するため、過去の類似案件を検索する使える情報が不足しており、情報を加味することでより類似度の高い案件が検索可能に
・PDFの請求書から必要な情報を取り出す良い結果が得られた過去の会話履歴やネット検索結果も参照できるようになり、実運用に向けて改良中 9

Vision-Langage-Modelで在庫管理この画像には、合計6本のペットボトルが並んでいることが確認できます。この画像には1つのペットボトルが入っています。

VLMをAI-OCRとして利用・画像を読み込んで文字を抽出する【認識結果】新潟県工業技術総合研究所技術統括センター 025-244-9168 ローカル型VLＭ（Qwen/Qwen2-VL-7B-Instruct）を利用 FAXにも適用可能

AIエージェント・生成AIの性能が向上し、ある程度の判断を任せ、複雑な作業を行う・例として、質問に対してネットで検索し、その結果を踏まえて回答することもAIエージェント・ローカル型モデルと無料検索エンジンDuckDuckGoで検索エージェントを開発したが、プログラムが大変・AIエージェントを簡単に作れるよう、MCP（Model Context Protocol）が提案され普及 AIモデルが外部のデータソースやツールと連携するための新しいプロトコルで、AIエージェントは、より広範な情報を活用し、より複雑なタスクを実行できるようになる
・CADソフトの使い方が分からなくても、ソフトがMCPに対応していれば、日本語で指示し、形状モデルを作成してくれる 12

AIを用いた外観検査機の開発・ディープラーニングを活用した外観検査のニーズも高い・YOLOv1（2016）米国の大学生が開発精度はよくなかったが非常に高速・最新版はYOLOv12（2025）・ライセンスが緩いのはYOLOX（2021）・一般的にはPythonで学習しPythonで推論・推論モデルをONNXに変換するとC言語でも推論可能・インテルが開発したOpenVINOを使えばCPUでも高速化

自社データを生成AIに活用

自社データを生成AIに活用

OHNO

More Decks by OHNO

Other Decks in Technology

Featured

Transcript

「ローカル型LLMを使い社内情報を活用する」大野宏

クラウド型vsローカル型性能年クラウド型ローカル型 ELYZA3-8B ダウンロードして自前のPCで使う情報漏洩の危険がない GPUが必要

プログラム例 import torch from transformers import AutoModelForCausalLM, AutoTokenizer DEFAULT_SYSTEM_PROMPT =

RAGのしくみ ①質問と関連度の高い文章を検索 ⇒ ②質問と一緒にこれらをLLM渡す ⇒ ③回答を生成 LLM 関連度の高い文章 A

Vision-Langage-Modelで在庫管理この画像には、合計6本のペットボトルが並んでいることが確認できます。この画像には1つのペットボトルが入っています。

VLMをAI-OCRとして利用・画像を読み込んで文字を抽出する【認識結果】新潟県工業技術総合研究所技術統括センター 025-244-9168 ローカル型VLＭ（Qwen/Qwen2-VL-7B-Instruct）を利用 FAXにも適用可能