Ollamaを使ったLocal Language Model活用法

Slide 1

Slide 1 text

Ollamaを使った Local Language Model 活⽤法板垣正敏 FROM PYTHON機械学習勉強会IN新潟 2024/11/23 JAWS-UG新潟#19 × PYTHON機械学習勉強会IN新潟#19 ⽣成AI開発ハンズオン

Slide 2

Slide 2 text

⽬次 • llama.cppとollama.app • チャットbotを作ってみた • OpenWebUIが便利 2

Slide 3

Slide 3 text

llama.cppとollama.app 3

Slide 4

Slide 4 text

llama.cpp • https://github.com/ggerganov/llama.cpp • Georgi Gerganov⽒が開発したGGMLを核とする⾔語モデル実⾏環境 • MetaのLlamaをはじめとする多種のモデルに対応 • Mac, Windows, Linuxに対応 • Apple Silicon/NVIDIA/Intel/AMDなどのGPUとCPUに対応 • 1.5bitから8bitまでの量⼦化に対応しメモリ節約と推論速度向上を実現 4

Slide 5

Slide 5 text

量⼦化 • 深層学習モデルのパラメータはFP32が基本であるが、FP16あるいは精度を犠牲にして表現範囲を拡⼤したBP16でも⼤きな性能低下がないことが知られている • パラメータ数の⾮常に多いLLMにおいては、さらに浮動⼩数点数ではなく整数に変換を⾏うことで、モデルの圧縮が⾏われるようになっている • INT8から1.5ビット（-1,0,1）まで様々な量⼦化⼿法が⽣まれている 5

Slide 6

Slide 6 text

ollama.app • https://ollama.com • llama.cpp + モデルリポジトリ + ダウンロード機能 • わかりやすいコマンドラインインターフェイス • ⾃動アップデート • Web APIを持つサーバ搭載 6

Slide 7

Slide 7 text

ollama.appコマンドラインインターフェイス • ollama run <モデル名> • モデルを実⾏しテキスト⼊⼒を待つ • ollama pull <モデル名> • リポジトリからモデルをダウンロード • ollama list • ダウンロード済み（登録済み）のモデル⼀覧を表⽰ • ollama rm <モデル名> • モデルを削除 7

Slide 8

Slide 8 text

リポジトリにないモデルの登録 • 必要なもの • GGUF形式の学習済みパラメータ • momonga⽒がHugging Faceに⽇本語対応モデルの量⼦化済みモデルをアップロードしてくれている https://huggingface.co/mmnga • llama.cppを使えばHugging Faceに公開されたモデルをGGUF形式にコンバートしたり、量⼦化したりすることができる • Modelfile • モデルファイル、パラメータ、テンプレートなどを定義したテキストファイル • ollama show --modelfile <モデル名>で既存モデルのmodelfile出⼒可能 • ollama create <モデル名> -f <モデルファイル名> 8

Slide 9

Slide 9 text

ollama python API • https://github.com/ollama/ollama-python • 同期と⾮同期のAPIを提供 • ollama.chat(), ollama.generate(), そしてollama.embed() • その他CLIの各コマンドをサポート 9

Slide 10

Slide 10 text

独⾃のチャットWebアプリを作る 10

Slide 11

Slide 11 text

発端は・・・ • Ruby on Rails 8.0リリース • WebSocketでの通信に対応するAction CableがRedisなし（SQLite）がデフォルトに • Chatアプリが気軽にできそう • Ruby版ollama-aiパッケージを使ってChatGPTもどきが出来る • [⽣成AI]共感型カウンセラーボットを作成する - Ruby on Rails7編 • https://note.com/creativival/n/n504dc24f79d6 • Rails ８.0でやってみる 11

Slide 12

Slide 12 text

やってみたが・・・ • Action Cable使ってなかった • 通常のControllerにロジックを実装 • LLMの応答が⽣成するまで画⾯がフリーズ • 対話履歴をセッション変数で管理 • Railsのデフォルトではセッション変数はCookieに保存→4096バイトの壁 • セッションストアをキャッシュに変更 • config.session_store :cache_store 12

Slide 13

Slide 13 text

Django + Channels • どんな⾔語・フレームワークでも構わないが、ここはPython機械学習研究会の⽴場上Djangoを使⽤（Flaskでもいいのだけれど） • チャットアプリらしく⾒せるにはSPA • LLMからの応答は⾮同期で表⽰したい • ChannelsはWebSocketやIoTで使われるMQTTなどのPub/Subモデルによる⾮同期通信をサポートするDjangoアドオンライブラリ 13

Slide 14

Slide 14 text

まずはChatアプリの例を検索 • Realtime chat app using Django • https://www.geeksforgeeks.org/realtime-chat-app-using-django/ • ユーザー管理は不要なので削除 • CSSはRails版を転⽤ • 対話履歴はとりあえずクライアント側に持たせた • Ollamaのストリーミング出⼒に対応させた 14

Slide 15

Slide 15 text

WebSocketでChannelsを使う︓サーバー側 class ChatConsumer(AsyncWebsocketConsumer): async def connect(self): await self.accept() async def disconnect(self, close_code): pass async def receive(self, text_data): messages = json.loads(text_data) last_message = messages[-1] content = last_message["content"] role = last_message["role"] await self.send( text_data=json.dumps({ "content" : content, "role" : role, })) ollama_response = await self.get_ollama_response(messages) await self.send( text_data=json.dumps({ "content" : ollama_response, "role" : "assistant", })) async def get_ollama_response(self, messages): system_prompt = [{ 'content': SYSTEM_CONTENT, 'role': 'system’}] response = await AsyncClient().chat( model=MODEL_NAME, messages=system_prompt + messages) return response['message']['content'] 15

Slide 16

Slide 16 text

WebSocketでChannelsを使う︓クライアント const chatSocket = new WebSocket("ws://" + window.location.host + "/"); var messages = []; chatSocket.onopen = function (e) { console.log("The connection was setup successfully !"); }; chatSocket.onclose = function (e) { console.log("Something unexpected happened !"); }; … document.querySelector("#post_button").onclick = function (e) { var messageInput = document.querySelector("#message_input").value; messages.push({ content: messageInput, role : "user"}) chatSocket.send(JSON.stringify(messages)); }; document.querySelector("#clear_button").onclick = function (e) { messages = []; document.querySelector("#messages").innerHTML = ""; } chatSocket.onmessage = function (e) { const data = JSON.parse(e.data); messages.push(data); var div = document.createElement("div"); div.className = data.role == "user" ? "message user" : "message"; div.innerHTML = data.content; document.querySelector("#message_input").value = ""; document.querySelector("#messages").appendChild(div); document.querySelector("#messages").scrollTop = document.querySelector("#messages").scrollHeight; }; 16

Slide 17

Slide 17 text

demo 17

Slide 18

Slide 18 text

実⽤化するには・・・ • ユーザー管理はやっぱり必要 • 対話記録を残すためにDjangoモデルを導⼊ 18

Slide 19

Slide 19 text

OpenWebUI 19

Slide 20

Slide 20 text

OpenWebUI • https://openwebui.com • 以前はOllama WebUIと呼ばれていたらしい • OpenAI、ClaudeなどクラウドLLMや、ollamaなどのローカルLLM を使って独⾃のチャットインターフェイスを構築するためのツール • Pythonパッケージとして配布されるが、Dockerでの環境構築を推奨 docker run -d -p 3000:8080 -v open-webui:/app/backend/data --name open-webui ghcr.io/open-webui/open-webui:main 20

Slide 21

Slide 21 text

Open-WebUIの特徴 • 設定が簡単 • OpenAI APIとの統合 • レスポンシブ・デザイン • プログレッシブ・ウェブアプリケーション • マークダウンとLaTeXのサポート • モデルビルダー • ローカル⼜はリモートのRAG対応 • Web検索を利⽤したRAG • Webブラウンジング機能 • 画像⽣成との統合 • 同時に複数のモデルを使⽤可能 • ロールベースのアクセス制御 • 多⾔語対応 • 継続的アップデート 21

Slide 22

Slide 22 text

demo 22

Slide 23

Slide 23 text

参考 • llama.cpp の動かし⽅と量⼦化⼿法 • https://zenn.dev/turing_motors/articles/f5f19f875bd8ba • [⽣成AI]共感型カウンセラーボットを作成する - Ruby on Rails7編 • https://note.com/creativival/n/n504dc24f79d6 • Realtime chat app using Django • https://www.geeksforgeeks.org/realtime-chat-app-using-django/ • Open-WebUI...LLMのハブ的ソフト • https://qiita.com/tamizzo/items/fae40a7171dc5661de6e • 加藤智久🌻 Zuitt 代表 ITエンジニア育成フィリピン最⼤⼿のプロンプト • https://x.com/kato_/status/1643470077738762242 34