Lock in $30 Savings on PRO—Offer Ends Soon! ⏳
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
AI Search 新時代:從反向索引到語意理解的進化之路
Search
Joe Wu
November 21, 2025
0
45
AI Search 新時代:從反向索引到語意理解的進化之路
2025 Elastic Days Taiwan 分享的投影片
詳細說明請參考喬叔的網站:
https://training.onedoggo.com
Joe Wu
November 21, 2025
Tweet
Share
More Decks by Joe Wu
See All by Joe Wu
Observability 入門班:可觀測性的核心技術架構與 OpenTelemetry 實作指南
unclejoe
0
590
如何在 Elasticsearch 實現敏捷的資料建模與管理 @ DevOpsDays Taipei 2023
unclejoe
0
780
Elastic Observability 體驗工作坊 @ DevOpsDays Taipei 2022
unclejoe
0
1.1k
Featured
See All Featured
CoffeeScript is Beautiful & I Never Want to Write Plain JavaScript Again
sstephenson
162
15k
[RailsConf 2023] Rails as a piece of cake
palkan
58
6.1k
What's in a price? How to price your products and services
michaelherold
246
12k
10 Git Anti Patterns You Should be Aware of
lemiorhan
PRO
659
61k
The MySQL Ecosystem @ GitHub 2015
samlambert
251
13k
Let's Do A Bunch of Simple Stuff to Make Websites Faster
chriscoyier
508
140k
Building an army of robots
kneath
306
46k
Navigating Team Friction
lara
191
16k
The Cost Of JavaScript in 2023
addyosmani
55
9.3k
Side Projects
sachag
455
43k
[RailsConf 2023 Opening Keynote] The Magic of Rails
eileencodes
31
9.8k
Facilitating Awesome Meetings
lara
57
6.6k
Transcript
AI Search 新時代:從反向索 引到語意理解的進化之路 Elastic Day Taiwan 2025 喬叔 Joe
Wu
• 2023, 於大型媒體公司,負責 AI 轉型,導入 Elastic Cloud AI Search •
2021 Oct, Elastic Certified Observability Engineer • 2021 Oct, 第13屆 iThome 鐵人賽 DevOps 組冠軍 - Elastic Observability • 2021 Sep, 書籍出版 - 喬叔帶你上手 Elastic Stack: Elasticsearch 的最佳實踐與最佳化技巧 • 2021 Feb, 獲得 2021 Elastic Silver Contributor • 2020 Oct, 第12屆 iThome 鐵人賽 Elastic Stack on Cloud 組冠軍 • 2018 Oct, 台灣第一位 Elastic Certified Engineer • 2015, 開始教授 Elasticsearch 課程、協助企業內訓及提供顧問服務 • 2015 Oct, 創業,大量使用 Elastic Stack 在產品開發、數據分析、運維監控 • 2013 Oct, Core Elasticsearch Training @ SFO • 2013 May, 導入 ES 0.90 版在跨國軟體產品實作多語系搜尋 5M MAU Joe Wu (喬叔) 的 Elastic 之旅 實戰 > 12年 教學 > 10年 https://www.facebook.com/Joe.ElasticStack 喬叔 - Elastic Stack 技術交流
搜尋技術的演進
反向索引時代 網頁內容爆炸,需要高速檢索 • BM25 1994 在 TREC3 中提出並被廣泛採用 • Lucene
1999 開發, 2005 成為 Apache 頂級專案 • 如何把詞 (term) 切出來 → Tokenizer • 如何提升比對率 → Token Filters/Charactor Filters ◦ Normalizer ◦ 取字根 ◦ 同義詞 ◦ …等 1990–2000s 讓搜尋能「找到字」
2013-2018 2019–2021 2010-2015 讓搜尋能「找到字」 網頁內容爆炸,需要 高速檢索 2022–2023 Lucene 誕生 BM25
成為主流 反向索引時代 1990–2000s 搜尋的意義與影響 2023-2024 為什麼會出現 關鍵技術 / 事件 技術階段 時期 2025 搜尋技術的演進 找 得 到 能 理 解
企業級搜尋與多維 查詢 實際應用需要篩選、排序、地理距離。 • Elasticsearch Release 2010 • 更大量的資料,效能 &
多維查詢的需求 搜尋結合商業邏輯與 個人化、空間感知 2010–2015 花蓮最新的地震災情新聞 花蓮震央 50 km 內的災情通報 我要看最近最熱門的花蓮地震報導 只要看『花蓮地震』的『地方新聞』 ,不要中央氣象局公告。 搜尋的五大真實需求面向
企業級搜尋與多維 查詢 實際應用需要篩選、排序、地理距離。 • 混合各種查詢方法,甚至要配合資料的前處理 - ETL Ingest Pipeline
搜尋結合商業邏輯與 個人化、空間感知 2010–2015
2013-2018 2019–2021 2010-2015 讓搜尋能「找到字」 網頁內容爆炸,需要 高速檢索 2022–2023 Lucene 誕生 BM25
成為主流 反向索引時代 1990–2000s 搜尋的意義與影響 2023-2024 為什麼會出現 關鍵技術 / 事件 技術階段 時期 2025 找 得 到 能 理 解 搜尋技術的演進 搜尋結合商業邏輯與 個人化、空間感知 實際應用需要篩選、 排序、地理距離。 Elasticsearch(2010) Filter, Function Score, Geo 企業級搜尋與 多維查詢
向量檢索與深度學習萌芽 解決關鍵字搜尋無法理解語意的問題 • Word2Vec 2013 → 向量表示語意 • BERT 2018
→ Contextual Embedding • Embedding Model 的開源與逐漸成熟 語意查詢的新突破 2013–2018
向量欄位進入搜尋系統 Embedding Model 與向量搜尋逐漸成熟 • 2019 年,Elasticsearch 7.3 release dense_vector
的支援 • 開啟了語意搜尋的能力。 • 但是… ◦ 效能很差、延遲太高。 ◦ 語意搜尋的查詢方式 - KNN 很複雜,還無法與其他查詢混用。 ◦ Embedding 模型不符合 Domain 需求。 ◦ 回答是ˮ有多接近ˮ,而非ˮ是/否ˮ的標準答案。 從 term-based 轉向 meaning-based 搜尋 2019–2021
2013-2018 2019–2021 2010-2015 讓搜尋能「找到字」 網頁內容爆炸,需要 高速檢索 2022–2023 Lucene 誕生 BM25
成為主流 反向索引時代 1990–2000s 搜尋的意義與影響 2023-2024 為什麼會出現 關鍵技術 / 事件 技術階段 時期 2025 找 得 到 能 理 解 搜尋技術的演進 搜尋結合商業邏輯與 個人化、空間感知 實際應用需要篩選、 排序、地理距離。 Elasticsearch(2010) Filter, Function Score, Geo 企業級搜尋與 多維查詢 向量檢索與深度學習 萌芽 Word2Vec (2013) GloVe, fastText BERT (2018) 出現 解決關鍵字搜尋 無法理解語意的問題 語意查詢的新突破 向量欄位進入 搜尋系統 Elasticsearch 7.3 dense_vector Embedding Model 與向量搜尋逐漸成熟 從 term-based 轉向 meaning-based 搜尋
效率 & Hybrid Search 需要高效的近似搜尋、但精準度不足 • 效率的提升 ◦ HNSW Hierarchical
Navigable Small Worlds):搜尋時間大幅降低,但 犧牲一些精準度。Latency: KNN 5002,000ms → HNSW 15ms) ◦ Sparse Encoder ELSER:讓語意搜尋能在 CPU 上運行,省 80% 成本 • Hybrid Search ◦ 讓 KNN 能與其他查詢混合使用。 ◦ RRF Reciprocal Rank Fusion) ᐨ 讓關鍵字查詢 & 語意查詢的結果能融合在一起 語意搜尋變得實用、 可擴展。讓「理解」與 「精準」並存。 2022–2023
KNN 可與其他 query & filter 混用。 ( Model設定門檻高 ) RRF
會將 KNN 與 query 的結果融合 過濾較低分結果 這裡應該也要加入和上方一樣的 filter,先暫時省略
2013-2018 2019–2021 2010-2015 讓搜尋能「找到字」 網頁內容爆炸,需要 高速檢索 2022–2023 Lucene 誕生 BM25
成為主流 反向索引時代 1990–2000s 搜尋的意義與影響 2023-2024 為什麼會出現 關鍵技術 / 事件 技術階段 時期 2025 找 得 到 能 理 解 搜尋技術的演進 搜尋結合商業邏輯與 個人化、空間感知 實際應用需要篩選、 排序、地理距離。 Elasticsearch(2010) Filter, Function Score, Geo 企業級搜尋與 多維查詢 向量檢索與深度學習 萌芽 Word2Vec (2013) GloVe, fastText BERT (2018) 出現 解決關鍵字搜尋 無法理解語意的問題 語意查詢的新突破 向量欄位進入 搜尋系統 Elasticsearch 7.3 dense_vector Embedding Model 與向量搜尋逐漸成熟 從 term-based 轉向 meaning-based 搜尋 Sparse Encoder (ELSER) Hybrid Search Elasticsearch 8.0 HNSW, ELSER, RRF 巨量語意向量需要高 效的近似搜尋、但精準度 不足。 語意搜尋變得實用、可 擴展。 讓「理解」與「精準」並存
Semantic Search 商用化 企業需要更簡化的語意搜尋整合方式。 • ESRE ElasticSearch Relevance Engine) ◦
模型管理、資料儲存、轉換向量、Search、 Inference API ᐨ Rerank:提高 KNN / ANN 粗選的品質。 語意搜尋成為 AI Search 基礎模組, 降低實作門檻 2023–2024
圖片來源:openai Ingest Pipeline 將 LLM 加入 ETL 實作 RAG 實踐技巧
• 分類 • 摘要 • 標籤 • Q&A • …等
Semantic Search 商用化 企業需要更簡化的語意搜尋整合方式。 • ESRE ElasticSearch Relevance Engine) ◦
模型管理、資料儲存、轉換向量、Search、 Inference API ᐨ Rerank:提高 KNN / ANN 粗選的品質。 • semantic_text ◦ 讓語意搜尋, 就像型別的設定一樣簡單。 ◦ 成為ˮ一種查詢ˮ易組合使用。 語意搜尋成為 AI Search 基礎模組, 降低實作門檻 2023–2024
2013-2018 2019–2021 2010-2015 讓搜尋能「找到字」 網頁內容爆炸,需要 高速檢索 2022–2023 Lucene 誕生 BM25
成為主流 反向索引時代 1990–2000s 搜尋的意義與影響 2023-2024 為什麼會出現 關鍵技術 / 事件 技術階段 時期 2025 找 得 到 能 理 解 搜尋技術的演進 搜尋結合商業邏輯與 個人化、空間感知 實際應用需要篩選、 排序、地理距離。 Elasticsearch(2010) Filter, Function Score, Geo 企業級搜尋與 多維查詢 向量檢索與深度學習 萌芽 Word2Vec (2013) GloVe, fastText BERT (2018) 出現 解決關鍵字搜尋 無法理解語意的問題 語意查詢的新突破 向量欄位進入 搜尋系統 Elasticsearch 7.3 dense_vector Embedding Model 與向量搜尋逐漸成熟 從 term-based 轉向 meaning-based 搜尋 Sparse Encoder (ELSER) Hybrid Search Elasticsearch 8.0 HNSW, ELSER, RRF 巨量語意向量需要高 效的近似搜尋、精準度不 足。 語意搜尋變得實用、可 擴展。 讓「理解」與「精準」並存 Semantic Search 商用化 ESRE, Rerank Elastic 8.15 `semantic_text` 企業需要更簡化的語 意搜尋整合方式。 語意搜尋成為 AI Search 基礎模組,降低實作門檻
Context Engineering / Agentic Search 時代 單純搜尋不足,LLM 需搭配動態資料檢索。 • Data
都已在 Elasticsearch 中,該 怎麼檢索,如何能提供 高品質的 Context? • 搜尋越強, Agent 越可靠。 • Elastic Search AI 搜尋不再只是回 傳結果,而是讓 AI 主動「拿工具」、 「做推理」、「完成任務」 。 搜尋進入 理解 + 生成 + 行動 時代 2024–2025
向量檢索與深度學習 萌芽 Word2Vec (2013) GloVe, fastText BERT (2018) 出現 解決關鍵字搜尋
無法理解語意的問題 語意查詢的新突破 2013-2018 搜尋結合商業邏輯與 個人化、空間感知 實際應用需要篩選、 排序、地理距離。 Elasticsearch(2010) Filter, Function Score, Geo 2019–2021 向量欄位進入 搜尋系統 Elasticsearch 7.3 dense_vector Embedding Model 與向量搜尋逐漸成熟 從 term-based 轉向 meaning-based 搜尋 企業級搜尋與 多維查詢 2010-2015 讓搜尋能「找到字」 網頁內容爆炸,需要 高速檢索 2022–2023 Sparse Encoder (ELSER) Hybrid Search Elasticsearch 8.0 HNSW, ELSER, RRF 巨量語意向量需要高 效的近似搜尋、精準度不 足。 語意搜尋變得實用、可 擴展。 讓「理解」與「精準」並存 Lucene 誕生 BM25 成為主流 反向索引時代 1990–2000s 搜尋的意義與影響 2023-2024 Semantic Search 商用化 ESRE, Rerank Elastic 8.15 `semantic_text` 企業需要更簡化的語 意搜尋整合方式。 語意搜尋成為 AI Search 基礎模組,降低實作門檻 為什麼會出現 關鍵技術 / 事件 技術階段 時期 2025 Context Engineering Agentic Search 時代 Elastic 9.2 AI Agent Builder 搜尋進入 理解 + 生成 + 行動 時代 單純搜尋不足,LLM 需 搭配動態資料檢索。 找 得 到 能 理 解 搜尋技術的演進
AI Search ≠ Semantic Search 我們從反向索引開始,讓機器能「找到字」。 我們用向量與 KNN,讓它能「理解意思」。 我們用 Hybrid
與 RRF,讓它能「找到最對的答案」。 未來的 AI,不是用搜尋找資料,而是用搜尋找脈絡。 搜尋的真實需求、資料存取方法的定義 決定了 Context 的品質
https://www.facebook.com/Joe.ElasticStack 喬叔 - Elastic Stack 技術交流 Thanks