Lock in $30 Savings on PRO—Offer Ends Soon! ⏳

AI Search 新時代:從反向索引到語意理解的進化之路

Avatar for Joe Wu Joe Wu
November 21, 2025
45

AI Search 新時代:從反向索引到語意理解的進化之路

2025 Elastic Days Taiwan 分享的投影片
詳細說明請參考喬叔的網站:https://training.onedoggo.com

Avatar for Joe Wu

Joe Wu

November 21, 2025
Tweet

Transcript

  1. • 2023, 於大型媒體公司,負責 AI 轉型,導入 Elastic Cloud AI Search •

    2021 Oct, Elastic Certified Observability Engineer • 2021 Oct, 第13屆 iThome 鐵人賽 DevOps 組冠軍 - Elastic Observability • 2021 Sep, 書籍出版 - 喬叔帶你上手 Elastic Stack: Elasticsearch 的最佳實踐與最佳化技巧 • 2021 Feb, 獲得 2021 Elastic Silver Contributor • 2020 Oct, 第12屆 iThome 鐵人賽 Elastic Stack on Cloud 組冠軍 • 2018 Oct, 台灣第一位 Elastic Certified Engineer • 2015, 開始教授 Elasticsearch 課程、協助企業內訓及提供顧問服務 • 2015 Oct, 創業,大量使用 Elastic Stack 在產品開發、數據分析、運維監控 • 2013 Oct, Core Elasticsearch Training @ SFO • 2013 May, 導入 ES 0.90 版在跨國軟體產品實作多語系搜尋 5M MAU Joe Wu (喬叔) 的 Elastic 之旅 實戰 > 12年 教學 > 10年 https://www.facebook.com/Joe.ElasticStack 喬叔 - Elastic Stack 技術交流
  2. 反向索引時代 網頁內容爆炸,需要高速檢索 • BM25 1994 在 TREC3 中提出並被廣泛採用 • Lucene

    1999 開發, 2005 成為 Apache 頂級專案 • 如何把詞 (term) 切出來 → Tokenizer • 如何提升比對率 → Token Filters/Charactor Filters ◦ Normalizer ◦ 取字根 ◦ 同義詞 ◦ …等 1990–2000s 讓搜尋能「找到字」
  3. 2013-2018 2019–2021 2010-2015 讓搜尋能「找到字」 網頁內容爆炸,需要 高速檢索 2022–2023 Lucene 誕生 BM25

    成為主流 反向索引時代 1990–2000s 搜尋的意義與影響 2023-2024 為什麼會出現 關鍵技術 / 事件 技術階段 時期 2025 搜尋技術的演進 找 得 到 能 理 解
  4. 企業級搜尋與多維 查詢 實際應用需要篩選、排序、地理距離。 • Elasticsearch Release 2010 • 更大量的資料,效能 &

    多維查詢的需求 搜尋結合商業邏輯與 個人化、空間感知 2010–2015 花蓮最新的地震災情新聞 花蓮震央 50 km 內的災情通報 我要看最近最熱門的花蓮地震報導 只要看『花蓮地震』的『地方新聞』 ,不要中央氣象局公告。 搜尋的五大真實需求面向
  5. 2013-2018 2019–2021 2010-2015 讓搜尋能「找到字」 網頁內容爆炸,需要 高速檢索 2022–2023 Lucene 誕生 BM25

    成為主流 反向索引時代 1990–2000s 搜尋的意義與影響 2023-2024 為什麼會出現 關鍵技術 / 事件 技術階段 時期 2025 找 得 到 能 理 解 搜尋技術的演進 搜尋結合商業邏輯與 個人化、空間感知 實際應用需要篩選、 排序、地理距離。 Elasticsearch(2010) Filter, Function Score, Geo 企業級搜尋與 多維查詢
  6. 向量檢索與深度學習萌芽 解決關鍵字搜尋無法理解語意的問題 • Word2Vec 2013 → 向量表示語意 • BERT 2018

    → Contextual Embedding • Embedding Model 的開源與逐漸成熟 語意查詢的新突破 2013–2018
  7. 向量欄位進入搜尋系統 Embedding Model 與向量搜尋逐漸成熟 • 2019 年,Elasticsearch 7.3 release dense_vector

    的支援 • 開啟了語意搜尋的能力。 • 但是… ◦ 效能很差、延遲太高。 ◦ 語意搜尋的查詢方式 - KNN 很複雜,還無法與其他查詢混用。 ◦ Embedding 模型不符合 Domain 需求。 ◦ 回答是ˮ有多接近ˮ,而非ˮ是/否ˮ的標準答案。 從 term-based 轉向 meaning-based 搜尋 2019–2021
  8. 2013-2018 2019–2021 2010-2015 讓搜尋能「找到字」 網頁內容爆炸,需要 高速檢索 2022–2023 Lucene 誕生 BM25

    成為主流 反向索引時代 1990–2000s 搜尋的意義與影響 2023-2024 為什麼會出現 關鍵技術 / 事件 技術階段 時期 2025 找 得 到 能 理 解 搜尋技術的演進 搜尋結合商業邏輯與 個人化、空間感知 實際應用需要篩選、 排序、地理距離。 Elasticsearch(2010) Filter, Function Score, Geo 企業級搜尋與 多維查詢 向量檢索與深度學習 萌芽 Word2Vec (2013) GloVe, fastText BERT (2018) 出現 解決關鍵字搜尋 無法理解語意的問題 語意查詢的新突破 向量欄位進入 搜尋系統 Elasticsearch 7.3 dense_vector Embedding Model 與向量搜尋逐漸成熟 從 term-based 轉向 meaning-based 搜尋
  9. 效率 & Hybrid Search 需要高效的近似搜尋、但精準度不足 • 效率的提升 ◦ HNSW Hierarchical

    Navigable Small Worlds):搜尋時間大幅降低,但 犧牲一些精準度。Latency: KNN 5002,000ms → HNSW 15ms) ◦ Sparse Encoder ELSER:讓語意搜尋能在 CPU 上運行,省 80% 成本 • Hybrid Search ◦ 讓 KNN 能與其他查詢混合使用。 ◦ RRF Reciprocal Rank Fusion) ᐨ 讓關鍵字查詢 & 語意查詢的結果能融合在一起 語意搜尋變得實用、 可擴展。讓「理解」與 「精準」並存。 2022–2023
  10. KNN 可與其他 query & filter 混用。 ( Model設定門檻高 ) RRF

    會將 KNN 與 query 的結果融合 過濾較低分結果 這裡應該也要加入和上方一樣的 filter,先暫時省略
  11. 2013-2018 2019–2021 2010-2015 讓搜尋能「找到字」 網頁內容爆炸,需要 高速檢索 2022–2023 Lucene 誕生 BM25

    成為主流 反向索引時代 1990–2000s 搜尋的意義與影響 2023-2024 為什麼會出現 關鍵技術 / 事件 技術階段 時期 2025 找 得 到 能 理 解 搜尋技術的演進 搜尋結合商業邏輯與 個人化、空間感知 實際應用需要篩選、 排序、地理距離。 Elasticsearch(2010) Filter, Function Score, Geo 企業級搜尋與 多維查詢 向量檢索與深度學習 萌芽 Word2Vec (2013) GloVe, fastText BERT (2018) 出現 解決關鍵字搜尋 無法理解語意的問題 語意查詢的新突破 向量欄位進入 搜尋系統 Elasticsearch 7.3 dense_vector Embedding Model 與向量搜尋逐漸成熟 從 term-based 轉向 meaning-based 搜尋 Sparse Encoder (ELSER) Hybrid Search Elasticsearch 8.0 HNSW, ELSER, RRF 巨量語意向量需要高 效的近似搜尋、但精準度 不足。 語意搜尋變得實用、可 擴展。 讓「理解」與「精準」並存
  12. Semantic Search 商用化 企業需要更簡化的語意搜尋整合方式。 • ESRE ElasticSearch Relevance Engine) ◦

    模型管理、資料儲存、轉換向量、Search、 Inference API ᐨ Rerank:提高 KNN / ANN 粗選的品質。 語意搜尋成為 AI Search 基礎模組, 降低實作門檻 2023–2024
  13. 圖片來源:openai Ingest Pipeline 將 LLM 加入 ETL 實作 RAG 實踐技巧

    • 分類 • 摘要 • 標籤 • Q&A • …等
  14. Semantic Search 商用化 企業需要更簡化的語意搜尋整合方式。 • ESRE ElasticSearch Relevance Engine) ◦

    模型管理、資料儲存、轉換向量、Search、 Inference API ᐨ Rerank:提高 KNN / ANN 粗選的品質。 • semantic_text ◦ 讓語意搜尋, 就像型別的設定一樣簡單。 ◦ 成為ˮ一種查詢ˮ易組合使用。 語意搜尋成為 AI Search 基礎模組, 降低實作門檻 2023–2024
  15. 2013-2018 2019–2021 2010-2015 讓搜尋能「找到字」 網頁內容爆炸,需要 高速檢索 2022–2023 Lucene 誕生 BM25

    成為主流 反向索引時代 1990–2000s 搜尋的意義與影響 2023-2024 為什麼會出現 關鍵技術 / 事件 技術階段 時期 2025 找 得 到 能 理 解 搜尋技術的演進 搜尋結合商業邏輯與 個人化、空間感知 實際應用需要篩選、 排序、地理距離。 Elasticsearch(2010) Filter, Function Score, Geo 企業級搜尋與 多維查詢 向量檢索與深度學習 萌芽 Word2Vec (2013) GloVe, fastText BERT (2018) 出現 解決關鍵字搜尋 無法理解語意的問題 語意查詢的新突破 向量欄位進入 搜尋系統 Elasticsearch 7.3 dense_vector Embedding Model 與向量搜尋逐漸成熟 從 term-based 轉向 meaning-based 搜尋 Sparse Encoder (ELSER) Hybrid Search Elasticsearch 8.0 HNSW, ELSER, RRF 巨量語意向量需要高 效的近似搜尋、精準度不 足。 語意搜尋變得實用、可 擴展。 讓「理解」與「精準」並存 Semantic Search 商用化 ESRE, Rerank Elastic 8.15 `semantic_text` 企業需要更簡化的語 意搜尋整合方式。 語意搜尋成為 AI Search 基礎模組,降低實作門檻
  16. Context Engineering / Agentic Search 時代 單純搜尋不足,LLM 需搭配動態資料檢索。 • Data

    都已在 Elasticsearch 中,該 怎麼檢索,如何能提供 高品質的 Context? • 搜尋越強, Agent 越可靠。 • Elastic Search AI 搜尋不再只是回 傳結果,而是讓 AI 主動「拿工具」、 「做推理」、「完成任務」 。 搜尋進入 理解 + 生成 + 行動 時代 2024–2025
  17. 向量檢索與深度學習 萌芽 Word2Vec (2013) GloVe, fastText BERT (2018) 出現 解決關鍵字搜尋

    無法理解語意的問題 語意查詢的新突破 2013-2018 搜尋結合商業邏輯與 個人化、空間感知 實際應用需要篩選、 排序、地理距離。 Elasticsearch(2010) Filter, Function Score, Geo 2019–2021 向量欄位進入 搜尋系統 Elasticsearch 7.3 dense_vector Embedding Model 與向量搜尋逐漸成熟 從 term-based 轉向 meaning-based 搜尋 企業級搜尋與 多維查詢 2010-2015 讓搜尋能「找到字」 網頁內容爆炸,需要 高速檢索 2022–2023 Sparse Encoder (ELSER) Hybrid Search Elasticsearch 8.0 HNSW, ELSER, RRF 巨量語意向量需要高 效的近似搜尋、精準度不 足。 語意搜尋變得實用、可 擴展。 讓「理解」與「精準」並存 Lucene 誕生 BM25 成為主流 反向索引時代 1990–2000s 搜尋的意義與影響 2023-2024 Semantic Search 商用化 ESRE, Rerank Elastic 8.15 `semantic_text` 企業需要更簡化的語 意搜尋整合方式。 語意搜尋成為 AI Search 基礎模組,降低實作門檻 為什麼會出現 關鍵技術 / 事件 技術階段 時期 2025 Context Engineering Agentic Search 時代 Elastic 9.2 AI Agent Builder 搜尋進入 理解 + 生成 + 行動 時代 單純搜尋不足,LLM 需 搭配動態資料檢索。 找 得 到 能 理 解 搜尋技術的演進
  18. AI Search ≠ Semantic Search 我們從反向索引開始,讓機器能「找到字」。 我們用向量與 KNN,讓它能「理解意思」。 我們用 Hybrid

    與 RRF,讓它能「找到最對的答案」。 未來的 AI,不是用搜尋找資料,而是用搜尋找脈絡。 搜尋的真實需求、資料存取方法的定義 決定了 Context 的品質