Slide 1

Slide 1 text

商品規格萃取大冒險 Vila Lin

Slide 2

Slide 2 text

Vila Lin LINE EC Data Lead 我的樂趣將前沿 AI 技術變成會賺錢的產品 熱衷打造又穩又快的系統,讓團隊更順更開心

Slide 3

Slide 3 text

01 02 03 04 習得 LLM 魔法 實戰訓練場 寶藏與傳承 序章 CONTENT

Slide 4

Slide 4 text

01 序章

Slide 5

Slide 5 text

冒險的招喚 勇敢的電商資料工程團隊: LINE購物王國正面臨前所未有的挑戰 2000萬件商品資料如迷宮般混亂 消費者無法找到心儀的寶物... 運用魔法,將混沌化為秩序!

Slide 6

Slide 6 text

資料礦脈 商品繁多 維運耗時 廠商多元 商品多樣 非結構化 不易使用

Slide 7

Slide 7 text

混沌迷宮 傳統規則式 • 規則式維運 • 新品 & 長尾商品很不友善 • 仰賴商家回拋結構化資料

Slide 8

Slide 8 text

期望與挑戰 • 準確性 • 強擴充性 • 成本控管

Slide 9

Slide 9 text

02 習得 LLM 魔法

Slide 10

Slide 10 text

構築魔法陣 資料搜集 資料清洗 規格萃取 後處理 驗證評估 量產

Slide 11

Slide 11 text

淨化試煉 最大化訊號雜訊比 (SNR) • 抑制結構性雜訊 • 分流極端樣本 • 可觀測性 領域詞庫 + 統計門檻 • 促銷語 • 表情符號 • 附加資訊 北北基 500 桃竹苗 800 中彰投 1000 女神節 免運 滿額贈

Slide 12

Slide 12 text

詠唱學院 來源與規格雙層優先序 • 資料來源優先序 • 商品名稱 -> 簡述 ->長述 -> 網頁資訊 • 規格萃取優先序 • 品牌-> 型號-> 系列名稱 注意力 !

Slide 13

Slide 13 text

詠唱學院 同義異詞擴展 • 傳統需製作大量詞彙對照表 • 常見案例 • 成分/成份/配方 • 尺寸/長寬高/L x W x H

Slide 14

Slide 14 text

詠唱學院 福利品/整新品/整修品 • 二手 • 7成新 • 近全新 • 近新品 • 拆封新品 • 極新 9成8新

Slide 15

Slide 15 text

詠唱學院 法遵強約束 • 電子商務消費者保護綱領、消費者保護法 、定型化契約 … • 強約束「負向規則」

Slide 16

Slide 16 text

詠唱學院 禁制範例 目標規格 模型推論 事實 自動生成規格 品牌 華碩 沒有品牌 變造商品數值 容量 6公升 500 毫升清潔液,整箱 12 瓶 不得自行推論 電流 100A 沒有電流 商品編碼 100a2504 產地 德國 台灣製的德國風格安全帽

Slide 17

Slide 17 text

詠唱學院 範例驅動 • 標註準備訓練集,將耗費大量人力和時間 • 少量高品質的熱門商品 Triantafillou, E., Zhu, T., Dumoulin, V., Lamblin, P ., Evci, U., Xu, K., Goroshin, R., Gelada, C., Swersky, K., Manzagol, P.-A., & Larochelle, H. (2020). Meta-Dataset: A dataset of datasets for learning to learn from few examples. In *International Conference on Learning Representations (ICLR 2020)*.

Slide 18

Slide 18 text

附魔工坊 • 多值拆解 • 單位標準化 • 品牌同義字 釐米、厘米、公分、cm、CM WinXP、2000、2003、Vista、7、8 寶雅/POYA/POYA Buy

Slide 19

Slide 19 text

03 實戰訓練場

Slide 20

Slide 20 text

資源管理所 • Airflow 搭配 Spark • GPT-4o mini • 批次處理 • 增量堆疊

Slide 21

Slide 21 text

守望者之塔 • 定時檢查並即時告警 • Prompt 系統化管理 • 雙重驗證閉環 • 設定目標 • 準確率:95% • 成本降低:90%

Slide 22

Slide 22 text

04 寶藏傳承

Slide 23

Slide 23 text

智慧聖殿 系統化 品質 驗證 持續 迭代

Slide 24

Slide 24 text

智慧聖殿 過度相信 LLM 不做 資料清洗 只有 唯一方案

Slide 25

Slide 25 text

No content