Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
CitC: Chewing in the Cloud
Search
Ken Lee
May 23, 2013
Technology
1
90
CitC: Chewing in the Cloud
Ken Lee
May 23, 2013
Tweet
Share
More Decks by Ken Lee
See All by Ken Lee
Mining Interest Topics from Plurk by Using Python - Taipei.py
echain
0
93
Mining Interest Topics from Plurk by Using Python
echain
7
270
Mining Interest Topics from Plurk
echain
2
52
Other Decks in Technology
See All in Technology
テストコード品質を高めるためにMutation Testingライブラリ・Strykerを実戦導入してみた話
ysknsid25
7
2.7k
飲食店データの分析事例とそれを支えるデータ基盤
kimujun
0
210
アプリエンジニアのためのGraphQL入門.pdf
spycwolf
0
110
OCI Vault 概要
oracle4engineer
PRO
0
9.7k
Shopifyアプリ開発における Shopifyの機能活用
sonatard
4
260
Taming you application's environments
salaboy
0
200
ISUCONに強くなるかもしれない日々の過ごしかた/Findy ISUCON 2024-11-14
fujiwara3
8
880
The Role of Developer Relations in AI Product Success.
giftojabu1
1
150
なぜ今 AI Agent なのか _近藤憲児
kenjikondobai
4
1.4k
【Startup CTO of the Year 2024 / Audience Award】アセンド取締役CTO 丹羽健
niwatakeru
0
1.4k
CysharpのOSS群から見るModern C#の現在地
neuecc
2
3.6k
『Firebase Dynamic Links終了に備える』 FlutterアプリでのAdjust導入とDeeplink最適化
techiro
0
170
Featured
See All Featured
Fontdeck: Realign not Redesign
paulrobertlloyd
82
5.2k
Music & Morning Musume
bryan
46
6.2k
Code Reviewing Like a Champion
maltzj
520
39k
Designing for Performance
lara
604
68k
Rails Girls Zürich Keynote
gr2m
94
13k
JavaScript: Past, Present, and Future - NDC Porto 2020
reverentgeek
47
5k
Six Lessons from altMBA
skipperchong
27
3.5k
Thoughts on Productivity
jonyablonski
67
4.3k
How to Think Like a Performance Engineer
csswizardry
20
1.1k
Keith and Marios Guide to Fast Websites
keithpitt
409
22k
How to Create Impact in a Changing Tech Landscape [PerfNow 2023]
tammyeverts
47
2.1k
Designing Experiences People Love
moore
138
23k
Transcript
2010 開放原始碼創新應用開發大賽 雲端新酷音 - Chewing in the Cloud 李宜謙
[email protected]
Outline 開發目的 功能簡介 雲端優勢 & 創新設計 詞庫架構 詞庫擴充方法 外部編輯介面 future
work 總結 + Q&A
為什麼我們想做雲端輸入法?
很久很久以前 有幾位熱心的網友整理了 新酷音共享詞庫
這個詞庫包含了許多 鄉民常用的詞彙
八卦板 魔獸板 棒球板 笨板 黑特板 表特板 惡男 櫻野 溫泉鄉 龍櫻
偏差值 弓道少女 花 美男 野豬妹 大光圈 大三元 超焦 繞射現象 繞射 色偏 微型硬碟 陳冠希 鈦金屬 仕樣 越淺 愈淺 博漢特區 登機箱 邊緣化 耳擴 不 舒服 限速 腸躁症 超有 洋派 無影罩 棚燈 柔光帳 控光幕 測光錶 方形濾鏡 取景器 移 軸鏡 龍狼傳 火影忍者 貓街 路德維希 水果 籃 棋靈王 棋魂 遊戲王 冒險野郎 亂馬 贈送 板 獵人板 雙和板 天堂板 韓劇板 小軟體板 耳機板 將太的壽司 靜鬥士翔 島耕作
並且適度地調整了 單字的優先權
的 一 是 了 不 我 有 在 人 來
大 上 這 到 們 個 小 你 子 他 以 好 為 就 生 要 說
讓當時的新酷音變得 超級好用的啦!!! 大幅地降低了重新選字的次數
但是… 已經很久很久沒有更新了 orz
很多詞彙已經過時 或是不常用(退流行)了 要怎麼解決詞庫更新與維護的問題呢?
所以我們想透過 雲端與社群的力量 讓雲端新酷音具備 即時查詢最新詞彙的能力
與雲端結合有什麼好處? CitC 有什麼創新功能??
我們重新設計了 新酷音的詞庫架構 讓詞彙查詢不再拘泥於過期的單機詞庫
並且透過學習文章 與搜尋建議 讓雲端詞庫與潮流同步
1. 縮減客戶端安裝所需空間 只保留最常用的詞彙 其他罕用詞透過雲端查詢
如果網路不通 或是 詞庫維修 是不是就沒辦法使用了?
不會發生這種狀況!!! 由於保有單機詞庫 所以離線仍具備基本的選詞能力
2. 詞庫更新速度快 使用者不必再花時間 修正流行語的錯字
3. 客製化與可維護性 雲端詞庫規格與架構開放 使用者可依需求自行建構私人詞庫
4. 特定用途詞庫最佳化 使用者能選擇不同的雲端詞庫服務
雲端環境下的詞庫架構
新酷音原本是 這樣選詞的…
使用者輸入 斷詞模組 整合搜尋結果 依詞頻排序 輸出 使用者詞庫 系統詞庫
若系統詞庫老舊 加上 使用者詞庫品質不佳
所以新酷音有時 會選出很有趣的句子 韓劇跟西洋劇都一樣差勁, 令人不寒而慄 含巨根吸陽具都一樣插進, 令人不含而立 XD
為了提升詞庫與 選字的品質 我們將選詞的邏輯改為…
使用者輸入 斷詞模組 整合搜尋結果 依詞頻排序 輸出 本機快取查詢 單機詞庫 雲端詞庫 網路無法連線 或連線品質不良
網路連線正常
期望透過經常更新 與高品質的詞庫 來提高輸入的成功率
除此之外 由於系統架構開放 所以使用者可以架設 自己的雲端詞庫
私人詞庫 特定用途詞庫 雲端詞庫伺服器叢集 鏡像詞庫 X 派送新版單機詞庫 查詢 a.citc.cse.tw b.citc.cse.tw c.citc.cse.tw
CitC 如何擴充雲端詞庫?
第一招 參考搜尋建議
使用者輸入 查詢相關詞 雲端詞庫 Google Suggest Youtube Suggest Yahoo! 建議搜尋 整合搜尋結果
依詞頻排序 回傳查詢結果 擴充
使用者輸入 雲端詞庫 Google Suggest Youtube Suggest Yahoo! 建議搜尋 整合搜尋結果 依詞頻排序
交通 交通 交通大學 交通事故 交通安全 交通機動隊 交通警察 交通裁決所 交通博物館 交通罰單查詢 查詢相關詞 交通, 交通大學, 交通警察, 交通裁決所, 交通罰單 查詢, 交通博物館, 交通安全, 交通事故 回傳查詢結果
第二招 參考外部文章
訓練文章 斷詞系統 擴充雲端詞庫 中研院 CKIP Yahoo! 斷章取義 整合斷詞結果 公開審查與修訂
None
None
利用斷詞系統 取出文章內的詞彙 藉此蒐集最新的名詞用語
以中研院的斷詞系統為例
None
斷詞結果
未知詞列表 • 金永敏 Nb 2 • 姜遠珍 Nb 1 •
首爾 Nb 1 • 研策出 VC 1 • 注點 Na 1 • 韓國話 Na 1 • 日本歌 Na 1 • 中語 Na 1 • 金太妍 Nb 1 • 清爽感 Na 1
第三招 網友熱血相挺
使用者輸入 擴充雲端詞庫 公開審查與修訂
None
CitC 是怎樣執行的?
以前, 我們這樣打
你好~ 我是少女時代的隊長 金太妍 !!!
使用者輸入 斷詞模組 整合搜尋結果 依詞頻排序 輸出 使用者詞庫 系統詞庫 金泰言 (ㄐㄧㄣ ㄊㄞˋㄧㄢˊ)
ㄐㄧㄣ ㄊㄞˋㄧㄢˊ 由於詞庫沒有對應的詞彙 因此最後只能依照單字的 詞頻輸出: 金泰言 (沒這個詞) (沒這個詞) 名字打錯了! T_T
現在, 我們這樣做
使用者輸入 斷詞模組 整合搜尋結果 依詞頻排序 輸出 本機快取查詢 單機詞庫 雲端詞庫 金太妍 (ㄐㄧㄣ
ㄊㄞˋㄧㄢˊ) ㄐㄧㄣ ㄊㄞˋㄧㄢˊ (沒這個詞) (沒查過, 無快取資料) 雲端詞庫找到符合的詞彙!! 向 citc.cse.tw 雲端詞庫伺服器發出查詢
果然是我的 fan !!! kekeke
利用雲端詞庫進行查詢 能夠幫助使用者快速完成 人名或是專有名詞的輸入
自己維護詞庫好麻煩… 大家一起做好嗎?
這是一定要的啦!!!
我們提供了 編輯雲端詞庫的介面 讓使用者能新增, 編修詞彙 並且回饋詞彙的使用頻率
現行詞庫 待調整詞頻詞庫 候選詞庫 使用者回饋詞庫 詞庫管理人員 一般使用者 審核 新增詞彙 定期整併 統計使用率
更新現行詞庫
新增詞彙
None
修改詞頻
None
None
None
None
None
None
修改同音詞優先度
None
比賽後想繼續做的事
1. 降低查詢反應時間 目前查詢反應時間不太穩定
2. 推廣共同詞庫平台 讓越來越多人知道 CitC 與共同詞庫
3. 持續維護與開發專案 <( ̄ c ̄)y▂ξ
Q & A
Thank you! ㄟ ( ̄▽ ̄ ㄟ)~~~