Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Open Data from CNS11643

Open Data from CNS11643

4ba2629b4f4c832f479045fc2392be0e?s=128

趙惟倫

June 27, 2015
Tweet

Transcript

  1. 趙惟倫 <bluebat@member.fsf.org> 2015 年 6 月 27 日 全字庫開放資料的應用 全字庫開放資料的應用

    香港開源年會
  2. 書同文 書同文 「今天下車同軌,書同文,行同倫。」 《禮記.中庸》

  3. 全字庫 全字庫 計畫網站: http://www.cns11643.gov.tw/ 計畫授權聲明: http://www.cns11643.gov.tw/AIDB/copyright.do 資料開放平臺: http://data.gov.tw/node/5961 使用規範: http://data.gov.tw/?q=principle

    「創用 CC 姓名標示」? * * 參考 https://threelegcat.wordpress.com/2015/06/03/
  4. 開放資料 開放資料 字型:  全字庫正宋體  全字庫正楷體 屬性資料: 注音、倉頡、筆畫、部首、拼音、部件及筆順 編碼對照表:

    五大碼、萬國碼、電信碼、地政自造字、財稅內碼、稅務 碼及工商自造字
  5. 使用難處 使用難處 中標碼收錄字元偶有修訂 中標碼為交換碼而非內碼 字型由多次委外製作而成 國際內碼標準不斷更新 公訂屬性資料與民間習慣有差異 民訂屬性資料與民間習慣不相容 表格主鍵為中標碼而非萬國碼

  6. 衍生應用 衍生應用 ( ( 字型 字型 ) ) 目前成果: 

    正宋體原有的 TW-Sung-98_1.ttf, TW-Sung-Ext-B- 98_1.ttf, TW-Sung-Plus-98_1.ttf 加上由 EXTC* 從全字庫 資料庫中整理出的 EXTCMING.ttf 製作 RPM 格式套件: tw-sung-fonts-98.1-2.fc21.src.rpm  正楷體原有的 TW-Kai-98_1.ttf, TW-Kai-Ext-B- 98_1.ttf, TW-Kai-Plus-98_1.ttf 加上由 EXTC* 從全字庫 資料庫中整理出的 EXTCKAI.ttf 製作 RPM 格式套件: tw-kai-fonts-98.1-2.fc21.src.rpm * 參考 http://blog.xuite.net/extensionc/twblog/312593089
  7. 衍生應用 衍生應用 ( ( 字型 字型 ) ) 未來計畫: 

    以工具軟體 FontForge 轉換為 sfdir 文字檔案,做為適合 github 儲存與管理的格式。  將萬國碼表意文字補充平面的部分融合,並修改名稱資料 ,然後匯出為新的字型。
  8. 衍生應用 衍生應用 ( ( 屬性資料 屬性資料 ) ) 目前成果: 

    修改表格的中標碼主鍵以方便交叉參考  交叉參考產生漢語拼音、簡易、筆順等屬性表格  產生可做為輸入法規則的對照表  『書寫筆畫序』屬性修改為『部件筆畫序』  筆畫代碼: 1( 橫筆 ) 、 2( 豎筆 ) 、 3( 撇筆 ) 、 4( 點 筆 ) 、 5( 折筆 ) 之外,加入 0( 空筆 ) 與 6( 圈筆 ) 。
  9. 衍生應用 衍生應用 ( ( 屬性資料 屬性資料 ) ) 未來計畫: 從

    uni_stroke_sequence.txt 產生 cfs11643_stroke 在 /usr/share/i18n/locales/yue_HK 中插入 然後執行 就可以讓語區 yue_HK 獲得漢字排序的效果 mk-cfs11643_stroke.sh > /usr/share/i18n/locales/cfs11643_stroke LC_COLLATE copy "cfs11643_stroke" END LC_COLLATE LC_COLLATE copy "cfs11643_stroke" END LC_COLLATE localedef -f UTF-8 -i yue_HK yue_HK LANG=yue_HK ls 〇 一 二 三 冇 四 佢 咗 梘 啲 撳 劏 嚟
  10. 衍生應用 衍生應用 ( ( 編碼對照表 編碼對照表 ) ) 目前成果: 

    表格的主鍵由中標碼改為萬國碼  產生可做為輸入法規則的對照表 未來計畫:  交叉參考產生中標碼與國標碼的對照表
  11. 應用網址 應用網址 目前成果: https://github.com/bluebat/cfs11643 https://github.com/bluebat/cin-tables https://bluebat.fedorapeople.org/ppa/ 未來計畫: https://github.com/cfs11643

  12. 謝謝各位 敬請指教 簡報模板:資訊未來大自由 ( 孫賜萍 )