Open Refine Course

7f7cce675da85bf8807da9f8d0c3a955?s=47 tkirby
November 05, 2015

Open Refine Course

7f7cce675da85bf8807da9f8d0c3a955?s=128

tkirby

November 05, 2015
Tweet

Transcript

  1. Open Refine 清理資料、修正格式、轉換內容、利⽤用網路服務

  2. http://x.co/openrefine

  3. None
  4. None
  5. None
  6. None
  7. None
  8. None
  9. None
  10. None
  11. None
  12. None
  13. None
  14. None
  15. None
  16. None
  17. None
  18. None
  19. None
  20. None
  21. None
  22. raw.infographics.tw

  23. None
  24. None
  25. None
  26. None
  27. multi-value cells — split + join or

  28. None
  29. None
  30. None
  31. None
  32. None
  33. ⾼高中|⾼高職|職業|⼯工商|商⼯工|農⼯工|⼯工專|⾼高商|⼥女中|專科|⾼高級中學|⾼高⼯工|商職|海事 ⼤大學|⼤大專|學院|醫專

  34. None
  35. None
  36. None
  37. Regular Expression ⽤用⼀一段字去表⽰示⼀一群⽂文字 四位數字 1000 2345 6892 中⽂文字 騎⾺馬習慣看唱本 ⾛走著瞧

  38. Regular Expression ⽤用⼀一段字去表⽰示⼀一群⽂文字 10*1 11 101 1001 10001 1.1 1A1

    1b1 1F1 101 191 1=1
  39. Regular Expression ^.{4}⾼高級?中學?(畢業)?$ ^ — 開頭 $ — 結尾 .

    — 任何字 ? — 0 ~ 1次 * — 0 ~ 任意次 + — 1 ~ 任意次 {1,4} — 1 ~ 4次 () — 成組表⽰示 | — 分隔 (取其中⼀一個即可)
  40. ⾼高級中學 中學

  41. ^ — 表⽰示開頭 $ — 表⽰示結尾 ⾼高級中學 中學$

  42. ^ — 表⽰示開頭 $ — 表⽰示結尾 ⾼高級中學 ^中學

  43. ^ — 表⽰示開頭 $ — 表⽰示結尾 ⾼高級中學、國⽴立⼤大學 中學$

  44. ^ — 表⽰示開頭 $ — 表⽰示結尾 ⾼高級中學、國⽴立⼤大學 ^國⽴立

  45. ⾼高級中學、國⽴立⼤大學 .學 . — 表⽰示任意字

  46. . — 表⽰示任意字 ⾼高級中學 …..

  47. ⾼高級中學 .* * — 表⽰示任意次 ( 前⾯面需要接⼀一個字 )

  48. * — 表⽰示任意次 ( 前⾯面需要接⼀一個字 ) ⾼高級中學 ⾼高.*學

  49. ? — 表⽰示 0 ~ 1 次 ( 前⾯面需要接⼀一個字 )

    ⾼高中學⽣生 ⾼高..?學 ⾼高級中學
  50. + — 表⽰示⼀一次以上 ( 前⾯面需要接⼀一個字 ) 有餘 年+有餘 年年有餘

  51. ? — 表⽰示 0 ~ 1 次 ( 前⾯面需要接⼀一個字 )

    ⾼高中肄業 ⾼高中畢? ⾼高中畢業
  52. () — 括號把字組合起來 ⾼高中肄業 ⾼高中(畢業)? ⾼高中畢業 ⾼高中畢

  53. | — 多組規則分隔取其⼀一 彰化⾼高商 ⾼高中|⾼高商|農⼯工 雲林⾼高中 嘉義農⼯工

  54. 練習時間 花蓮⾼高⼯工畢業 ⾼高(中|職|⼯工)(畢業)? *$ 泰北中學 ⾼高雄中學 ⾼高中、國中 ⾼高 ⼯工畢業

  55. 練習時間 1. 有幾筆電話以 34 做結尾? 2. 有幾筆電話符合這種樣式? 02-2562-6434 02-256-6434

  56. None
  57. 1 + 2 * 3 - 4 算術運算

  58. ( 1 + 2 ) * 3 - 4 %

    6 / 2
  59. 9.2 * 23460000 / 100 Q: 是多少? 台灣⼈人⼝口數 ⽀支持率 %

  60. value * 23460000 / 100 台灣⼈人⼝口數 ⽀支持率 % 變數 value

  61. row.index 變數 row row.cells

  62. 變數 cells row.cells[“姓名”] + “先⽣生” cells[“姓名”] + “先⽣生”

  63. 函式 substring(value,1,2) replace(value,”肄”,”畢”)

  64. 練習時間 substring(value,1,2) replace(value,”肄”,”畢”) 1. 將所有政黨中的「黨」字去掉 2. 將姓名加上職稱

  65. None
  66. None
  67. None
  68. Let’s Go Deeper • 總⾦金額有多少? • 有多少⼈人捐款? • 多少⼈人不具名?各捐了多少次? •

    誰捐了最多錢? • 平均每個⼈人捐了多少錢?捐了幾次? • 哪個⾦金額是⼤大家最愛捐的? • 禮拜幾⼤大家最愛捐錢?
  69. A B 1 10 5 2 20 4 3 30

    3 = 10 + 5 = 10 + 20 + 30 = A1 + A2 + A3 = SUM(A1:B3) = SUM(A:A) = SUM( UNIQUE(A:A) )
  70. Let’s Go Deeper • 總⾦金額有多少? • 有多少⼈人捐款? • 多少⼈人不具名?各捐了多少次? •

    誰捐了最多錢? • 平均每個⼈人捐了多少錢?捐了幾次? • 禮拜幾⼤大家最愛捐錢?
  71. Functions • SUM • COUNTA • UNIQUE • FILTER •

    WEEKDAY • YEAR • MONTH • = (1 + 2) / 3 • =SUM(A:A) • =COUNTA(A1:B2) • FILTER(A:A,A:A = 3) • FILTER(A:A,A:A > 3) • WEEKDAY(A5) • DAY(D1) • = “ABC”
  72. https://goo.gl/s2wZ18 冰桶挑戰芳名錄 Spreadsheet

  73. Exercise • =(1 + 2) / 3 • =SUM(A:A) •

    =COUNTA(A1:B2) • =UNIQUE(A:A) • =FILTER(A:A,A:A = 3) • =FILTER(A:A,A:A > 3) • =WEEKDAY(A5) • =YEAR(B5) • =DAY(D1) • 總⾦金額有多少? • 多少⼈人不具名?各捐了多少次? • 誰捐了最多錢? • 哪個⾦金額是⼤大家最愛捐的? • 禮拜幾⼤大家最愛捐錢? • 每⽉月的幾號⼤大家最喜歡捐錢? • 捐款在⼀一萬元以上的有多少⼈人? • 加總 • 算數量 • 扣掉重覆的 • 過濾不要的 • 取出星期幾 • 取出年 • 取出⽇日
  74. https://goo.gl/bE9xLb 第11屆村⾥里⻑⾧長選舉

  75. None
  76. None
  77. None