Upgrade to Pro — share decks privately, control downloads, hide ads and more …

(學習護照)AI基礎課程

 (學習護照)AI基礎課程

D82180999c1d0153e03471ec4ead6a11?s=128

Yi-Zhen, Chen

July 14, 2021
Tweet

More Decks by Yi-Zhen, Chen

Other Decks in Technology

Transcript

  1. 人 工 智 慧 基 礎 課 程 A I

    簡 介 及 生 活 應 用 中原大學資訊管理學系 學習護照課程
  2. 課程導覽 AI 發展歷史 認識 AI AI核心概念 圖像辨識 & 自然語言處理 AI小遊戲

  3. 你想像中的AI….

  4. 又或者是….可以當老婆老公的AI ♥♥ 虛擬女友 雲端情人

  5. 但現實中我們接觸到的AI是 自動分類垃圾信件 圖像辨識兼具翻譯 圖像辨識 下棋高手

  6. 差距有點大…..究竟怎樣才算「智慧」? 美國哲學家約翰.瑟爾,主張應將人工智慧分作兩類: 強人工智慧 (Strong A.I.) 弱人工智慧 (Weak A.I.) 強調電腦擁有自覺意識、性格、 情感、知覺、社交等人類的特徵。

    機器能模擬人類具有思維的行為表現, 但不是真正懂得思考, 並不具意識也不理解動作本身的意義。
  7. 第一波 熱潮 第二波 熱潮 第三波 熱潮 AI 誕生 1956 1974

    1987 2010 1980 1993 AI發展歷史 達特茅斯會議誕生 「人工智慧」一詞 出現許多演算法 多應用於數學證明 語音辨識 機器翻譯 專家系統 類神經網路 硬體設備的進步, 使運算速度大幅提升 加上大數據時代來臨, 造就更為複雜的 深度學習架構出現。 人工智慧爆發的轉折點
  8. 第一波熱潮與低潮 人工智慧一詞誕生 於達特茅斯夏季人工智慧研究計畫會議中誕生人工智慧一詞, 人們趨之若鶩想透過電腦來解決問題。 第一代神經網路:單層感知器(Perceptron)被提出 由於人工智慧的理論採用邏輯推理方法建立起來,都以True與False來理解, 應用的面向以代數題與數學證明為主,放在實務運用並不易使用。 1956 1960 年代

    受限於計算機內存有限與處理速度慢 硬體效能低落、數據量不足,AI已經好幾年都沒有重要的突破。 通用問題解決機 (General Problem Solver)、日本第五代電腦等研究的失敗。 1974 年起
  9. 統計思維為人工智慧添入了生機,也造就了機器學習誕生。  從原先判斷真假的二元論,添加量化概念。(描述每件事情會發生的機率) 1980 年起 O X O X 0.9

    0.1 我能自行學習一套技能,再根據你們給的新數據, 去更正預測錯誤的地方,持續不斷地進步與優化! 第二波熱潮與低潮 第一次人工智慧泡沫後,研究領域轉為「機器學習」
  10. 機器學習演算法漸漸將人工智慧推廣到實用層面 1980 年起  淺層機器學習演算法:支持向量機(SVM)、決策樹興起 在垃圾郵件分類應用上受到矚目。 第二波熱潮與低潮 機器學習嘗試解決非線性切分問題 ► 線性問題:能用一條直線表示

    (線性方程式) ► 非線性問題:無法用一條直線表達 又稱線性不可分,現實世界多屬此類問題。 圖片來源:https://pyecontech.com/2020/03/24/svm/  第一套專家系統誕生 → 由領域專家寫下經驗規則
  11. 反向傳播法(Backpropagation)的提出讓類神經網路再度興起 第二波熱潮與低潮 利用激勵傳播與權重更新,來有效降低類神經網路的計算量。 全域最佳解 區域最佳解 但隨即發現反向傳播存在梯度消失問題 非線性關係的激勵函數 全域最佳解 線性關係的激勵函數 非線性關係的激勵函數無法真正找到全域最佳解

  12. 第二波熱潮與低潮 1987 年起  專家系統需要大量維護成本,應用範圍有侷限  因技術瓶頸,AI仍無法達到人類預期,而出現泡沫化  太多難題無法解答、無法定義成規則、無法以程式碼表示。

  13. 第三波現正熱映中 1993 技術與資料量不斷進步與累積,機器學習應用領域越來越廣 成功訓練出多層神經網路,正式命名為深度學習(Deep learning) Hinton發展的限制玻爾茲曼機與深度信念網路,解決反向傳播的優化問題。 電腦硬體儲存成本下降、運算能力增強以及雲端運算的出現,讓大數據時代來臨。 機器學習演算法的應用越來越廣,新模型也推陳出新。 2006 機器學習的昇華,深度學習的誕生!

  14. 第三波現正熱映中 2012 深度學習+GPU在ImageNet比賽一戰成名,爆發深度學習熱潮 2015年Microsoft團隊 甚至以3.5%錯誤率奪得冠軍 超越人類5%的錯誤率

  15. 三者關係 強人工智慧 (Strong A.I.) 弱人工智慧 (Weak A.I.)

  16. 機器學習 VS 深度學習 直接以訓練流程來看

  17. 機器學習 VS 深度學習 機器學習 (Machine learning) 深度學習 (Deep learning) 隸屬分支

    人工智慧的分支 機器學習的分支 演算法 統計模型 類神經網路 運作方式 根據輸入的特徵值 進行分類或分群 自行找出特徵後分類或分群 模型分析 結果解釋 可依輸入的特徵值進行解釋 全由機器自己組合換算, 產出的特徵無法理解與解釋 模型成效好壞 仰賴輸入特徵的有用性 仰賴資料數量
  18. 認識AI 人工智慧(Artificial Intelligence,AI)亦稱人工智能、機器智慧 可以定義為:「讓機器展現人類的智慧。」 目前是指透過電腦程式來呈現人類智慧行為或執行人類工作的技術。 AI就是問個好問題,並把問題設計成函數(Function) 這個函數就是解答本,像是一本擁有歷史資訊的考古題本。 • 就是利用數學上的函數來解現實世界的問題。 •

    函數就是輸入一個東西,來得到一個輸出。 • 只要規定好問題的輸入與輸出規則,就能把問題化成函數形式。
  19. 問個好問題 通常AI會依據目的和資料將問題區分成兩種: 新的資料和已分類的資料互相比較 分群 (Clustering) 分類 (Classification) 沒有明確的分類或群體

  20. 20 認識AI “一種很忠心的動物” 自然語言 語音辨識 圖形辨識 只要訂好輸入與輸出的規則,將問題化成函數 即可應用於多方領域之中 𝑓1 狗狗

    輸入 輸出 𝑓1 𝑓1 狗叫聲 狗狗
  21. None
  22.  處理分類問題(ex. 貓狗辨識、垃圾郵件分類)  訓練資料需要包括輸入和輸出(目標)  目標是人為標註,是輸入資料的對應答案。  常見的演算法 

    回歸分析、SVM  決策樹、隨機森林  各種知名神經網路模型(ex. CNN) 監督式學習
  23.  處理分群問題(ex. 找出同類型的顧客)  訓練資料沒有人為標註答案與目標  將相似的資料分成同一群組。  近期知名的非監督學習模型 

    生成對抗網路(GAN)  利用獎勵機制 評估每個行動後的回饋  依據正負向來調整模型行為 非監督式學習 強化學習 / 增強學習 Which Face is real 玩玩GAN小遊戲
  24.  有無人為標註的目標資料  監督式學習利用學成各分類的規則 來應用在新資料上  非監督學習利用已知資料去分群 依據結果加以解釋不同群組間的特性 監督 VS

    非監督
  25. AI適合的任務 樣本少 樣本多 情境無關 情境高度相關 車牌辨識 產品瑕疵檢測 車流計算 人臉辨識 下棋

    醫療診斷 設備故障預測 最佳排程預測 AI 擅長 AI 不擅長 來客量預測 信用卡風險預測 自駕車 對話機器人 颱風路徑預測 災害處理 預測戰爭 經濟表現預測
  26. AI的核心概念 想想看人的思考方式 遇到新事物的時候,人類是怎麼學習的? 這是什麼動物? 這些都是狗狗 初次看到狗的人 已知這是狗的人

  27. 類神經網路 模擬生物的感知機制 電腦科學家由生物大腦的神經元運作方式所啟發 輸入層 隱藏層 輸出層

  28. 貓狗辨識 𝑓(x) 舉個栗子 Q. 我拍了一張動物照片,我想知道這是狗還是貓? 可以將這個問題化為函數的形式: 狗 輸入 輸出 (一張動物圖片)

    (圖片中是狗還是貓)
  29. 電腦看圖片會是一格格的像素,每一格會有數值來代表顏色。 𝑓(x) 狗 輸入 輸出 打造模型 如何用電腦打造一個函數學習機? 需要將輸入資料轉換成電腦可接受的格式,輸出資料轉換成人類可以理解的格式。 • 電腦可以接受的輸入通常是一個數值或一堆數值,例如:矩陣、向量

    以上一頁的輸入資料為例,即使輸入是張圖片,依然要辦法讓圖片化成一堆數字。 ※ 圖片本身就是一個很大的矩陣,可以化為一堆數值。 於是會變成這樣
  30. 函數就是解答本 函數就是某個問題「解答本」,只要找對函數(y=ax+b),就可以找到對應問題的解答本。 例如,貓狗辨識的範例裡 輸入資料是貓跟狗照片的集合 → 定義域X就是所有輸入資料的集合 就是「所有可能問題」的集合。 輸出即是對應的貓跟狗標籤的集合 → 值域Y就是所有輸出的集合

    就是「所有可能答案」的集合。 ※ X 的所有元素只能對應到 Y 的某一個元素 → 即一個輸入對應一個輸出
  31. 建構一個完整的解答本 例如:貓狗辨識 去收集很多狗跟貓的照片或特徵, 同時也知道答案 → 這些已知道答案資料叫做「歷史資料或訓練資料」。  這些對應的答案,稱之為標籤(Label ) 

    資料通常越有鑑別度、特徵明顯會越好。  分群問題的資料通常沒有明確標籤或分類 狗 資料 答案 貓
  32. 狗 輸出答案 輸入 新資料 打造一個函數學習機 例如,貓狗辨識的範例裡 用歷史資料去「學習與訓練」出一個模型 → 希望這個模型以後可以推論出新的犬類照片。 𝑓(x)

    訓練成分類模型
  33. AI 解決問題的步驟 我拍了一張動物照片,我想知道這是狗還是貓? 1. 先問一個問題 2. 把問題化成函數的形式 一張照片 3. 建構一個完整的解答本

    5. 學習(訓練) 4. 打造一個函數學習機 輸入 輸出 狗或貓  收集大量的歷史資料(帶有答案)  資料裡帶有許多特徵 ex. 毛色、體型、眼距…等  使用機器學習演算法 或神經網路模型  使用激勵函數(Cost function) 努力找到可使誤差最小的參數
  34. 圖像識別 讓電腦識別出影像中的元素,例如人物、物體和事件等等。 應用在許多領域 自駕車 臉部辨識和生物辨識 反向圖片搜尋 識別不當內容

  35. None
  36. 圖像識別 使用人工智慧、機器學習和深度學習技術來實現 原理 狗 輸入 輸出 訓練 模型 深度學習會將兩步驟包括起來訓練 以CNN模型抽取特徵步驟為例

     把影像理解為數值矩陣  卷積:利用許多過濾器轉換出一張張特徵圖  池化:利用窗格(2X2)遍歷整張特徵圖取每窗格最大值  最後連接神經網路模型進行訓練 抽取 特徵 抽取 特徵
  37. 圖像識別 挑戰和威脅 侵犯隱私 數據蒐集 偽造身份 審查威脅  有心人士偽造身份,竊取敏感資料  利用深偽技術

    偽造出移花接木的造假影片  人臉辨識使監控更加容易  結合監視器就能隨時監控一舉 一動  導致隱私權的侵犯  第三方軟體可能會取用 手機的照片和資料  有資料外洩疑慮  人臉辨識可能用於審查和監控  例如查核罪犯
  38. 自然語言處理 自然語言處理(Natural Language Processing) 一種透過數學模型及演算法來讓機器去認知、理解並運用人類語言的技術。 文字是非結構化資料,處理起來十分棘手,但其包含的資訊量龐大 自然語言處理有五大難處 機器語言和人類語言之間溝通的橋樑 NLP兩大核心 自然語言理解

    NLU 將輸入的語言變成電腦可解讀的符號或表示法 自然語言生成 NLG 將電腦數據試圖轉化成人類可解讀的自然語言 沒有規律 自由組合 知識仰賴 基於情境和上下文 創新多變
  39. 自然語言處理 如何抽取特徵? 斷詞 過濾停用詞 這 間 小 吃 店 給

    我 一 種 歷 史 悠 久 的 感 覺 。 很 居 家 的 用 餐 環 境 , 沒 有 任 何 壓 力 , 店 員 也 很 親 切 。 使用備有許多單詞的詞典進行斷詞, 以「單詞」為單位來切分。 這 間 小 吃 店 給 我 一 種 歷 史 悠 久 的 感 覺 。 很 居 家 的 用 餐 環 境 , 沒 有 任 何 壓 力 , 店 員 也 很 親 切 。 用預先建好的停用詞字典, 過濾經常出現又較不具意義的某些詞或標點符號 間 小 吃 店 給 種 歷 史 悠 久 感 覺 居 家 用 餐 環 境 沒 有 任 何 壓 力 店 員 親 切 詞典 小吃店 (n.) 壓力(n.) 店員(n.) 停用詞列表 的 之 了 這 一 也 很 , 未處理文檔
  40. 自然語言處理 基於計數的特徵 詞袋模型(Bag-of-words model) 基於分布的特徵 詞向量(word embedding) 向量特徵有兩種表示方法 轉換成向量 詞彙編號

    詞彙表內容 文檔一 文檔二 ….. 文檔N 0 小吃店 1 0 …. 2 1 店員 1 1 …. 0 …. …. … … …. …. 0.067 0.067 0.067 0 0 0.067 0 0.067 0 0 ……  將單詞嵌入至一個向量空間,使得所有語意相似的單詞被分佈在相近的向量空間位置  現今會使用複雜的神經網絡訓練生成,其內容與數值無法理解。 以單詞出現在文檔內的頻率作為特徵值
  41. 自然語言處理 各種應用 聊天機器人 情感分析 語音辨識 文本生成

  42. 常見問題 Ans. 我看科幻小說、電影,還有老高都說 人工智慧有可能毀滅人類,是真的嗎? Q. 目前的AI主要是機器學習模型,且算是弱人工智慧 只能解決限定的問題,並非通用的智慧, 基於這點也能明白人類大腦成熟度遠遠勝過人工智慧。 Ex. 解圍棋的AlphaGo不能拿去解象棋,

    模型每走一步棋只是運行一次模型,無法理解到自己正在下棋。 輸入資料與特徵內容是影響模型的關鍵 機器必須經過資料清整才能從巨量資料中找出規律,因此輸入格式要求嚴格。 所以無法對未針對問題、未分類的資料直接進行學習。
  43. 常見問題 既然如此 有必要使用人工智慧嗎? Q. Ans. 機器擁有人類永遠無法達到的性能 以電腦比喻人類大腦就是一台運算空間有限、非常耗電的機器。 而現今科技發展出的電腦,可以一秒鐘處理上千張圖片,且不會疲憊。 (因為這個原因我們才會害怕AI取代人類) AI有擅長跟不擅長的任務,人機互補才能長遠

    舉例,AI可以辨識出X光片中的病徵,但最終治療對策還是醫師執行。 (人類會因應不同情境自動去考慮不同因素,但AI不擅長處理複雜情境任務)
  44. 最後的最後 玩點小遊戲吧! Quick, Draw! Shadow Art Emoji Scavenger Hunt Auto

    Draw 建議使用網頁版開啟 需要使用有鏡頭的手機或電腦開啟
  45. 參考資料來源  文章 • 人工智慧大歷史 • 人工智慧 - 維基百科,自由的百科全書 •

    機器學習 - 維基百科,自由的百科全書 • 監督學習 - 維基百科,自由的百科全書 • 人工智慧、機器學習、深度學習是什麼? – Machine Learning 教學系列 (一) | iKala Cloud • 通用人工智慧 - 維基百科,自由的百科全書 • 問答系統 | IISR Lab (ncu.edu.tw) • 2012年令深度學習和NVIDIA股價火爆起來的真正關鍵──GPU • 耗時三十年,深度學習之父Hinton是怎麼讓一度衰頹的類神經網路重迎曙光的呢? • 從人工智慧、機器學習到深度學習,不容錯過的人工智慧簡史 • 早在三十年前,深度學習早就紅過了──淺談類神經網路曾經的瓶頸與衰頹 • 機器學習的機器是怎麼從資料中「學」到東西的?超簡單機器學習名詞入門篇! • 八張圖,一次搞懂人工智慧的現在、未來,及對你工作的影響 - 未來城市@天下 (cw.com.tw) • 神經網路的復興:重回風口的深度學習 - StockFeel 股感 • 圖像辨識 – 定義、技術原理、及其應用領域 | OOSGA • 圖像辨識的威脅與挑戰 | NordVPN • 一文看懂自然語言處理-NLP(4個典型應用+5個難點+6個實現步驟) | IT人 (iter01.com)  影片 • 十三分鐘略懂 AI 技術:機器學習、深度學習技術原理及延伸應用 • 【CloudMile 科技情報站 EP.1】AI 是什麼?淺談人工智慧| 機器學習 V.S 深度學習  課程 • 古佳怡老師-AI人工智慧概論 • 鴻海教育基金會-人工智慧導論