Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Bắt đầu học data science

Hong Ong
November 06, 2017

Bắt đầu học data science

Tổ chức: TopDev, VNG.
Chủ đề: Data Science – Mỏ vàng của Kỉ nguyên số.
Speaker: Ông Xuân Hồng - Data analyst @ Knorex.
Ngày: 19/07/2017.

Hong Ong

November 06, 2017
Tweet

More Decks by Hong Ong

Other Decks in Research

Transcript

  1. GIỚI THIỆU BẢN THÂN Full stack web developer Researcher at

    JAIST Blogger Data analyst Ông Xuân Hồng
  2. DATA SCIENCE Data Science Văn bản Xử lý ngôn ngữ

    tự nhiên Ảnh và video Thị giác máy tính Âm thanh Xử lý tín hiệu số Social network Phân tích đồ thị Business Khai thác dữ liệu DNA Tin sinh học … …
  3. PHÂN TÍCH DỮ LIỆU Tốc độ phát sinh dữ liệu

    88% Phân tích truyền thống 12% DATA ANALYST
  4. CÁ NHÂNVÀ NHÓM ¡ Đem những thứ mình đã học

    được ứng dụng vào thực tế. ¡ Làm những project thú vị hơn là outsource. ¡ Công việc đòi hỏi phải cập nhật để bắt kịp xu hướng. ¡ Làm việc giữa các nhóm Data Engineer, Data Analyst, và Data scientist được ăn ý hơn.
  5. Data Scientist là người giỏi về thống kê hơn các

    kĩ sư phần mềm và giỏi làm phần mềm hơn bất kỳ các nhà thống kê nào. -- Josh Wills – Director of Data Engineering @ Slack
  6. CON ĐƯỜNG HỌC THUẬT Đại học • 4 năm Master

    • 2 năm PhD • 3 năm Postdoc • 2 năm Lâu quá…
  7. RÀO CẢN BAN ĐẦU ¡ Học Toán không kĩ. ¡

    So sánh với các bạn cùng khoá. ¡ Quá nhiều thứ để học mà thời gian thì quá ít. ¡ Lo lắng việc làm khi ra trường. ¡ Mơ hồ về career path sau này.
  8. TỐ CHẤT NÊN CÓ ¡ Tò mò, thích khám phá

    kiến thức mới. ¡ Không ngại thử sai nhiều lần trong quá trình thực nghiệm. ¡ Yêu thích những phát hiện về khoa học tự nhiên. ¡ Ngưỡng mộ những nhà khoa học khác. ¡ Thích tìm tòi áp dụng những công cụ mới.
  9. STUDY FLOW Lập trình demo nhỏ Ý nghĩa Toán học

    Machine Learning keywords Ứng dụng mình quan tâm
  10. XÁC ĐỊNH DOMAIN • Đọc blog. • Đọc tin tức.

    • Thầy cô giới thiệu. • Bạn bè chia sẻ. • Công việc đòi hỏi.
  11. XÁC ĐỊNH BÀI TOÁN Nghiên cứu Bài toán Xử lý

    ngôn ngữ tự nhiên Language modeling, Part of speech tagging, Grammar parsing, Word segmentation, Machine translation, Named entity recognition, Question and Answering, Sentiment analysis, Discourse analysis, Word sense disambiguation, … Thị giác máy tính Image processing, Medical imaging, Pattern recognition, 3D reconstruction, Face recognition, Computer human interaction, Computer graphics, Object detection, Pose estimation, Shape recognition, Scene construction … Xử lý tín hiệu số Audio processing, Speech recognition, Noise reduction, Audio/Video compression, … Khai thác dữ liệu Extract Transform Load, anomaly detection, association rule learning, clustering, classification, regression, …
  12. TÌM KHOÁ HỌC ONLINE • Nắm kiến thức cơ bản.

    • Có thể vừa học vừa làm. • Thích học giáo trình nào thì học. • Chi phí thấp. • Học nhanh học chậm là do bạn.
  13. Kiểu dữ liệu Vòng lặp và Phân luồng Hàm Hướng

    đối tượng Cấu trúc dữ liệu và giải thuật
  14. HỌC LẬP TRÌNH ¡ Cấp thấp ¡ Java: Web app,

    mobile app, NLP framework. ¡ Scala: Big Data processing. ¡ C++/Go: Big Data processing. ¡ Cấp cao ¡ Python: tích hợp các nguồn dữ liệu, prototype mô hình thực nghiệm. ¡ R: phân tích thống kê, trình bày biểu đồ.
  15. HỌC TOÁN ¡ Giải tích (Analytics): tìm độ lỗi cực

    tiểu cho mô hình, cực đại hoá khả năng. ¡ Đại số tuyến tính (Linear algebra): nhân ma trận trong xử lý ảnh, biểu diễn và thao tác dữ liệu bảng. ¡ Toán rời rạc (Discrete mathematics): hỗ trợ phép đếm trong xác suất. ¡ Lý thuyết đồ thị (Graph theory): phân tích mạng xã hội. ¡ Xác suất thống kê (Statistics and probability): xây dựng mô hình dự đoán dựa vào dữ liệu quá khứ “educated guess”.
  16. INDUSTRY DOMAIN ¡ Marketing ¡ Customer support ¡ Sales ¡

    HR/Recruiting ¡ Security/Fraud ¡ Education ¡ Audio/Video ¡ Agriculture ¡ Healthcare ¡ Legal ¡ Financial
  17. STUDY FLOW Lập trình demo nhỏ Ý nghĩa Toán học

    Machine Learning keywords Ứng dụng mình quan tâm
  18. Làm gì nếu... • Chưa biết career paths. • Bạn

    không giỏi Tiếng Anh và bài giảng vẫn khó hiểu. • Bạn từ một ngành khác không phải IT. • Bạn muốn chuyển chuyển từ Dev sang DS. • Bạn muốn hiểu sơ để biết cách sử dụng điều hành nhóm. • Bạn muốn làm DS chuyên nghiệp và muốn tìm hiểu kĩ và sâu hơn các thuật toán.
  19. SỰ NGHIỆP Tốt nghiệp Đi làm Internship Data scientist Dev

    Data analyst Data engineer Startup Học học thuật Master PhD PostDoc
  20. BÀI GIẢNGVẪN KHÓ HIỂU ¡ Dịch các từ khoá raTiếngViệt

    để tìm kiếm các luận văn đàn anh đã làm. ¡ Xem blog TiếngViệt. ¡ Xác định các hội nghị, tạp chí chuyên ngành. ¡ Tìm kiếm các bài báo liên quan. ¡ Quản lý tài liệu thu thập được. ¡ Tóm tắt từng bài báo, tạp chí thu thập được (bài toán, phương pháp, kết quả, ưu điểm, nhược điểm).
  21. BẠN TỪ MỘT NGÀNH KHÁC KHÔNG PHẢI IT ¡ Sử

    dụng cheat sheet để học lập trình nhanh hơn. ¡ Sử dung appendix để học nhanh các thuật ngữ mình chưa biết. ¡ Chỉ nên biết để thoả sự tò mò không nên chuyển ngành. ¡ Biết được tính chất công việc của DS để tuyển dụng và làm việc nhóm. ¡ Biết qua các mô hình Machine Learning để sử dụng ra quyết định (các độ đo chính xác, ưu/khuyết điểm, đầu vào đầu ra). ¡ Nếu muốn theo đuổi thì có thể xem ngành này là đam mê bên cạnh công việc chính của mình (áp dụng vào công việc của mình, lập bạn học nhóm, làm một ứng dụng nho nhỏ).
  22. BẠN MUỐN LÀM DS CHUYÊN NGHIỆP Toán Lập trình Kiến

    thức ngành Kĩ năng mềm Data scientist
  23. TUYỂN DS NHƯ THẾ NÀO Nên ¡ Làm bài lập

    trình liên quan đến vị trí công việc. ¡ Phỏng vấn công trình nghiên cứu đã làm. ¡ Kỹ năng làm việc thực tế. ¡ Mindset trong vòng 3 năm tới. ¡ Khả năng trình bày. ¡ Nếu làm domain của bạn thì sẽ đưa ra giải pháp gì. Không nên ¡ Hỏi quá nhiều về thuật toán, mất thời gian vì trên mạng có hết rồi. ¡ Nói quá nhiều về domain của mình, không cho ứng viên có cơ hội trình bày ý tưởng của mình. ¡ Môi trường làm việc không tự do, bị áp đặt ý tưởng và gò bó về thời gian làm việc.
  24. R&D Brainstorm Cài đặt Thực nghiệm Thất bại Phân tích

    thất bại Khảo sát tài liệu Vấn đề Giải pháp
  25. CHIA SẺ ¡ Học kiến thức căn bản. ¡ Làm

    project portfolio. ¡ Viết blog trình bày kinh nghiệm bản thân. ¡ Apply công việc. ¡ Cần có tư duy phản biện khi review các bài báo. ¡ Đừng bắt đầu với các giải pháp phức tạp. ¡ Không biết mô hình nào tốt nhất thì thử tất cả. ¡ Đừng tin vào trực giác, nên dùng số liệu để kiểm chứng. ¡ Luôn có tinh thần sẵn sàng thay đổi.
  26. THAM KHẢO THÊM ¡ http://www.datatau.com/ ¡ https://metacademy.org/ ¡ http://datasciencemasters.org/ ¡

    http://machinelearningcoban.com/ ¡ How To Become A Data Scientist ¡ Ultimate Skills Checklist for Your First Data Analyst Job