Khóa học "Machine Learning with Python" lần 1 - 08/07/2019 tại TPHCM

Khóa học “Machine Learning with Python” lần 1 – 08/07/2019 tại TPHCM

Chi tiết khóa học

Tiếp theo khóa học “Data Analytics and Modelling with R” tại TPHCM tháng 04-05/2019, khóa học “Machine Learning with Python” sẽ được tổ chức vào đầu tháng 07/2019 để đưa các bạn đến với những kiến thức trong Level 2 của Chương trình Khoa học dữ liệu dễ dàng.

KẾT QUẢ NHẬN ĐƯỢC
• Thành thạo lập trình ngôn ngữ Python
• Dễ dàng tổng hợp, làm sạch, biến đổi, khai phá & biểu diễn hình ảnh dữ liệu với Python
• Hiểu rõ hơn về các mô hình Machine Learning: lý thuyết, tính chất và khả năng áp dụng
• Thực hành các dự án thực tế về dự báo giá nhà, dự báo rủi ro trả nợ, hệ thống khuyến nghị sản phẩm, xử lý ngôn ngữ tự nhiên, mạng neuron cơ bản
• Khai thác dữ liệu lớn với ML, quy trình triển khai hiệu quả các dự án ML trong doanh nghiệp

DÀNH CHO HỌC VIÊN MUỐN TRỞ THÀNH
• Data Analyst
• Data Engineer
• Machine Learning specialist
• Data scientist
• Data Manager

CHƯƠNG TRÌNH TÓM LƯỢC:
Học phần 1: Giới thiệu về Machine Learning (ML)
Học phần 2: Cơ bản về Python, Thư viện Numpy và Pandas
Học phần 3: Biểu diễn đồ thị với python (Matplotlib, Pandas)
Học phần 4: Mô hình Hồi quy (Regression)
Học phần 5: Đánh giá và cải tiến mô hình
Học phần 6: Hồi quy Logistics và K-nearest neighbors cho bài toán phân loại
Học phần 7: Mô hình cây quyết định, Random Forest và Support Vector Machine (SVM)
Học phần 8: Các mô hình Unsupervised Learning
Học phần 9: Các hệ thống khuyến nghị (Recommender Systems)
Học phần 10: Cơ bản về Xử lý dữ liệu văn bản, giới thiệu về mô hình mạng Neuron và Deep Learning


DEEP LEARNING

Chi tiết khóa học

Deep Learning (DL) là gì?

  • Vì sao Deep Learning?
  • Tác nhân thúc đẩy Deep Learning?

Ôn tập Đại số tuyến tính

  • Vector, cộng vector, nhân vô hướng, tích vector
  • Ma trận, định thức, nhân ma trận, ma trận nghịch đảo
  • Giá trị riêng, vector riêng, phân tích thành phần chính

Giới thiệu về Mạng Neuron

  • Neuron, cách hoạt động
  • Hàm activation
  • Mạng Neuron (NN) hoạt động thế nào?
  • Mạng Neuron Ảo (ANN) học thế nào?
  • Gradient Descent là gì?
  • Gradient Descent ngẫu nhiên là gì?
  • Lan truyền ngược (Backpropagation) là gì?
  • Thực hành xây dựng NN với python và keras
  • Đánh giá, cải tiến và tinh chỉnh mạng NN: Hyperparameter tuning, Regularization và Optimization

Mạng Neuron Tích chập (CNN)

  • CNN là gì? Vì sao?
  • Cách hoạt động của CNN
  • Hàm ReLu
  • Pooling, Flattening, Full Connection là gì?
  • Softmax và Cross-Entropy?
  • Thực hành xây dựng CNN

Mạng Neuron Hồi quy (RNN)

  • Đánh giá, cải tiến và tinh chỉnh mạng CNN
  • Ý tưởng của mạng RNN
  • Vấn đề suy biến đạo hàm (Vanishing Gradient)
  • Mạng bộ nhớ dài-ngắn (Long Short Term Memory networks)
  • Thực hành xây dựng RNN
  • Đánh giá, cải tiến và tinh chỉnh mạng RNN

Mạng neural tự tổ chức SOM (Self-Organizing Map)

  • Ý tưởng của SOMs là gì?
  • SOMs hoạt động thế nào?
  • Liên hệ với K-Mean
  • Thực hành xây dựng SOM
  • Đánh giá, cải tiến và tinh chỉnh mạng SOM

Mạng AutoEncoders

  • Ý tưởng của AutoEncoders là gì?
  • AutoEncoders hoạt động thế nào?
  • Các biến thể của AutoEncoders

DATA ANALYTICS

DATA ANALYTICS

with R

Những ai có thể học khóa Data Analytics with R

  • Bạn là một nhân viên doanh nghiệp, hàng ngày tổng hợp dữ liệu với Excel nhưng loay hoay vì:
    • Giới hạn số dòng < 1,000,000. Làm sao tổng hợp mọi giao dịch trong 10 năm?
    • Vlookup không nổi với hàng chục ngàn dòng
    • Câu lệnh so sánh ký tự treo quá lâu
    • Pivotable trên dữ liệu thô cũng treo
    • Lặp lại một thao tác cho nhiều cửa hàng
    • Mô hình dự báo làm thế nào?
  • Bạn làm ở phòng dữ liệu, làm sao báo cáo và hiển thị được xu hướng tổng quan, hiệu quả hay điểm bất thường của hoạt động kinh doanh?
  • Bạn là một kỹ sư công nghệ, muốn biết Machine Learning làm được gì?
  • Bạn có thể là một giảng viên, dữ liệu không quá lớn nhưng nhiều chiều (học sinh, môn học, điểm số, đánh giá,…), có mô hình nào dự báo, đánh giá hay phân loại không?
  • Bạn là một quản lý, làm sao tăng giá trị và năng suất của doanh nghiệp với các mô hình Machine Learning?
  • Bạn là sinh viên, cần chuẩn bị kỹ năng cho công việc thời đại 4.0

Trong thời đại này, dữ liệu có ở trong mọi ngành, mọi doanh nghiệp. Bạn hãy biết cách làm chủ và khai thác nó để tăng năng suất cho mình và cho doanh nghiệp. R là một công cụ cơ bản và hữu hiệu để bạn bắt đầu. Các phương pháp giảng dạy của

Kỹ năng đạt được:

  1. Thành thạo lập trình ngôn ngữ R
  2. Khai phá dữ liệu: tổng hợp, làm sạch, chuẩn hóa, biến đổi dữ liệu kinh doanh
  3. Biểu diễn hình ảnh và tạo lập các báo cáo Business Intelligence hiệu quả
  4. Sử dụng các phương pháp thống kê để phân tích dữ liệu kinh doanh
  5. Xây dựng các mô hình dự báo xu hướng và rủi ro
  6. Làm chủ quá trình triển khai dự án khoa học dữ liệu trong Doanh nghiệp

Các bộ dữ liệu thực hành:

Các bộ dữ liệu sử dụng bao gồm:
1. Churn customer: Dự báo khách hàng chuyển mạng viễn thông
2. Home credit default customer: Dự báo khách hàng nợ xấu
3. Bikesharing: Dự báo số lượt thuê xe đạp
4. Old car price: Dự báo giá xe cũ
5. US College: Phân cụm các trường học ở Mỹ
6. Vietnamese retail shop: Phân tích giỏ hàng siêu thị VN

Công cụ, phần mềm: R, RStudio, RMarkdown, Tableau

Các mô hình Machine Learning:

  1. Hồi quy tuyến tính
  2. K-Nearest Neighbors (KNN)
  3. Hồi quy Logistics
  4. Decision Tree
  5. Random Forest
  6. Naive Bayes
  7. K-mean Clustering
  8. Hierarchical Clustering
  9. Association Rules
  10. Neural Network

Chi tiết khóa học

Tổng Quan

  • Giá trị của Dữ liệu và vai trò của Khoa học dữ liệu
  • Cách nhận diện bài toán Dữ liệu trong DN
  • Giới thiệu công cụ: R, Rstudio, Markdown, Git
  • Ngôn ngữ lập trình R: từ cơ bản đến nâng cao

Xử lý dữ liệu kinh doanh:

  • Tải dữ liệu, tổng hợp, xây dựng từ điển dữ liệu
  • Ghép nối dữ liệu

Khai phá dữ liệu kinh doanh (EDA):

  • Thống kê đơn biến phân loại và liên tục
  • Thống kê đa biến, nhóm dữ liệu
  • Biểu diễn hình ảnh dữ liệu với ggplot2
  • Nhóm dữ liệu
  • Phân tích xu hướng

Biến đổi dữ liệu:

  • Làm sạch dữ liệu
  • Chuẩn hóa dữ liệu
  • Tìm kiếm điểm bất thường
  • Giảm chiều dữ liệu
  • Tạo biến mới từ dữ liệu

Thống kê dữ liệu:

  • Phân tích tương quan
  • Các kiểm định và độ tin cậy: so sánh trung bình
  • So sánh trung bình với phương pháp phân tích phương sai (ANOVA)
  • Bootstraping dữ liệu

Mô hình Hồi quy:

  • Phương pháp bình phương tối thiểu
  • Hồi quy đơn biến
  • Phân tích sai số
  • Hồi quy đa biến
  • Hồi quy logistics

Cơ bản về Machine Learning:

  • Mô tả các bài toán Machine Learning
  • Các mô hình hồi quy và cây quyết định
  • Các khái niệm training, validation, testing, bias và variance
  • Regularization
  • Bài toán tối ưu, phương pháp gradient descent
  • Các mô hình không giám sát
  • Quy trình dự án Machine Learning
  • Cách chuyển đổi bài toán doanh nghiệp thành bài toán ML
  • Trình bày kết quả dự án ML


MACHINE LEARNING

MACHINE LEARNING

Chi tiết khóa học

Giới thiệu về Machine Learning (ML)

  • Chương trình ML
  • Khả năng khai thác tri thức từ dữ liệu của ML
  • Tác nhân thúc đẩy ML
  • Phân biệt các khái nhiệm ML, Data Science, AI, IoT, Big-data
  • Các bài toán ML – Supervised và Unsupervised Learning
  • Tối tương quan giữa ML và Thống kê

Lập trình dữ liệu với Python

  • Jupyter notebook
  • Python cơ bản
  • Numpy và Pandas
  • Biểu diễn đồ thị với python (Matplotlib, Seaborn, Pandas)

Mô hình Regression

  • Giới thiệu
  • Bài toán Regression 1 biến
  • Các khái niệm Cost Function, Gradient Descent
  • Thực hành và đánh giá Regression nhiều biến
  • Các khái niệm Generalization, Capacity, Overfitting and Underfitting
  • Các khái niệm training, validation, testing, bias và variance
  • Ôn tập về Đại số tuyến tính
  • Thực hành và đánh giá Regression nhiều biến
  • Biến đổi biến trong Regression
  • Các vấn đề lưu ý với Regression: phân tích residuals, collinearity, cách xây dựng mô hình
  • Hồi quy đa thức

Hồi quy Logistics

  • Bài toán phân loại
  • Giả thuyết và biên quyết định
  • Hàm Cost và tối ưu
  • Regularization trong Regression
  • Thực hành Logistic trên dữ liệu thực tế

Mô hình cây quyết định

  • Thực hành và đánh giá Mô hình cây quyết định
  • Bootstraping dữ liệu
  • Mô hình Bagging và Random forest
  • Mô hình Boosting
  • So sánh mô hình cây và SVM

Các mô hình Unsupervised Learning

  • Mô hình K-means clustering
  • Mô hình Hierarchical clustering
  • Mô hình Association rules

Các hệ thống khuyến nghị (Recommender Systems)

  • Content Based Recommendations
  • Collaborative Filtering

Thực hành Dự án ML

  • Xử lý dữ liệu văn bản (Text)
  • Lấy dữ liệu, tiền xử lý dữ liệu văn bản
  • Phương pháp TFIDF
  • Phân loại văn bản: Topic modeling & Sentiment analysis
  • Machine Learning trên dữ liệu lớn (Big-data)
  • Giới thiệu về Neural Network và Deep Learning