Data Analytics

Chương trình học:
  • Giá trị của Dữ liệu và vai trò của Khoa học dữ liệu
  • Cách nhận diện bài toán Dữ liệu trong DN
  • Giới thiệu công cụ: R, Rstudio, Markdown, Git
  • Ngôn ngữ lập trình R: từ cơ bản đến nâng cao
  • Xử lý dữ liệu kinh doanh:
    • Tải dữ liệu, tổng hợp, xây dựng từ điển dữ liệu
    • Ghép nối dữ liệu
    • Xử lý ngày và ký tự
  • Khai phá dữ liệu kinh doanh (EDA):
    • Thống kê đơn biến phân loại và liên tục
    • Thống kê đa biến, nhóm dữ liệu
    • Biểu diễn hình ảnh dữ liệu với ggplot2
    • Nhóm dữ liệu
    • Phân tích xu hướng
  • Biến đổi dữ liệu:
    • Làm sạch dữ liệu
    • Chuẩn hóa dữ liệu
    • Tìm kiếm điểm bất thường
    • Giảm chiều dữ liệu
    • Tạo biến mới từ dữ liệu
  • Thống kê dữ liệu:
    • Phân tích tương quan
    • Các kiểm định và độ tin cậy: so sánh trung bình
    • So sánh trung bình với phương pháp phân tích phương sai (ANOVA)
    • Bootstraping dữ liệu
  • Mô hình Hồi quy:
    • Phương pháp bình phương tối thiểu
    • Hồi quy đơn biến
    • Phân tích sai số
    • Hồi quy đa biến
    • Hồi quy logistics
  • Cơ bản về Machine Learning:
    • Mô tả các bài toán Machine Learning
    • Các mô hình hồi quy và cây quyết định
    • Các khái niệm training, testing, overfiting, error rate, AUC, cross-validation
    • Regularization
    • Bài toán tối ưu, phương pháp gradient descent
    • Các mô hình không giám sát
    • Quy trình dự án Machine Learning
    • Cách chuyển đổi bài toán doanh nghiệp thành bài toán ML
    • Trình bày kết quả dự án ML

Kết quả nhận được:
  • Thành thạo ngôn ngữ R cho khai phá, làm sạch, biểu diễn hình ảnh
  • Phân tích các quan hệ kinh doanh bằng phương pháp thống kê
  • Làm chủ quá trình triển khai dự án khoa học dữ liệu

Đối tượng học viên:

  • Sinh viên và những người đam mê khai phá dữ liệu
  • Business Analyst (marketing, sale, finance,…)
  • Data Analyst
  • BA analyst
  • Software Developer
  • Business Manager