FAQ

Khoa học dữ liệu (Data Science) khác gì Dữ liệu lớn (Big-data)

“Dữ liệu lớn” là cụm từ thông dụng để nói đến sự tăng trưởng mạnh mẽ theo số mũ của dữ liệu ngày nay, gồm cả dữ liệu có cấu trúc và không có cấu trúc (như hình ảnh, video, âm thanh, văn bản). Những chuyên gia về dữ liệu lớn cần thành thạo các công cụ để xử lý và phân tích lượng dữ liệu rất lớn này.

Mặt khác, “Khoa học dữ liệu” đề cập đến việc giải quyết một bài toán phức tạp trong một chuyên ngành ứng dụng nào đó, bằng cách sử dụng kết hợp các công cụ của toán học, thống kê và khoa học máy tính. Việc này đòi hỏi rất nhiều kiến thức sâu và đa ngành mà mỗi chuyên gia (nhà Khoa học dữ liệu (Data Scientist) thường chỉ thành thạo một hoặc hai chuyên ngành. Giải quyết các bài toán Khoa học dữ liệu cần sự kết hợp làm việc nhóm rất cao.

Làm thế nào để trở thành nhà Khoa học dữ liệu?

Cần rất nhiều kiến thức rộng và sâu để trở thành nhà KHDL. Nhưng điều này hoàn toàn có thể cho bất cứ ai có tư duy logic và chịu khó. Nhìn chung có thể chia thành các kỹ năng sau:

  1. Công cụ lập trình dữ liệu (R hoặc Python)
  2. Thao tác với dữ liệu, biến đổi, làm sạch và chuyển đổi dữ liệu
  3. Khai phá dữ liệu (Exploration Data Analysis – EDA) – tìm kiếm các đặc điểm và xu hướng của dữ liệu
  4. Thống kê dữ liệu – cơ bản về biến ngẫu nhiên và xác suất, tìm hiểu các đặc trưng thống kê, phân bố, tương quan, kiểm định giả thuyết, phân tích phương sai, ước lượng
  5. Các mô hình Machine Learning: Supervised, Unsupervised, Reinforced learning
  6. Kiến thức về Đại số tuyến tính và giải thích cơ bản
  7. Deep Learning và AI
  8. Quản lý dự án Khoa học dữ liệu
  9. Các kỹ năng xử lý Big-data

(Như nói trên, mỗi data scientist chỉ có thể thành thạo 60-70% các kỹ năng trên là đủ)

Machine Learning (ML) là gì? ML là một chương trình máy tính có tính chất khác các chương trình máy tính truyền thống do các logic quyết định (kiến thức) được chính máy tính sử dụng các mô hình để học từ dữ liệu, thay vì được con người lập trình tường minh từ ban đầu.

Machine Learning là kỹ năng chủ đạo và đặc trưng của nhà Khoa học dữ liệu

Machine Learning làm được gì? ML là cách học bằng máy tính, giúp vừa tạo ra kiến thức từ dữ liệu thô, vừa ra quyết định kinh doanh một cách nhanh hơn, nhiều hơn và chính xác hơn cách làm thông thường.
ML làm tăng hiệu quả lao động cho cá nhân và doanh nghiệp một cách không giới hạn