Hi, I'm [VAN], a [IT PROFESSIONAL ]

INFORMATICS FOR EVEYONE

TIN HỌC CHO MỌI NGƯỜI

NỘI DUNG CHƯƠNG TRÌNH

BÀI GIẢNG LÝ THUYẾT & THỰC HÀNH

KHOA HỌC DỮ LIỆU -DATA SCIENCE

NỘI DUNG

1- Data Science là gì?

2- Tầm quan trọng của Data Science

3- Vai trò của Data Scientist

4- Học xong tôi có những kỹ năng gì?

5- Tôi có thể làm công việc gì ở đâu?

6- Tôi cần chuẩn bị những kiến thức đầu vào nào?

7- Cơ hội nghề nghiệp và Định Cư

1- Data Science là gì?

Data Science (hay còn gọi là Khoa học dữ liệu) trở thành một trong những ngành có nhu cầu nhân lực cao nhất ở thế kỷ 21. Thuật ngữ “Data Science” cũng là thuật ngữ được nhiều người nhắc đến hằng ngày. Vậy Data Science là gì? Hãy bắt đầu tìm hiểu với hướng dẫn về Data Science.

Data Science được định nghĩa là tất cả những gì về thu thập, khai thác và phân tích dữ liệu để tìm ra insight giá trị. Sau đó trực quan hóa các Insight cho các bên liên quan, để chuyển hóa Insight thành hành động. Đây là lĩnh vực đa ngành sử dụng các phương pháp và quy trình khoa học để rút ra insight từ dữ liệu.

Với sự xuất hiện của công nghệ mới các dữ liệu đã tăng lên theo cấp số nhân. Điều này đã đem đến một cơ hội mới để phân tích cũng như chuyển hóa các Insight ý nghĩa từ Data.

Theo đó, yêu cầu bức thiết đặt ra cần có một chuyên gia “Data Scientist”, người mà có khả năng dùng các công cụ thống kê và Machine learning (một lĩnh vực nhỏ của Khoa Học Máy Tính, công cụ có khả năng tự học hỏi dựa trên dữ liệu đưa vào mà không cần phải được lập trình cụ thể).

Một Data Scientist (Nhà khoa học dữ liệu) không chỉ dừng lại ở việc phân tích dữ liệu, mà còn biết sử dụng thuật toán Machine Learning để dự đoán tương lai của một sự kiện.

Do đó, có thể hiểu Data Science là một lĩnh vực liên quan đến xử lý dữ liệu, phân tích và trích xuất thông tin chi tiết từ dữ liệu bằng các phương pháp thống kê và thuật toán máy tính khác nhau. Đây là một lĩnh vực đa ngành kết hợp Toán học, Thống kê và Khoa học máy tính.

2- Tầm quan trọng của Data Science

Các công ty phụ thuộc vào nền tảng dữ liệu để cấu trúc, phát triển và cải tiến doanh nghiệp. Các Data Scientist làm việc với các con số, phân tích một một khối lượng lớn Data để xuất ra những Insight ý nghĩa. Những insight này rất hữu ích khi phân tích công ty và các hoạt động của công ty trên thị trường từ đó đưa ra các quyết định đúng đắn.

Cũng như các ngành công nghiệp thương mại khác, ngành chăm sóc sức khỏe cũng ứng dụng Data Science. Nơi mà công nghệ đang có nhu cầu rất lớn để nhận dạng các khối u siêu nhỏ ngay từ giai đoạn đầu.

Thống kê chỉ ra số lượng vai trò của các Data Scientist đã tăng trưởng 650% kể từ năm 2012. Khoảng 11,5 triệu việc làm liên quan đến chức danh này sẽ được tạo ra đến năm 2026 (theo U.S. Bureau of Labor Statistics). Bên cạnh đó công việc của các Data Scientist được xếp hạng top các công việc nổi bật trên LinkedIn.

3- Vai trò của Data Scientist

Một Data Scientist phải xử lý cả dữ liệu có cấu trúc và phi cấu trúc. Dữ liệu phi cấu trúc được thể hiện dưới dạng dữ liệu thô, yêu cầu phải xử lý, làm sạch và tổ chức lại dữ liệu để tạo ra một cấu trúc có ý nghĩa cho bộ dữ liệu.

Theo đó các Data Scientist sẽ nghiên cứu các dữ liệu đã được tổ chức và phân tích kỹ lưỡng để trích xuất thông tin bằng cách sử dụng nhiều phương pháp thống kê khác nhau. Họ sẽ sử dụng các phương pháp thống kê để mô tả, trực quan hóa và đưa ra các thông tin giả thuyết từ dữ liệu đó.

Sau đó các Data scientist sẽ sử dụng thuật toán Machine learning để dự đoán các sự kiện sẽ xảy ra và đưa ra quyết định dựa trên các data đó. Những Data Scientist sẽ triển khai các mảng lớn công cụ và thực tiễn để nhận ra các mẫu dư thừa trong dữ liệu. Các công cụ này bao gồm SQL, Hadoop, Weka, R và Python.

Họ thường đóng vai trò nhà tư vấn trong công ty, tham gia vào các quá trình ra quyết định khác nhau và tạo ra các chiến lược. Nhờ vào sự hiểu biết từ dữ liệu, họ hỗ trợ các công ty đưa ra quyết định kinh doanh thông minh hơn.

Điển hình như các công ty công nghệ như Google, Netflix, và Amazon đang sử dụng Khoa học dữ liệu, để phát triển hệ thống các đề xuất tích cực cho người dùng. Tương tự, các công ty tài chính khác nhau đang sử dụng các phương pháp phân tích và dự báo để dự đoán giá cổ phiếu.

Khoa học dữ liệu đã giúp tạo ra một hệ thống thông minh hơn có thể đưa ra các quyết định tự trị dựa trên các dữ liệu lịch sử. Thông qua sự đồng hóa với các công nghệ mới nổi như Thị giác máy tính, Xử lý công nghệ tự nhiên, Reinforcement Learning (một lĩnh vực thuộc Machine Learning).

4- Học xong tôi có những kỹ năng gì?

  • Hiểu được các khái niệm cơ bản và phương pháp luận trong khoa học dữ liệu, các bước trong một dự án Data Science.

  • Nắm được kiến thức cơ bản về xác suất thống kê ứng dụng trong Data Science

  • Sử dụng thành thạo ngôn ngữ lập trình Python trong việc thống kê dữ liệu, cài đặt các thuật toán học máy và hiển thị hóa dữ liệu (Data Visualization)

  • Hiểu được xu hướng, sự phân bố và sự tương quan giữa các đặc tính của dữ liệu và thực hành được về Data Visualization.

  • Biết được các thuật toán cơ bản trong học máy: Regression, Classification, Clustering.

  • Hiểu được các khái niệm cơ bản trong Deep Learning và sử dụng thuật toán vào các bài toán thực tế.

  • Thực hiện trọn vẹn được dự án cuối khóa tương đương một nhân viên làm được việc về Data Science tại doanh nghiệp hàng đầu Việt Nam

5- Tôi có thể làm công việc gì ở đâu?

  • Gia nhập các công ty sản xuất phần mềm ở lĩnh vực Data Science/AI của Việt Nam như FPT AI – FPT Software, Tinh Vân, CMC.

  • Đảm nhiệm vị trí phân tích dữ liệu trong lĩnh vực tài chính, ngân hàng, marketing như Vietcombank, Techcombank, VP Bank, …

  • Tham gia các vị trí trong dự án phát triển hệ thống AI/Data Science cho các doanh nghiệp có lượng data rất lớn và dồi dào như Viettel, VNPT AI, Lazada …

  • Làm việc như một data scientist/data analyst tại các công ty cần thu thập, lưu trữ và xử lý dữ liệu, công ty khởi nghiệp như ELSA, Cinnamon AI, Trusting Social, …

6- Tôi cần chuẩn bị những kiến thức đầu vào nào?

Ai cũng có thể học Data Science, đặc biệt với đối với một số các bạn học viên sau:

  • Học viên có kiến thức nền tảng về toán cao cấp: xác suất thống kê, đại số tuyến tính và giải tích.

  • Học viên đã có kiến thức về CNTT gồm: kỹ thuật lập trình cơ bản về Python, cấu trúc dữ liệu và giải thuật, cơ sở dữ liệu.

Học viên có thể tự trang bị, củng cố lại với các khóa học miễn phí trên mạng, hoặc có thể đăng ký học các môn nền tảng này qua email. Để được hướng dẫn chi tiết, bạn chọn đăng ký học để cán bộ tuyển sinh hướng dẫn cụ thể.


7- Cơ hội nghề nghiệp và Định Cư

Không phức tạp như một số công việc trong ngành Y, để tìm được việc thuộc ngành này, các bạn không cần phải học lên Master mới kiếm được mà ngay sau khi có bằng Cử nhân các bạn cũng có thể bắt đầu đi apply xin việc được rồi. Sau khi học xong bằng Cử nhân, các bạn có hai lựa chọn: đó là học lên bằng Cao học và đi kiếm việc.

Nhiều khi, mọi người luôn khuyến khích các bạn đi kiếm việc luôn thay vì học lên vì hầu hết kinh nghiệm thực tế trong công việc được đánh giá cao hơn tấm bằng Cao học. Đi làm cũng là để giúp bạn hiểu hơn những kiến thức đã được học trong môi trường học đường và cũng để bạn có sự chuẩn bị vững chắc hơn nếu bạn muốn theo đuổi trình độ học cao hơn trong tương lai.

Hiện nay, Data Science vẫn là một trong các ngành có nhu cầu tuyển dụng cao do vấn đề của con người nói chung và các doanh nghiệp nói riêng là phải xử lý một khối lượng thông tin và dữ liệu khổng lồ mà họ tiếp nhận được hàng ngày. Một doanh nghiệp, tổ chức thành công là một doanh nghiệp nắm được thông tin chuẩn xác và nhanh chóng. Đồng thời đây là ngành học liên quan trực tiếp đến sự phát triển của ngành công nghệ thông tin và sự phát triển của trí tuệ nhân tạo (artificial intelligence (AI)).

CHƯƠNG TRÌNH MÔN HỌC

Môn 1: Introduction to Data science – Nhập môn về Khoa học dữ liệu

Môn học này giới thiệu cho người học các khái niệm cơ bản trong khoa học dữ liệu (Data Science) bao gồm data science là gì, các chủ đề và thuật toán trong Data Science và ứng dụng trong thực tế. Ngoài ra môn học giới thiệu phương pháp luận sử dụng trong khoa học dữ liệu, vòng đời dự án Data Science. Học viên cũng được dạy về lập trình Python cơ bản và ôn tập lại về xác suất thống kê.

  • Biết cách lập trình Python cơ bản, các cấu trúc dữ liệu trong Python, làm việc với Pandas và Numpy

  • Nắm được các kiến thức kỹ năng cần thiết cho Data Science trong xác suất thông kê

  • Hiểu được các khái niệm cơ bản, các chủ đề, các ứng dụng của Data Science

  • Hiểu được phương pháp luận sử dụng trong data science, các bước để giải quyết các vấn đề data science từ nêu được bài toán, thu thập và phân tích dữ liệu, xây dựng thuật toán và hiểu được phản hồi sau khi thuật toán được cài đặt và sử dụng

Môn 2: Data analysis with Python – Phân tích dữ liệu với ngôn ngữ Python

Rất nhiều dữ liệu trên thế giới hiện nay được lưu trên cơ sở dữ liệu, kiến thức về cơ sở dữ liệu và ngôn ngữ SQL rất cần thiết để trở thành nhà khoa học dữ liệu. Môn học cung cấp kiến thức về các khái niệm cơ sở dữ liệu quan hệ, thực hành các câu lệnh query sử dụng ngôn ngữ SQL và Python. Học viên học làm việc sâu với Pandas, Numpy để khám phá nhiều dạng dữ liệu, làm sạch dữ liệu, xử lý dữ liệu bị thiếu. Môn học dạy cách biểu diễn dữ liệu để hiểu sâu hơn về dữ liệu, giúp đưa ra các quyết định hiệu quả.

  • Viết được các câu lệnh SQL cơ bản: CREATE, DROP, SELECT, INSERT, UPDATE, DELETE

  • Biết vận dụng các câu lệnh truy vấn nâng cao như filter, sort, group

  • Sử dụng Python để truy cập vào cơ sở dữ liệu

  • Biết import và export data

  • Nắm được cách tiền xử lý dữ liệu, xử lý dữ liệu bị thiếu, chuẩn hóa dữ liệu

  • Thực hiện được thống kê dữ liệu, tìm độ tương quan trong dữ liệu

  • Biết cách biểu diễn dữ liệu theo dạng biểu đồ sử dụng các thư viện Matplotlib

  • Học được cách biểu diễn dữ liệu dạng nâng cao qua thư viện Seaborn và Folium

Môn 3: Machine Learning – Học máy cho khoa học dữ liệu

Học viên được dạy mục đích của học máy và các ứng dụng trong thực tế. Môn học trang bị các thuật toán trong học máy: regression, classification, clustering, recommender system.

  • Nắm được tổng quan về các topic trong machine learning: supervised learning, unsupervised learning

  • Hiểu và thực hành các thuật toán về Regression

  • Hiểu và thực hành các thuật toán về Classification

  • Hiểu và thực hành các thuật toán về Clustering

  • Hiểu về Recommender Systems

  • Thực hành cách thuật toán vào bài toán thực tế

  • Biết cách biểu diễn dữ liệu theo dạng biểu đồ sử dụng các thư viện Matplotlib

Môn 4: Introduction to Deep Learning – Nhập môn về kỹ thuật học sâu

Mục đích của môn học trang bị cho người học kiến thức cơ bản về các mạng nơ ron hiện này và ứng dụng trong thị giác máy tính và xử lý ngôn ngữ tự nhiên. Môn học bao gồm chủ đề về stochastic optimization, các thủ thuật khi huấn luyện mạng nơ ron, cách xây dựng mạng nơ ron. Học viên còn được học về các kiến trúc mạng nơ ron phức tạp trên các framework Tensorflow và Keras. Người học sẽ biết cách sử dụng các thuật toán về deep learning để giải quyết các bài toán AI.

  • Nắm được kiến thức về gradient descent, stochastic gradient descent, regularization, overfitting

  • Biết được khái niệm về deep neural network

  • Giới thiệu về deep learning sử dụng trong thị giác máy tính. Hiểu được kiến trúc mạng CNN và biết cách sử dụng pre-train model cho các vấn đề mới

  • Cung cấp kiến thức unsupervised part trong deep learning như autoencoder, word embedding, GAN

  • Học viên học được cách sử dụng deep learning cho các dữ liệu dạng chuỗi như texts, video, audio. Nắm được kiến thức về RNN, LSTM, GRU, Backpropagation và được thực hành.

Môn 5: Đồ án cuối khóa

Đồ án cuối khóa mô phỏng một dự án trọn vẹn mà cá nhân học viên cần thực hiện, đáp ứng yêu cầu quy trình làm việc và đảm bảo ứng dụng các kiến thức, kỹ năng về Data Science được học để giải quyết một bài toán thực tiễn ở doanh nghiệp. Học viên hoàn thành đồ án sẽ sẵn sàng là một nhân viên bắt đầu làm được việc về data science tại doanh nghiệp. Dự án cuối khóa này sẽ cho học viên kinh nghiệm xử lý dự án trong thực tế và giúp bạn thể hiện khả năng chuyên môn trong lĩnh vực data science với nhà tuyển dụng. Bạn sẽ áp dụng các kỹ năng của mình vào data visualization, data analysis, data wrangling, data organization, data modeling và machine learning để giải quyết nhu cầu khách hàng.

THAM KHẢO CÁC MÔN HỌC THÊM TỪ CÁC ĐẠI HỌC NƯỚC NGOÀI


· Giai đoạn 1

MATH 135 – Algebra

· MATH 137 – Calculus 1

· CS 135 – Designing Functional Programs

· MATH 136 – Linear Algebra 1

· MATH 138 – Algorithm Design and Data Abstraction

· STAT 230 – Probability

Giai đoạn 2

· STAT 341 – Computational Statistics and Data Analysis

· STAT 441 – Statistical Learning – Classification

· STAT 442 – Data Visualization

· STAT 444 – Statistical Learning – Function Estimation


Data Science Tutorial Library - 370+ Free Tutorials

https://data-flair.training/blogs/data-science-tutorials-home/

Unlock latest Data Science tutorials for beginners

Level up to more exciting Data Science tutorials

Master essential Data Science skills and evolve as a Data Scientist


INFORMATICS FOR PRIMARY SCHOOOL

Tin học cho học sinh Tiểu học


Name of presentation

Name of project

Name of video

INFORMATICS FOR SECONDARY SCHOOOL

Tin học cho học sinh THCS

Name of presentation

Name of project

Name of video

INFORMATICS FOR HIGHT SCHOOOL

Tin học cho học sinh THPT

Name of presentation

Name of project

Name of video