Chủ đề Seminar / Khóa luận cử nhân chuyên ngành Xác suất - Thống kê
Hiện tại, bộ môn có các chủ đề sau, nhưng không bị giới hạn:
Quantile regression và áp dụng
Quantile regression (hay Hồi quy phân vị) là một dạng mô hình hồi quy được dùng để tiên đoán phân vị có điều kiện của biến phản hồi (response variable) khi có thông tin của các biến giải thích, thay vì tiên đoán trung bình có điều kiện. Quantile regression rất hữu ích khi phân phối của biến phản hồi không đối xứng hoặc khi mối quan hệ giữa biến phản hồi và các biến giải thích là không tuyến tính. Nó có thể được sử dụng để ước tính tác động của một biến phản hồi đối với các phân vị khác nhau của biến phản ứng.
Quantile regression có nhiều ưu điểm hơn khi so sánh với mô hình hồi quy thông thường: nó có thể xử lý các vấn đề liên quan tới giá trị ngoại lai (outliers) cũng như có tính linh hoạt cao hơn trong mô hình hóa mối quan hệ giữa biến phản hồi và các biến giải thích.
Quantile regression có nhiều ứng dụng trong nhiều lĩnh vực khác nhau, bao gồm kinh tế, tài chính và khoa học môi trường. Dưới đây là một số ví dụ về cách sử dụng quantile regression:
Kinh tế: quantile regression có thể được sử dụng để ước tính tác động của một hay nhiều biến giải thích đối với các phân vị khác nhau của biến phản hồi. Ví dụ, nó có thể được sử dụng để ước tính tác động của giáo dục đến thu nhập đối với các phần trăm phân bổ thu nhập khác nhau.
Tài chính: quantile regression có thể được sử dụng để mô hình hóa mối quan hệ giữa các biến tài chính, chẳng hạn như giá cổ phiếu và lãi suất, ở các phân vị khác nhau của phân phối. Nó cũng có thể được sử dụng để ước tính Value at Risk (VaR) của danh mục đầu tư, là thước đo mức lỗ tiềm tàng của khoản đầu tư ở một mức độ tin cậy nhất định.
Khoa học môi trường: quantile regression có thể được sử dụng để mô hình hóa mối quan hệ giữa các biến số môi trường, chẳng hạn như nhiệt độ và lượng mưa, và các phản ứng sinh thái, chẳng hạn như sự phong phú và phân bố của các loài. Nó cũng có thể được sử dụng để ước tính xác suất xảy ra các hiện tượng cực đoan, chẳng hạn như lũ lụt và hạn hán, ở các phân vị khác nhau trong phân bố.
Lập trình R và Shiny apps
Shiny là gói mã nguồn mở R, cung cấp khung web để xây dựng các ứng dụng web bằng R. Nó cho phép bạn biến các phân tích của mình trên R thành các ứng dụng web tương tác mà không yêu cầu kiến thức về HTML, CSS hoặc JavaScript. Shiny là sự kết hợp giữa Giao diện người dùng (UI) và Máy chủ chạy R và kiểm soát chức năng ứng dụng. Giao diện người dùng chịu trách nhiệm về bố cục và giao diện của ứng dụng, trong khi Máy chủ xác định các hoạt động tính toán/phân tích dữ liệu của ứng dụng.
Các phương pháp lựa chọn biến trong mô hình hồi quy và áp dụng
Lựa chọn biến là quá trình chọn một tập hợp con các biến giải thích có liên quan nhất đến biến phản hồi trong mô hình hồi quy. Mục tiêu của việc lựa chọn biến là cải thiện độ chính xác và khả năng diễn giải của mô hình bằng cách loại bỏ các biến không liên quan hoặc dư thừa.
Có một số phương pháp để lựa chọn biến trong mô hình hồi quy, bao gồm lựa chọn tiến (forward selection), loại bỏ lùi (backward elimination) và hồi quy từng bước (stepwise regression). Các phương pháp này là phương pháp lựa chọn tuần tự để thêm hoặc loại bỏ các biến khỏi mô hình dựa trên tiêu chí thống kê. Một phương pháp khác là penalized regression (hồi quy có hình phạt), sử dụng các kỹ thuật chính quy hóa như LASSO và mạng đàn hồi (elastic net) để thu nhỏ hệ số của các biến không liên quan về 0.
Việc lựa chọn phương pháp lựa chọn biến là phục thuộc vào dữ liệu và câu hỏi nghiên cứu. Điều quan trọng là tránh trang bị quá mức mô hình bằng cách bao gồm quá nhiều biến, điều này có thể dẫn đến hiệu suất khái quát hóa kém. Mặt khác, việc bao gồm quá ít biến có thể dẫn đến kết quả không phù hợp, dẫn đến ước tính sai lệch và hiệu suất dự đoán kém.
Các phương pháp thống kê trong đánh giá xét nghiệm y khoa
Đánh giá thống kê các xét nghiệm chẩn đoán là một quá trình đánh giá tính chính xác và độ tin cậy của xét nghiệm chẩn đoán. Nó liên quan đến việc so sánh kết quả của xét nghiệm chẩn đoán với tiêu chuẩn tham chiếu để xác định độ nhạy, độ đặc hiệu, giá trị tiên đoán dương và giá trị tiên đoán âm của xét nghiệm. Các biện pháp này được sử dụng để đánh giá hiệu suất của xét nghiệm và xác định tiện ích lâm sàng của nó.
Có một số phương pháp thống kê để đánh giá các xét nghiệm chẩn đoán, bao gồm phân tích ROC (receiver operating characteristic), likelihood ratio (tỷ lệ khả năng) và phân tích Bayes. Phân tích ROC là một phương pháp đồ họa vẽ biểu đồ tỷ lệ dương tính thực so với tỷ lệ dương tính giả đối với các giá trị ngưỡng khác nhau của thử nghiệm. Tỷ lệ khả năng được sử dụng để tính toán xác suất của kết quả xét nghiệm dương tính hoặc âm tính khi có hoặc không có bệnh. Phân tích Bayes là một phương pháp thống kê sử dụng kiến thức trước đó và phân bố xác suất để cập nhật xác suất của một giả thuyết dựa trên dữ liệu mới. Ngoài ra, còn một số phương pháp khác được dùng để giải quyết các bài toán liên quan tới việc xác định ngưỡng phân loại tối ưu của một hoặc nhiều xét nghiệm.
Việc lựa chọn phương pháp thống kê phụ thuộc vào câu hỏi nghiên cứu, loại dữ liệu và đặc điểm của xét nghiệm chẩn đoán. Điều quan trọng là sử dụng các phương pháp thống kê thích hợp để đảm bảo tính giá trị và độ tin cậy của kết quả.
Mô hình đồ thị (Graphical Models)
Mô hình đồ thị là mô hình xác suất sử dụng đồ thị để biểu diễn cấu trúc phụ thuộc có điều kiện giữa các biến ngẫu nhiên. Mô hình đồ thị được sử dụng phổ biến trong lý thuyết xác suất, thống kê và học máy. Có hai loại mô hình đồ thị chính: Mạng lưới Bayes (Bayesian network) và Trường ngẫu nhiên Markov (Markov random fields).
Mạng lưới Bayes là các mô hình đồ thị có hướng biểu thị hệ số hóa xác suất chung của tất cả các biến ngẫu nhiên. Chúng được sử dụng để mã hóa sự phụ thuộc giữa các biến ngẫu nhiên và có thể được sử dụng cho các nhiệm vụ như phân loại, dự đoán và ra quyết định.
Trường ngẫu nhiên Markov là mô hình đồ thị vô hướng biểu thị phân bố trên một tập hợp các biến ngẫu nhiên. Chúng được sử dụng để mô hình hóa các tương tác phức tạp giữa các biến và có thể được sử dụng cho các tác vụ như phân đoạn hình ảnh, nhận dạng đối tượng và xử lý ngôn ngữ tự nhiên.
Ngoài ra, còn có những chủ đề seminar và khóa luận tốt nghiệp khác, các bạn sinh viên liên hệ giảng viên hướng dẫn để biết chi tiết.
Phụ trách: Các thầy cô thuộc bộ môn Xác suất - Thống kê, và các chuyên gia có liên kết.