Đầu tháng 8 năm 2019, mình bắt đầu công việc mới tại 1 công ty tài chính. Với vị trí Data Analysis nhưng công việc chính của mình lại là xây dựng các model và các mô hình toán học, hỗ trợ trong quá trình vận hành và ra quyết định và việc build các report đi kèm là điều tất yếu.
Thử thách đầu tiên mà sếp giao cho mình là xây dựng mô hình chấm điểm dành cho nhóm nợ từ 90 đến 120 ngày. Danh mục khách hàng hằng tháng vào khoảng 45000 đến 50000 khách hàng, số lượng có thể nói là lớn nhất cả nước trên cùng nhóm nợ. Do đó việc phân loại khách hàng là rất quan trọng cả trong việc thu hồi nợ và đánh giá năng lực nhân viên.
Cần nói thêm trước đó tại bộ phận mình thực hiện phân tích và xây dựng mô hình trên R, còn mình với ngôn ngữ Python thì có rất nhiều điều phải tìm hiểu thêm. Tuy nhiên sức mạnh của Python là hoàn toàn vượt trội so với R trong cả quá trình nghiên cứu và triển khai.
Mô hình scorecard trong chấm điểm tín có lẽ cũng không quá phức tạp, sử dụng WOE-IV để chọn biến và biến đổi dữ liệu , kết hợp với mô hình logistic regression để đưa ra điểm số cho mỗi khách hàng.
Công ty mình sử dụng hệ quản trị dữ liệu quan hệ Oracle, cú pháp của PL/SQL thì khá đơn giản tuy nhiên để tạo ra một dữ liệu để training model thì phải am hiểu hàng trăm bảng dữ liệu vận hành của công ty và quan hệ giữa chúng. Việc này thực sự khá tốn thời gian, nhưng may mắn thay, anh sếp đáng yêu của mình đã chuẩn bị sẵn một bộ dữ liệu trước đó, dựa vào mã SQL có sẵn mình đã hiểu nhanh hơn về tổ chức dữ liệu để phát triển thêm biến. Tuy vậy để cho ra bộ dữ liệu training cơ bản cũng tốn của mình một tuần thời gian.
Việc xây dựng mô hình bao gồm cả thử nghiệm các biến, giả thiết, training model chiếm khoản 3 ngày và sau đây là 1 số thông số đánh giá mô hình :
Việc đánh giá khách hàng dựa trên dải điểm cũng chưa hẳn là thuận tiện để đưa ra các chiến lược. Do vậy ở mức khái quát hơn, ta chia khách hàng vào 5 nhóm :
Đựa vào mô hình phân loại, có thể đưa ra các chiến lược như sau :
Việc xây dựng các báo cáo weekly report được gửi vào mỗi cuối tuần để theo dõi performance của nhân viên và các nhóm hợp đồng được xây dựng chủ yếu bằng thư viện Matplotlib của python và kết hợi với Task scheduler để vận hành tự động .