Giới thiệu
Ở nhiều tổ chức, đặc biệt là những nơi có quy định nghiêm ngặt hoặc hạn chế về hạ tầng kỹ thuật, Excel cùng với add-in XLMiner vẫn là công cụ chủ đạo để thực hiện các quy trình dự báo và học máy.
Tuy dễ sử dụng, nhưng Excel cũng dễ khiến người dùng bỏ qua khoảng cách quan trọng giữa việc triển khai mô hình và xây dựng hệ thống phân tích thực sự đáng tin cậy. Qua dự án dự báo phê duyệt khoản vay, tôi nhận ra rằng những hạn chế lớn nhất không nằm ở thuật toán, mà ở các thói quen xử lý dữ liệu chưa phù hợp.
Bài viết này tổng hợp 5 bài học thực tế, giúp bạn tránh các sai lầm phổ biến khi ứng dụng học máy trong Excel.
Bài học 1: Kết hợp Nhiều Cách Để Phát Hiện Giá Trị Ngoại Lai
Xử lý ngoại lai không đơn thuần là thực hiện một phép tính rồi loại bỏ, mà cần quan sát tổng thể để tránh mất thông tin quan trọng. Chẳng hạn, ở một dự án, tất cả giá trị tài sản nhà ở vượt quá ngưỡng 95% đã bị loại dựa trên IQR, nhưng phân tích lại cho thấy nhiều tài sản lớn hợp lệ cũng bị loại nhầm – ảnh hưởng trực tiếp đến kết quả phê duyệt khoản vay lớn.
Rút ra: Nên kết hợp nhiều phương pháp phát hiện ngoại lai và luôn kiểm tra thủ công trước khi quyết định loại bỏ. Xây dựng một quy trình kiểm tra ngoại lai rõ ràng.
Ví dụ thiết lập bảng kiểm tra ngoại lai trong Excel:
- Cột A: Giá trị gốc (tài sản nhà ở)
- Cột B: Kết quả theo IQR
=IF(A2 > QUARTILE.INC($A$2:$A$4270,3) + 1.5*(QUARTILE.INC($A$2:$A$4270,3)-QUARTILE.INC($A$2:$A$4270,1)), "Ngoại lai IQR", "Bình thường")
- Cột C: Kết quả theo 3-Sigma
=IF(ABS(A2-AVERAGE($A$2:$A$4270)) > 3*STDEV($A$2:$A$4270), "Ngoại lai 3SD", "Bình thường")
- Cột D: Kết quả theo phân vị
=IF(A2 > PERCENTILE.INC($A$2:$A$4270,0.99), "Ngoại lai P99", "Bình thường")
- Cột E: Tổng hợp cảnh báo
=IF(COUNTIF(B2:D2,"Ngoại lai*")>=2, "Xem xét", "OK")
- Cột F: Nhận xét kiểm tra thủ công
- Cột G: Quyết định cuối cùng [Giữ/Lọc/Chuyển đổi]
Với việc kết hợp nhiều phương pháp, bạn dễ dàng phân loại:
- Ngoại lai theo cả 3 cách: Rất có thể là lỗi nhập liệu
- Chỉ bị IQR phát hiện: Thường là giá trị lớn hợp lệ trong phân phối lệch
- Chỉ bị phân vị phát hiện: Có thể là trường hợp đặc biệt, đáng cân nhắc giữ lại
Phần “Nhận xét kiểm tra thủ công” rất quan trọng. Ví dụ: “Tài sản cao cấp đã xác minh giấy tờ” hoặc “Giá trị bất thường, cần kiểm tra lại”.
Bài học 2: Luôn Đặt Giá Trị Seed Ngẫu Nhiên Khi Chia Dữ Liệu
Việc không đặt seed khi chia dữ liệu có thể khiến kết quả mô hình thay đổi mỗi lần chạy, làm mất tính nhất quán khi báo cáo. Tôi từng gặp trường hợp kết quả ngày hôm trước rất xuất sắc, hôm sau lại khác – khiến hội đồng nghi ngờ tính xác thực.
Rút ra: Luôn thiết lập giá trị seed khi chia dữ liệu để đảm bảo kết quả có thể lặp lại. Các thuật toán học máy đều có yếu tố ngẫu nhiên, nhất là khi phân tách dữ liệu hoặc khởi tạo trọng số.
Trong XLMiner, khi chia dữ liệu:
- Chọn “Set seed”
- Nhập số bất kỳ dễ nhớ (ví dụ: 12345, 2024)
- Ghi chú giá trị seed này trong nhật ký phân tích
Khi chạy với cùng seed:
- Tập huấn luyện/kiểm định/kiểm tra không đổi
- Kết quả mô hình lặp lại chính xác
- Dễ dàng kiểm tra lại khi cần
Ví dụ thực tế (chạy logistic regression 3 lần):
- Không đặt seed: Kết quả kiểm định dao động (92,4%, 91,8%, 92,1%)
- Có đặt seed: Kết quả kiểm định giữ nguyên (92,1% và F1 = 0,928 cho cả 3 lần)
Lưu ý: Seed chỉ kiểm soát tính ngẫu nhiên khi chia dữ liệu. Nếu dữ liệu thay đổi hoặc tham số mô hình thay đổi, kết quả cũng sẽ thay đổi.
Bài học 3: Chia Dữ Liệu Đúng Chuẩn – Có Bộ Kiểm Tra Riêng
Cài đặt mặc định của XLMiner thường chỉ chia dữ liệu thành hai phần: huấn luyện/kiểm định. Tuy nhiên, nếu tối ưu mô hình dựa trên kiểm định rồi lấy chính kết quả đó để báo cáo, sẽ làm các chỉ số bị thổi phồng.
Rút ra: Nên chia dữ liệu thành 3 tập riêng biệt:
- Tập huấn luyện (50%): Để mô hình học
- Tập kiểm định (30%): Dùng chọn mô hình/tinh chỉnh tham số
- Tập kiểm tra (20%): Chỉ dùng kiểm tra cuối cùng, không can thiệp trong tối ưu
Quy trình nên thực hiện:
- Đặt seed (ví dụ: 12345)
- Chia dữ liệu 50/30/20
- Xây dựng các phiên bản mô hình, đánh giá trên tập kiểm định
- Chọn mô hình tốt nhất
- Chỉ chạy kiểm tra 1 lần cuối cùng
- Báo cáo kết quả kiểm tra là hiệu năng thực tế
Ví dụ minh họa từ dự án khoản vay:
| Mô hình | Độ chính xác huấn luyện | Độ chính xác kiểm định | Độ chính xác kiểm tra | Được chọn |
|---|---|---|---|---|
| Logistic Regression (đầy đủ biến) | 90,6% | 89,2% | Chưa đánh giá | Không |
| Logistic Regression (chọn biến từng bước) | 91,2% | 92,1% | Chưa đánh giá | Không |
| Cây quyết định (độ sâu=7) | 98,5% | 97,3% | Chưa đánh giá | Có |
| Cây quyết định (độ sâu=5) | 96,8% | 96,9% | Chưa đánh giá | Không |
| Mạng nơ-ron (7 node) | 92,3% | 90,1% | Chưa đánh giá | Không |
Sau khi chọn cây quyết định (độ sâu=7), kiểm tra cho ra kết quả 97,4% – đây mới là chỉ số nên báo cáo.
Bài học 4: Theo Dõi Chênh Lệch Giữa Huấn Luyện và Kiểm Định Để Phát Hiện Quá Khớp
Nhiều mô hình đạt kết quả rất cao trên tập huấn luyện, nhưng khi kiểm định lại giảm rõ rệt – dấu hiệu quá khớp. Ví dụ cây quyết định:
- Huấn luyện: 98,45%
- Kiểm định: 97,27%
- Chênh lệch: 1,18%
Rút ra: Cần theo dõi cụ thể chênh lệch giữa các chỉ số huấn luyện/kiểm định để đánh giá nguy cơ quá khớp.
Thiết lập bảng so sánh trong Excel:
| Chỉ số | Huấn luyện | Kiểm định | Chênh lệch | Tỷ lệ chênh lệch | Đánh giá |
|---|---|---|---|---|---|
| Accuracy | 98,45% | 97,27% | 1,18% | 1,20% | Tốt |
| Precision | 99,00% | 98,00% | 1,00% | 1,01% | Tốt |
| Recall | 96,27% | 94,40% | 1,87% | 1,94% | Tốt |
| F1 Score | 98,76% | 97,27% | 1,49% | 1,51% | Tốt |
| Specificity | 96,56% | 92,74% | 3,82% | 4,06% | Cần theo dõi |
Tiêu chí đánh giá:
- Tỷ lệ chênh lệch < 3%: Tốt
- 3-5%: Nên theo dõi
- 5-10%: Nguy cơ quá khớp, cần đơn giản hóa mô hình
- >10%: Quá khớp nghiêm trọng, nên loại bỏ
So sánh nhiều mô hình:
| Mô hình | Acc Huấn luyện | Acc Kiểm định | Chênh lệch | Nguy cơ quá khớp |
|---|---|---|---|---|
| Logistic Regression | 91,2% | 92,1% | -0,9% | Thấp |
| Cây quyết định | 98,5% | 97,3% | 1,2% | Thấp |
| Mạng nơ-ron (5 node) | 90,7% | 89,8% | 0,9% | Thấp |
| Mạng nơ-ron (10 node) | 95,1% | 88,2% | 6,9% | Cao – Loại |
| Mạng nơ-ron (14 node) | 99,3% | 85,4% | 13,9% | Rất cao – Loại |
Các mô hình mạng nơ-ron nhiều node rõ ràng bị quá khớp. Lời khuyên: Đơn giản hóa mô hình bằng cách giảm số node, giảm độ sâu cây, hoặc bổ sung thêm dữ liệu huấn luyện.
Bài học 5: Kiểm Soát Nhập Liệu Biến Phân Loại Bằng Data Validation
Lỗi nhập liệu như đánh máy sai (“gradute” thay vì “graduate”) sẽ tạo ra giá trị mới không mong muốn, khiến mô hình dự báo sai mà không nhận ra.
Giải pháp: Sử dụng chức năng “Data Validation” của Excel để kiểm soát giá trị nhập vào với biến phân loại.
Ví dụ thực hiện:
- Tạo danh sách giá trị hợp lệ ở một sheet riêng (ví dụ “Validation_Lists”):
- Education: “Graduate”, “Not Graduate”
- Self-employment: “Yes”, “No”
- Trạng thái khoản vay: “Approved”, “Rejected”
- Chọn cột dữ liệu cần kiểm soát
- Vào menu Data → Data Validation → Settings
- Allow: List
- Source: Liên kết tới danh sách ở sheet “Validation_Lists”
- Error Alert: Tùy chỉnh thông báo khi nhập sai
Áp dụng validation tương tự cho biến số có giới hạn:
- Điểm tín dụng: Từ 300 đến 900
- Kỳ hạn vay: Từ 1 đến 30 năm
- Thu nhập hàng năm: >0
Kết luận
Tóm lại, 5 bài học trên – phát hiện ngoại lai đa phương pháp, đặt seed khi chia dữ liệu, chia đúng ba tập dữ liệu, theo dõi nguy cơ quá khớp, và kiểm soát nhập liệu – đều dễ thực hiện, nhưng cực kỳ quan trọng để đảm bảo kết quả phân tích học máy trong Excel thực sự chính xác và đáng tin cậy.
Bạn không cần phải biết chuyên sâu về thống kê hay lập trình phức tạp. Chỉ cần nắm vững các quy trình này, bạn đã có thể tận dụng tối đa sức mạnh của Excel và XLMiner cho các dự án học máy.
Tham khảo thêm các gợi ý ChatGPT sáng tạo nội dung hay nhất của tôi.

5 Bài Học Quý Giá Về AI với Excel Qua Trải Nghiệm Thực Tế (click để phóng to)







