5 Bài Học Quý Giá Về AI với Excel Qua Trải Nghiệm Thực Tế

Giới thiệu

Ở nhiều tổ chức, đặc biệt là những nơi có quy định nghiêm ngặt hoặc hạn chế về hạ tầng kỹ thuật, Excel cùng với add-in XLMiner vẫn là công cụ chủ đạo để thực hiện các quy trình dự báo và học máy.
Tuy dễ sử dụng, nhưng Excel cũng dễ khiến người dùng bỏ qua khoảng cách quan trọng giữa việc triển khai mô hình và xây dựng hệ thống phân tích thực sự đáng tin cậy. Qua dự án dự báo phê duyệt khoản vay, tôi nhận ra rằng những hạn chế lớn nhất không nằm ở thuật toán, mà ở các thói quen xử lý dữ liệu chưa phù hợp.
Bài viết này tổng hợp 5 bài học thực tế, giúp bạn tránh các sai lầm phổ biến khi ứng dụng học máy trong Excel.

Bài học 1: Kết hợp Nhiều Cách Để Phát Hiện Giá Trị Ngoại Lai

Xử lý ngoại lai không đơn thuần là thực hiện một phép tính rồi loại bỏ, mà cần quan sát tổng thể để tránh mất thông tin quan trọng. Chẳng hạn, ở một dự án, tất cả giá trị tài sản nhà ở vượt quá ngưỡng 95% đã bị loại dựa trên IQR, nhưng phân tích lại cho thấy nhiều tài sản lớn hợp lệ cũng bị loại nhầm – ảnh hưởng trực tiếp đến kết quả phê duyệt khoản vay lớn.
Rút ra: Nên kết hợp nhiều phương pháp phát hiện ngoại lai và luôn kiểm tra thủ công trước khi quyết định loại bỏ. Xây dựng một quy trình kiểm tra ngoại lai rõ ràng.
Ví dụ thiết lập bảng kiểm tra ngoại lai trong Excel:

Cột A: Giá trị gốc (tài sản nhà ở)
Cột B: Kết quả theo IQR

=IF(A2 > QUARTILE.INC($A$2:$A$4270,3) + 1.5*(QUARTILE.INC($A$2:$A$4270,3)-QUARTILE.INC($A$2:$A$4270,1)), "Ngoại lai IQR", "Bình thường")

Cột C: Kết quả theo 3-Sigma

=IF(ABS(A2-AVERAGE($A$2:$A$4270)) > 3*STDEV($A$2:$A$4270), "Ngoại lai 3SD", "Bình thường")

Cột D: Kết quả theo phân vị

=IF(A2 > PERCENTILE.INC($A$2:$A$4270,0.99), "Ngoại lai P99", "Bình thường")

Cột E: Tổng hợp cảnh báo

=IF(COUNTIF(B2:D2,"Ngoại lai*")>=2, "Xem xét", "OK")

Cột F: Nhận xét kiểm tra thủ công
Cột G: Quyết định cuối cùng [Giữ/Lọc/Chuyển đổi]

Với việc kết hợp nhiều phương pháp, bạn dễ dàng phân loại:

Ngoại lai theo cả 3 cách: Rất có thể là lỗi nhập liệu
Chỉ bị IQR phát hiện: Thường là giá trị lớn hợp lệ trong phân phối lệch
Chỉ bị phân vị phát hiện: Có thể là trường hợp đặc biệt, đáng cân nhắc giữ lại

Bí mật: 5 Lỗi Khiến Hồ Sơ LinkedIn Làm Mất Uy Tín Nghề Nghiệp Của Bạn

Phần “Nhận xét kiểm tra thủ công” rất quan trọng. Ví dụ: “Tài sản cao cấp đã xác minh giấy tờ” hoặc “Giá trị bất thường, cần kiểm tra lại”.

Bài học 2: Luôn Đặt Giá Trị Seed Ngẫu Nhiên Khi Chia Dữ Liệu

Việc không đặt seed khi chia dữ liệu có thể khiến kết quả mô hình thay đổi mỗi lần chạy, làm mất tính nhất quán khi báo cáo. Tôi từng gặp trường hợp kết quả ngày hôm trước rất xuất sắc, hôm sau lại khác – khiến hội đồng nghi ngờ tính xác thực.
Rút ra: Luôn thiết lập giá trị seed khi chia dữ liệu để đảm bảo kết quả có thể lặp lại. Các thuật toán học máy đều có yếu tố ngẫu nhiên, nhất là khi phân tách dữ liệu hoặc khởi tạo trọng số.
Trong XLMiner, khi chia dữ liệu:

Chọn “Set seed”
Nhập số bất kỳ dễ nhớ (ví dụ: 12345, 2024)
Ghi chú giá trị seed này trong nhật ký phân tích

Khi chạy với cùng seed:

Tập huấn luyện/kiểm định/kiểm tra không đổi
Kết quả mô hình lặp lại chính xác
Dễ dàng kiểm tra lại khi cần

Ví dụ thực tế (chạy logistic regression 3 lần):

Không đặt seed: Kết quả kiểm định dao động (92,4%, 91,8%, 92,1%)
Có đặt seed: Kết quả kiểm định giữ nguyên (92,1% và F1 = 0,928 cho cả 3 lần)

Lưu ý: Seed chỉ kiểm soát tính ngẫu nhiên khi chia dữ liệu. Nếu dữ liệu thay đổi hoặc tham số mô hình thay đổi, kết quả cũng sẽ thay đổi.

Bài học 3: Chia Dữ Liệu Đúng Chuẩn – Có Bộ Kiểm Tra Riêng

Cài đặt mặc định của XLMiner thường chỉ chia dữ liệu thành hai phần: huấn luyện/kiểm định. Tuy nhiên, nếu tối ưu mô hình dựa trên kiểm định rồi lấy chính kết quả đó để báo cáo, sẽ làm các chỉ số bị thổi phồng.
Rút ra: Nên chia dữ liệu thành 3 tập riêng biệt:

Tập huấn luyện (50%): Để mô hình học
Tập kiểm định (30%): Dùng chọn mô hình/tinh chỉnh tham số
Tập kiểm tra (20%): Chỉ dùng kiểm tra cuối cùng, không can thiệp trong tối ưu

Quy trình nên thực hiện:

Đặt seed (ví dụ: 12345)
Chia dữ liệu 50/30/20
Xây dựng các phiên bản mô hình, đánh giá trên tập kiểm định
Chọn mô hình tốt nhất
Chỉ chạy kiểm tra 1 lần cuối cùng
Báo cáo kết quả kiểm tra là hiệu năng thực tế

Bí mật: 10 Ý Tưởng Selfie Gương Thần Tiên Cho Cô Nàng Yêu Phong Cách Aesthetic – Chân Dung 4K Mơ Mộng

Ví dụ minh họa từ dự án khoản vay:

Mô hình	Độ chính xác huấn luyện	Độ chính xác kiểm định	Độ chính xác kiểm tra	Được chọn
Logistic Regression (đầy đủ biến)	90,6%	89,2%	Chưa đánh giá	Không
Logistic Regression (chọn biến từng bước)	91,2%	92,1%	Chưa đánh giá	Không
Cây quyết định (độ sâu=7)	98,5%	97,3%	Chưa đánh giá	Có
Cây quyết định (độ sâu=5)	96,8%	96,9%	Chưa đánh giá	Không
Mạng nơ-ron (7 node)	92,3%	90,1%	Chưa đánh giá	Không

Sau khi chọn cây quyết định (độ sâu=7), kiểm tra cho ra kết quả 97,4% – đây mới là chỉ số nên báo cáo.

Bài học 4: Theo Dõi Chênh Lệch Giữa Huấn Luyện và Kiểm Định Để Phát Hiện Quá Khớp

Nhiều mô hình đạt kết quả rất cao trên tập huấn luyện, nhưng khi kiểm định lại giảm rõ rệt – dấu hiệu quá khớp. Ví dụ cây quyết định:

Huấn luyện: 98,45%
Kiểm định: 97,27%
Chênh lệch: 1,18%

Rút ra: Cần theo dõi cụ thể chênh lệch giữa các chỉ số huấn luyện/kiểm định để đánh giá nguy cơ quá khớp.
Thiết lập bảng so sánh trong Excel:

Chỉ số	Huấn luyện	Kiểm định	Chênh lệch	Tỷ lệ chênh lệch	Đánh giá
Accuracy	98,45%	97,27%	1,18%	1,20%	Tốt
Precision	99,00%	98,00%	1,00%	1,01%	Tốt
Recall	96,27%	94,40%	1,87%	1,94%	Tốt
F1 Score	98,76%	97,27%	1,49%	1,51%	Tốt
Specificity	96,56%	92,74%	3,82%	4,06%	Cần theo dõi

Tiêu chí đánh giá:

Tỷ lệ chênh lệch < 3%: Tốt
3-5%: Nên theo dõi
5-10%: Nguy cơ quá khớp, cần đơn giản hóa mô hình
>10%: Quá khớp nghiêm trọng, nên loại bỏ

So sánh nhiều mô hình:

Mô hình	Acc Huấn luyện	Acc Kiểm định	Chênh lệch	Nguy cơ quá khớp
Logistic Regression	91,2%	92,1%	-0,9%	Thấp
Cây quyết định	98,5%	97,3%	1,2%	Thấp
Mạng nơ-ron (5 node)	90,7%	89,8%	0,9%	Thấp
Mạng nơ-ron (10 node)	95,1%	88,2%	6,9%	Cao – Loại
Mạng nơ-ron (14 node)	99,3%	85,4%	13,9%	Rất cao – Loại

Các mô hình mạng nơ-ron nhiều node rõ ràng bị quá khớp. Lời khuyên: Đơn giản hóa mô hình bằng cách giảm số node, giảm độ sâu cây, hoặc bổ sung thêm dữ liệu huấn luyện.

Bài học 5: Kiểm Soát Nhập Liệu Biến Phân Loại Bằng Data Validation

Lỗi nhập liệu như đánh máy sai (“gradute” thay vì “graduate”) sẽ tạo ra giá trị mới không mong muốn, khiến mô hình dự báo sai mà không nhận ra.
Giải pháp: Sử dụng chức năng “Data Validation” của Excel để kiểm soát giá trị nhập vào với biến phân loại.
Ví dụ thực hiện:

Tạo danh sách giá trị hợp lệ ở một sheet riêng (ví dụ “Validation_Lists”):

Education: “Graduate”, “Not Graduate”
Self-employment: “Yes”, “No”
Trạng thái khoản vay: “Approved”, “Rejected”
Chọn cột dữ liệu cần kiểm soát
Vào menu Data → Data Validation → Settings
Allow: List
Source: Liên kết tới danh sách ở sheet “Validation_Lists”
Error Alert: Tùy chỉnh thông báo khi nhập sai

Bí mật: Giải thích về tính năng tích hợp mới giữa Tubi và ChatGPT

Áp dụng validation tương tự cho biến số có giới hạn:

Điểm tín dụng: Từ 300 đến 900
Kỳ hạn vay: Từ 1 đến 30 năm
Thu nhập hàng năm: >0

Kết luận

Tóm lại, 5 bài học trên – phát hiện ngoại lai đa phương pháp, đặt seed khi chia dữ liệu, chia đúng ba tập dữ liệu, theo dõi nguy cơ quá khớp, và kiểm soát nhập liệu – đều dễ thực hiện, nhưng cực kỳ quan trọng để đảm bảo kết quả phân tích học máy trong Excel thực sự chính xác và đáng tin cậy.
Bạn không cần phải biết chuyên sâu về thống kê hay lập trình phức tạp. Chỉ cần nắm vững các quy trình này, bạn đã có thể tận dụng tối đa sức mạnh của Excel và XLMiner cho các dự án học máy.
Tham khảo thêm các gợi ý ChatGPT sáng tạo nội dung hay nhất của tôi.

5 Bài Học Quý Giá Về AI với Excel Qua Trải Nghiệm Thực Tế (click để phóng to)