Hiểu AUC trong phân loại nhị phân: Giải thích, phạm vi, ngưỡng và hơn thế nữa
AUC (Khu vực dưới đường cong đặc tính hoạt động của máy thu) là thước đo hiệu suất của bộ phân loại nhị phân, chẳng hạn như mô hình học máy. Nó thể hiện sự cân bằng giữa tỷ lệ dương tính thực và tỷ lệ dương tính giả của mô hình ở các ngưỡng khác nhau.
Đường cong ROC biểu thị tỷ lệ dương tính thực sự so với tỷ lệ dương tính giả ở các ngưỡng khác nhau và AUC là vùng bên dưới đường cong này. AUC là 1,0 biểu thị một trình phân loại hoàn hảo, trong khi AUC là 0,5 biểu thị một trình phân loại ngẫu nhiên.
AUC được sử dụng để đánh giá hiệu suất của các mô hình phân loại nhị phân trong các lĩnh vực khác nhau như phân loại hình ảnh, phân loại văn bản và tin sinh học. Nó cũng được sử dụng để so sánh hiệu suất của các mô hình khác nhau hoặc để tối ưu hóa các tham số mô hình.
Dưới đây là một số khía cạnh chính của AUC:
1. Giải thích: AUC có thể được hiểu là xác suất mà một ví dụ tích cực được chọn ngẫu nhiên sẽ có điểm cao hơn một ví dụ tiêu cực được chọn ngẫu nhiên.
2. Phạm vi: Phạm vi của AUC là [0, 1], trong đó 0 đại diện cho bộ phân loại ngẫu nhiên và 1 đại diện cho bộ phân loại hoàn hảo.
3. Ngưỡng: AUC rất nhạy cảm với việc lựa chọn ngưỡng, ngưỡng này có thể ảnh hưởng đến tỷ lệ dương tính thật và tỷ lệ dương tính giả.
4. Phân loại nhiều lớp: AUC có thể được mở rộng cho các vấn đề phân loại nhiều lớp bằng cách sử dụng các kỹ thuật như một đấu một hoặc một đấu tất cả.
5. Ma trận nhầm lẫn: AUC có liên quan chặt chẽ với ma trận nhầm lẫn, ma trận này tóm tắt số lượng dương tính thật, âm tính thật, dương tính giả và âm tính giả.
6. Lựa chọn mô hình: AUC có thể được sử dụng làm tiêu chí để lựa chọn mô hình, trong đó các mô hình có giá trị AUC cao hơn sẽ được ưu tiên.
7. Tối ưu hóa: AUC có thể được tối ưu hóa bằng cách sử dụng các kỹ thuật như xác thực chéo và tìm kiếm lưới để tìm các tham số tối ưu cho một mô hình nhất định.



