Đóng bao (Tổng hợp Bootstrap) trong Học máy: Giảm phương sai và cải thiện tính tổng quát hóa

Đóng gói (Bootstrap Aggregating) là một kỹ thuật được sử dụng trong học máy để giảm phương sai của mô hình và cải thiện khả năng khái quát hóa của nó. Nó liên quan đến việc tạo nhiều phiên bản của cùng một mô hình, mỗi phiên bản có một tập hợp con dữ liệu huấn luyện khác nhau và kết hợp các dự đoán của chúng để đưa ra dự đoán cuối cùng.

Dưới đây là cách hoạt động:

1. Lấy mẫu Bootstrap: Một tập hợp con ngẫu nhiên của dữ liệu huấn luyện được chọn để thay thế (nghĩa là một số mẫu có thể được chọn nhiều lần). Điều này tạo ra một tập dữ liệu mới đại diện ngẫu nhiên cho tập dữ liệu gốc.
2. Huấn luyện mô hình: Mỗi phiên bản của mô hình được huấn luyện trên mẫu bootstrap.
3. Dự đoán: Mỗi phiên bản của mô hình đưa ra dự đoán về dữ liệu thử nghiệm.
4. Kết hợp dự đoán: Các dự đoán từ tất cả các phiên bản của mô hình được kết hợp bằng cách sử dụng một kỹ thuật như tính trung bình hoặc bỏ phiếu để đưa ra dự đoán cuối cùng.

Ý tưởng đằng sau việc đóng bao là tính ngẫu nhiên trong việc lựa chọn dữ liệu huấn luyện và các tập hợp con tính năng khác nhau được sử dụng bởi mỗi phiên bản của mô hình sẽ làm giảm phương sai của mô hình và cải thiện khả năng khái quát hóa dữ liệu mới. Bằng cách kết hợp các dự đoán của nhiều mô hình, việc đóng bao cũng có thể giúp giảm bớt tình trạng trang bị quá mức và cải thiện độ tin cậy của mô hình.

Bagging thường được sử dụng trong cây quyết định, rừng ngẫu nhiên và các phương pháp học tổng hợp khác. Nó đặc biệt hữu ích khi có nhiều đặc điểm trong tập dữ liệu và mối quan hệ giữa các đặc điểm và biến mục tiêu rất phức tạp.