Trong các giáo trình lý thuyết, dữ liệu thường được trình bày dưới dạng những bảng số liệu hoàn hảo, vuông vức và sẵn sàng để phân tích. Tuy nhiên, trong môi trường kinh tế và kinh doanh thực tế, dữ liệu thu thập từ các hệ thống giao dịch, báo cáo tài chính, hay các cuộc khảo sát thị trường hiếm khi tồn tại ở trạng thái lý tưởng này,. Dữ liệu thực tế thường xuyên chứa đựng những "khuyết tật" như: ô trống do khách hàng không điền thông tin, các bản ghi bị nhân đôi do lỗi hệ thống, hoặc những con số lớn/nhỏ bất thường do sai sót trong quá trình nhập liệu.
Trong giới Khoa học dữ liệu, có một nguyên lý bất di bất dịch được gọi là "Garbage In, Garbage Out" (Rác vào, Rác ra),. Nguyên lý này khẳng định rằng: dù bạn sử dụng một thuật toán Học máy (Machine Learning) hay Học sâu (Deep Learning) tinh vi đến đâu, chất lượng của kết quả đầu ra luôn bị giới hạn tuyệt đối bởi chất lượng của dữ liệu đầu vào,. Việc vội vàng đưa dữ liệu thô vào các mô hình dự báo phức tạp cũng giống như việc xây dựng một ngôi nhà trên nền đất chưa được xử lý; cấu trúc có thể đứng vững trong ngắn hạn, nhưng rất dễ dẫn đến sai lệch và sụp đổ khi áp dụng vào thực tiễn ra quyết định.
Chính vì tính chất sống còn này, làm sạch dữ liệu (Data Cleaning) không bao giờ là một thao tác kỹ thuật phụ trợ, mà là một bước lọc chiến lược. Việc bỏ qua bước này có thể gây ra những hậu quả kinh tế nghiêm trọng. Ví dụ, nếu dữ liệu bị trùng lặp không được xử lý, doanh thu của doanh nghiệp có thể bị thổi phồng một cách ảo tưởng; hoặc nếu các giá trị ngoại lai (outliers) không được bóc tách, mô hình đánh giá rủi ro tín dụng có thể bị sai lệch hoàn toàn.
Đó là lý do tại sao trong thực tế, các chuyên gia phân tích dữ liệu (Data Analysts / Data Scientists) thường phải dành từ 60% đến 80% tổng thời gian của một dự án chỉ để tìm kiếm, làm sạch và tổ chức lại dữ liệu,,. Chỉ có khoảng 20-40% thời gian còn lại được dành cho việc xây dựng mô hình và đánh giá,.
Trong chương này, chúng ta sẽ đi sâu vào việc sử dụng thư viện Pandas – công cụ sắc bén nhất của Python trong việc thao tác dữ liệu bảng – để giải quyết ba "căn bệnh" phổ biến nhất của dữ liệu thô,:
Dữ liệu khuyết thiếu (Missing values): Nhận diện và quyết định nên xóa bỏ hay điền bù bằng các phương pháp thống kê.
Dữ liệu trùng lặp (Duplicates): Phát hiện và loại bỏ các bản ghi dư thừa cơ học để bảo toàn tính trung thực của các đại lượng kinh tế.
Giá trị ngoại lai (Outliers): Sử dụng tư duy thống kê (như phương pháp IQR và Z-score) để xác định đâu là lỗi nhập liệu cần loại bỏ, và đâu là những giao dịch "cá voi" (khách VIP) cần được giữ lại.
Chương 2 sẽ cung cấp cho bạn một tư duy làm việc hệ thống: không xóa dữ liệu một cách máy móc, mà luôn đặt câu hỏi về bản chất kinh tế đằng sau mỗi con số trước khi áp dụng các dòng lệnh Python.