Trong lĩnh vực Khoa học Dữ liệu và Phân tích Kinh doanh, có một nguyên lý bất di bất dịch được gọi là "Garbage In, Garbage Out" (Rác vào, Rác ra),,. Nguyên lý này khẳng định một sự thật khắc nghiệt: dù bạn sử dụng một thuật toán Học máy (Machine Learning) hay Học sâu (Deep Learning) tinh vi đến đâu, chất lượng của kết quả đầu ra luôn bị giới hạn tuyệt đối bởi chất lượng của dữ liệu đầu vào. Nếu dữ liệu đầu vào không được lọc, làm sạch và nén hiệu quả, kết quả đánh giá đầu ra sẽ mất đi tính khách quan, dẫn đến những kết luận thống kê sai lệch và thiếu độ tin cậy.
Chính vì tính chất sống còn này, làm sạch dữ liệu (Data Cleaning) chưa bao giờ là một thao tác kỹ thuật phụ trợ. Trong thực tế, các chuyên gia phân tích dữ liệu thường phải dành từ 60% đến 80% tổng thời gian của một dự án chỉ để tìm kiếm, làm sạch và tổ chức lại dữ liệu,,. Chỉ có khoảng 20-40% thời gian còn lại được dành cho việc phân tích, xây dựng mô hình và đánh giá.
Trong các giáo trình, dữ liệu thường vuông vức và hoàn hảo, nhưng trong môi trường kinh tế thực tế, dữ liệu "bẩn" phát sinh từ rất nhiều nguồn đa dạng và phức tạp:
Lỗi nhập liệu thủ công của con người: Đây là nguyên nhân phổ biến nhất, bao gồm việc gõ sai chính tả (typo), nhập sai đơn vị tiền tệ, định dạng ngày tháng không đồng nhất, hoặc thêm nhầm các số 0 (ví dụ nhập 25 thành 250),.
Lỗi cảm biến và hệ thống đo lường: Trong các hệ thống tự động hoặc dữ liệu tần suất cao, lỗi phần mềm, máy chủ bị treo hoặc nghẽn mạng có thể sinh ra các giá trị cực đoan (ví dụ: giá cổ phiếu đột ngột hiển thị bằng 0 do lỗi API),.
Hành vi của người dùng và đối tượng khảo sát: Người tham gia khảo sát có thể từ chối trả lời một số câu hỏi nhạy cảm hoặc cố tình cung cấp thông tin không trung thực (ví dụ: giấu giếm mức thu nhập thực tế), dẫn đến việc khuyết thiếu dữ liệu.
Xung đột khi hợp nhất dữ liệu (Merge): Dữ liệu kinh tế thường được ghép từ nhiều nguồn khác nhau. Sự thiếu đồng nhất về chuẩn mực (ví dụ: tên quốc gia viết khác nhau giữa hệ thống của World Bank và IMF, hoặc thay đổi mã Ticker của công ty) sẽ tạo ra các bản ghi lỗi hoặc trùng lặp,.
Sự thay đổi định nghĩa biến theo thời gian: Các chỉ số kinh tế vĩ mô có thể thay đổi cách tính toán qua các năm (ví dụ: chuyển từ GDP danh nghĩa sang GDP theo sức mua tương đương PPP), làm mất đi tính nhất quán của chuỗi thời gian.
Trong chương này, chúng ta sẽ tập trung giải quyết 3 vấn đề phổ biến và gây ảnh hưởng nghiêm trọng nhất đến quá trình phân tích,,:
Dữ liệu khuyết thiếu (Missing values): Là tình trạng một hoặc nhiều ô trong bảng dữ liệu hoàn toàn trống (được biểu diễn là NaN hoặc None trong Python) do lỗi thu thập hoặc người dùng không cung cấp thông tin,.
Dữ liệu trùng lặp (Duplicates): Là hiện tượng một bản ghi xuất hiện nhiều lần với thông tin giống hệt nhau hoặc giống nhau ở các trường định danh. Lỗi này thường do việc import dữ liệu nhiều lần, lỗi đồng bộ hệ thống, hoặc thao tác "double-click" của khách hàng khi thanh toán,.
Giá trị ngoại lai (Outliers): Là các điểm dữ liệu nằm cách biệt quá xa so với phần lớn các quan sát còn lại. Ngoại lai có thể là lỗi hệ thống cần xóa bỏ, nhưng cũng có thể là các sự kiện kinh tế đặc biệt (như khủng hoảng tài chính hay tệp khách hàng siêu VIP) mang thông tin cực kỳ giá trị cần được giữ lại,.
Sự hiện diện của dữ liệu "bẩn" không chỉ làm gián đoạn mã code lập trình mà còn tạo ra hiệu ứng dây chuyền làm sụp đổ các quyết định quản trị chiến lược:
Làm méo mó thống kê mô tả: Các giá trị ngoại lai cực đoan hoặc dữ liệu khuyết thiếu không được xử lý đúng cách sẽ làm sai lệch hoàn toàn các chỉ số như giá trị trung bình (mean) và độ lệch chuẩn (standard deviation),. Ví dụ, một mức thu nhập nhập sai có thể làm trung bình thu nhập của toàn bộ tập khách hàng tăng vọt một cách phi lý.
Thổi phồng ảo các chỉ số tài chính: Dữ liệu trùng lặp giống như một "sát thủ thầm lặng". Nếu một giao dịch hoặc một hộ gia đình bị hệ thống ghi nhận trùng lặp nhiều lần, nó sẽ làm tổng doanh thu, số lượng đơn hàng, hoặc mức chi tiêu trung bình bị thổi phồng,. Điều này dẫn đến việc đánh giá sai hiệu suất kinh doanh (KPI) và phân bổ sai ngân sách.
Phá vỡ mô hình dự báo (Machine Learning): Các thuật toán Học máy rất nhạy cảm với dữ liệu bẩn. Trùng lặp dữ liệu sẽ làm nhân tạo tăng cỡ mẫu, khiến mô hình rơi vào trạng thái "học vẹt" (Overfitting). Trong khi đó, việc xử lý sai các giá trị ngoại lai có thể khiến đường xu hướng dự báo bị lệch hoàn toàn, dẫn đến những dự đoán tồi tệ khi áp dụng vào thực tế.
Tóm lại, làm sạch dữ liệu là bước phòng vệ đầu tiên và quan trọng nhất. Một bộ dữ liệu tinh khiết sẽ phản ánh đúng thực tế khách quan của nền kinh tế, tạo bệ phóng vững chắc cho các thuật toán Học máy và giúp ban lãnh đạo đưa ra các quyết sách dựa trên bằng chứng chuẩn xác nhất.