دادههای نادرست میتوانند پرهزینه باشند. در بسیاری از موارد ممکن است داده ها در فایل ها و منابع مختلف نگهداری شوند و در این صورت نیاز است تا داده ها پیش از اجرای تکنیک های داده کاوی یا آماده سازی برای هوشمندسازی کسب و کار با یکدیگر یکپارچه شوند.
یکپارچه سازی هم فعالیتی سنگین است و هم چالش های فراوانی را به همراه دارد.
پاکسازی دادهها با هدف استخراج اطلاعات دقیق انجام می شود. فرآیندی است جهت تشخیص، حذف و اصلاح دادههای نادرست از بانکهای اطلاعاتی میباشد. دادههای نادرست یا ناسازگار میتواند منجر به نتیجهگیری غلط و شکست سرمایهگذاری بزرگ و کوچک شود.
پس از پاکسازی، مجموعه دادهها باید با سایر مجموعه دادههای مشابه در سیستم سازگار باشد. در واقع دادههای ناسازگار شناسایی شده یا حذف شده ممکن است در ابتدا ناشی از اشتباهات ورود دادهها از طرف کاربر، تغییر دادهها در حین انتقال پرونده یا ذخیرهسازی با تعاریف غیراستانداردی که بین سازمانهای مختلف متفاوت میباشد صورت پذیرد .
مهمترین فعالیت های این بخش عبارت است:
- تخمین مقادیر ناموجود در پایگاه داده ها؛
- از بین بردن اختلال (noise) در داده ها؛
- حذف کردن داده های پرت و نامربوط؛
- از بین بردن ناسازگاری در داده ها؛