Veri Ön İşleme 1 : Veri Temizleme (Veri Madenciliği Teorik 2)

Описание к видео Veri Ön İşleme 1 : Veri Temizleme (Veri Madenciliği Teorik 2)

Veri Kalitesi (data quality) Çok boyutlu olarak veri kalitesi kriterleri : Neden Ön işlem yapılır?
Kesinlik (Accuracy) doğru ve yanlış veriler
Tamamlık (Completeness) : kaydedilmemiş veya ulaşılamayan veriler
Tutarlılık (Consistency) verilerin bir kısmının güncel olmaması, sallantıda veriler (dangling)
Güncellik (Timeliness)
İnandırıcılık (Believability)
Yorumlanabilirlik (Interpretability): Verinin ne kadar kolay anlaşılacağı
Gerçek hayattaki veriler kirlidir: Çok sayıda makine, insan veya bilgisayar hataları, iletim bozulmaları yaşanabilir.
Eksik Veri (incomplete) bazı özelliklerin eksik olması (missing data), sadece birleşik verinin (aggregate) bulunması
örn., Meslek=“ ” (girilmemiş)
Gülrültülü Veri (noisy): Gürültü, hata veya aykırı veriler bulunması
örn., Maaş=“−10” (hata)
Tutarsız Veri (inconsistent): farklı kaynaklardan farklı veriler gelmesi
Yaş=“42”, Doğum Tarihi=“03/07/2010”
Eski notlama “1, 2, 3”, yeni notlama “A, B, C”
Tekrarlı kayıtlarda uyuşmazlık
Kasıtlı Problemler (Intentional)
Doğum tarihi bilinmeyen herkese 1 Ocak yazılması
Veriye her zaman erişilmesi mümkün değildir
Örn., bazı kayıtların alın(a)mamış olması. Satış sırasında müşterilerin gelir düzeyinin yazılmamış olması.
Eksik veriler genelde aşağıdaki durumlarda olur:
Donanımsal bozukluklardan
Uyuşmazlık yüzünden silinen veriler
Anlaşılamayan verilerin girilmemiş olması
Veri girişi sırasında veriye önem verilmemiş olması
Verideki değişikliklerin kaydedilmemiş olması
Eksik verilerin çözülmesi gerekir
İhmal etme: Eksik veriler işleme alınmaz, yokmuş gibi davranılır. Kullanılan VM yöntemine göre sonuca etkileri bilinmelidir.
Eksik verilerin elle doldurulması: her zaman mümkün değildir ve bazan çok uzun ve maliyetli olabilir
Otomatik olarak doldurulması
Bütün eksik veriler için yeni bir sınıf oluşturulması (“bilinmiyor” gibi)
Ortalamanın yazılması
Sınıf bazında ortalamaların yazılması
Bayesian formül ve karar ağacı uygulaması
Gürültü (Noise): ölçümdeki rasgele oluşan değerler
Yanlış özellik değerleri aşağıdaki durumlarda oluşabilir:
Veri toplama araçlarındaki hatalar
Veri giriş problemleri
Veri iletim problemleri
Teknoloji sınırları
İsimlendirmedeki tutarsızlıklar
Veri temizlemesini gerektiren diğer durumlar
Tekrarlı kayıtlar
Eksik veriler
Tutarsız veriler
Paketleme (Binning)
Veri sıralanır ve eşit frekanslarda paketlere bölünür.
Eksik veriler farklı yöntemlerle doldurulur:
Mean
Median
Boundary
Regrezisyon (Regression)
Regrezisyon fonksiyonlarına tabi tutularak eksik verilerin girilmesi
Bölütleme (Kümeleme , Clustering)
Aykırı verilerin bulunması ve temizlenmesi
Bilgisayar ve insan bilgisinin ortaklaşa kullanılması
detect suspicious values and check by human (e.g., deal with possible outliers)
Verideki farklılıkların yakalanması
Üst verinin (metadata) kullanılması (örn., veri alanı (domain, range) , bağlılık (dependency), dağılım (distribution)
Aşırı yüklü alanlar (Field Overloading)
Veri üzerinde kural kontrolleri (unique, consecutive, null)
Ticari yazılımların kullanılması
Bilgi Ovalaması (Data scrubbing): Basit alan bilgileri kurallarla kontrol etmek (e.g., postal code, spell-check)
Veri Denetimi (Data auditing): veriler üzerinden kural çıkarımı ve kurallara uymayanların bulunması (örn., correlation veya clustering ile aykırıların (outliers) bulunması)
Veri Göçü ve Entegrasyonu (Data migration and integration)
Data migration Araçları: Verinin dönüştürülmesine izin verir
ETL (Extraction/Transformation/Loading) Araçları: Genelde grafik arayüzü ile dönüşümü yönetme imkanı verir
İki farklı işin entegre yürütülmesi
Iterative / interactive (Örn.., Potter’s Wheels)
Aşırı Yüklü Alanların Temizlenmesi
Zincirleme (Chaining)


Birleştirme (Coupling)





Çok Amaçlılık (Multipurpose)

Şadi Evren ŞEKER

Комментарии

Информация по комментариям в разработке