Məlumat QA: Niyə lazımdır və bunu necə etməlisiniz

Təcrübəli məlumat mütəxəssisləri (məlumat alimləri, məlumat analitikləri, məlumat mühəndisləri və s.) “Zibil, zibil” ifadəsi ilə tanış olacaqlar. Sadəcə, pis məlumatlara əsaslanaraq araşdırma pis nəticələrə səbəb olacaq. Bunun qarşısını almaq üçün, başqa bir şey etməzdən əvvəl məlumat alimlərinin əvvəlcə baxdıqları məlumatlarla tanış olmaları çox vacibdir.

Bir verilənlər bazası ilə dərindən tanış olmaq, onlara çatmazdan əvvəl verilənlər bazasının artıq mürəkkəb bir səyahət keçdiyini başa düşməklə başlayır. Beləliklə, tədqiqat işlərinə başlamazdan əvvəl məlumat mütəxəssisləri bu səyahətin hər tərəfini başa düşməlidirlər.

Data QA-nın ilk addımı məlumatların toplanması prosesini başa düşməkdir. Bu məqsədlə, məlumat alimlərinin əvvəlcə soruşmaları lazım olan bəzi suallar bunlardır:

● Bu məlumatlar necə toplanıb və ya yaradılıb? ‍

Məlumatları daxil edən bir sistem tərəfindən yaradıldı, yoxsa bir sorğu? Müəyyən bir cihaz tərəfindən hazırlanmışdır? Əgər belədirsə, cihaz avtomatik və ya əl ilə işləyir? Məlumat toplama müddəti ərzində hər hansı bir səhv və ya bir sistem fasiləsi ilə əlaqəli problemlər oldu?

● Bu vaxta qədər məlumatları kim işləyib?

İndiyə qədər məlumatları idarə edən insanlar ona hər hansı bir filtr tətbiq etdilərmi? Yalnız müvafiq mənbələrin bir hissəsindən məlumat toplamaqla və ya əlaqəli ola biləcək məlumatları aradan qaldırmaqla hər hansı bir qərəz yaratdılarmı? Görmədiyim məlumatlar varmı?

● Məlumatlarda filtrlər varmı?

Məsələn, məlumat toplama metodlarının və ya cihazlarının hamısı eyni dərəcədə işləmədiyi təqdirdə məlumatların toplanması prosesi bilmədən bəzi filtrləri tətbiq edə bilər.

Aldığınız məlumatlar toplanmanın daha erkən mərhələsində süzülmüş ola bilər.

Tədqiqat işlərinə başlamazdan əvvəl məlumat alimləri iki şeyə dair birmənalı şəkildə məlumat verməlidirlər: itkin düşmüş məlumatların olub-olmaması və yoxlanılan məlumatların hər hansı bir dəyişikliyə məruz qalmaması.

Bir verilənlər bazası götürdükləri səyahət barədə aydın olduqdan və hər hansı bir filtr və ya qərəz aşkar edildikdən sonra məlumat mütəxəssisləri Data QA həyata keçirməyə başlaya bilərlər. Bu məqalədə Data QA-nın iki mərhələsini yerinə yetirmək üçün ümumi qaydalar təqdim olunur: Apriori Məlumatların Doğrulanması və Statistik Verifikasiya. Bu Məlumat QA addımlarının yerinə yetirilməsi tədqiqata başlamazdan əvvəl vacibdir. Möhkəm Məlumat QA prosesi sayəsində məlumat alimləri tədqiqatları əsas götürdükləri məlumatların etibarlı olmasını təmin edə bilərlər.

Apriori Məlumatların Doğrulanması

Apriori Məlumatların Doğrulanması məlumatların bütün sahələrini nəzərdən keçirmək və etibar edə biləcəyiniz bir verilənlər bazasında mövcud olmayan qaydaları və şərtləri təsvir etmək prosesini təsvir edir.

Məsələn, bir reklamın dönüşümünü göstərən bir məlumat toplusunu götürək, dönüşümün baş verməsi üçün bir tıklamanın lazım olduğu yer. Bu şərt dönüşüm sütunu və klik sütunu arasındakı əlaqəni müəyyənləşdirir. Dönüşüm klik olmadan mövcud ola bilmədiyi üçün dönüşüm üçün TRUE dəyəri eyni cərgədə bir klik üçün FALSE dəyəri ilə yanaşı görünə bilməz.

Məlumat mütəxəssisləri bir məlumat bazasını araşdıra və müxtəlif sütunlar və sətirlər arasındakı əlaqələri çox detallı bir şəkildə təsvir edə bilsinlər. Məlumatların etibarlı hesab edilməsi üçün bu əlaqələrin ciddi qaydaları müəyyən etməlidirlər.

Başqa bir nümunə olaraq, şəhər üçün bir sahə və dövlət üçün bir sahə olan bir verilənlər bazasına baxın. Əgər məlumat bazasında LA və NY cütləşirsə, bu məna vermir. Dövlət sahəsində dövlət olmalıdır və əlaqəli şəhər sahəsində göstərilən şəhər əslində həmin dövlət daxilində olmalıdır. Buna görə bir qayda müvafiq olaraq müəyyənləşdirilməlidir.

Məntiqsiz məlumatlara misal.

Verilən məlumatları diqqətlə araşdırmaqla, məlumat mütəxəssisləri, baxdıqları məlumatların araşdırma üçün etibar edilə biləcəyini təsdiqləmək üçün lazım olan sual və cavabları formalaşdıra bilməlidirlər. Bəs məlumat alimi hansı sualları soruşacağını necə biləcək? Cavab sadədir: ev tapşırıqlarını edin!

Məlumat sütununa sütuna baxaraq və onların hər biri arasındakı münasibətləri düşünməklə başlamaq üçün yaxşı bir yerdir. Məlumat alimləri bir sütunun bir varlıq kimi nəzərdən keçirilə biləcəyini nəzərə alsınlar - yoldaş sütunlar birliyində yaşayan bir məlumat. Bir sıra, bir varlıq olaraq, sütunlarının məlumatlarının cəmidir və eyni zamanda onlar arasındakı əlaqədir. Məlumat mütəxəssisləri bu icmalardakı ən kiçik bir komponentdən, vahid dəyərdən başlamağından əmin olmalı və tədricən böyüdərək əlaqələrini digər "atomlara" - digəri "molekul" meydana gətirən digər sütundakı dəyərlərlə əlaqələndirməlidirlər. ”Sıra özüdür.

Apriori Məlumatların Doğrulanmasını həyata keçirərkən nəzərə alınmalı bəzi qaydalar bunlardır:

● Bir sütunda yalnız böyük və ya kiçik hərflər olmalıdır

● Bir sütundakı dəyər bir dəyərdən daha böyük və ya kiçik olmalıdır. əlaqəli sütun

● Bir sütunda müəyyən dəyərlər və ya simvol ola bilməz

● Bir sütunda müəyyən bir uzunluq dəyərləri olmalıdır

Apriori Məlumatların Doğrulanması zamanı soruşulan suallara aşağıdakılar daxildir:

● itkin dəyərlər olmamalı olduqda itkin dəyərlər varmı?

● Verilənlər bazasında biz görmək istədiyimiz bütün sahələr mövcuddurmu?

● Müxtəlif nöqtələr boyunca bərabər miqdarda məlumat verərək verilənlərin işarələri etibarlıdırmı? Yoxdursa, bu davranışı izah etmək olarmı?

● Dəyərlərin miqyası məna verirmi? Məsələn, bir sütunda yalnız sıfır ilə otuz arasındakı dəyərlər göstərilməlidirsə, bu aralığın xaricində dəyərlər varmı?

● Sahədə heç bir nüsxənin olmaması lazım olan dublikatlar var? ‍

Mümkünsə, məlumat mütəxəssisləri də əldə etdikləri məlumatları doğrudan müşahidə ilə təmin olunan məlumatları yer həqiqəti ilə müqayisə etməlidirlər. Məsələn, bir şirkət bir istifadəçinin cihazının GPS-ə birbaşa çıxışı varsa, şirkət həmin istifadəçinin verilənlər bazasında göstərildiyi kimi müəyyən bir yerə baş çəkdiyini yoxlamağı bacarmalıdır.

Apriori Məlumatların Doğrulanması zamanı məlumatlar heç bir sınaqdan keçməzsə, məlumat mütəxəssisləri məlumatların sahibinə məlumat verməli və tədqiqat üçün bu məlumatlara etibar etmədən əvvəl problemi həll etməlidirlər. Bu vəziyyət həm yaxşı xəbərlər, həm də pis xəbərlər (məlumatlara etibar etmək olmur, ancaq bir səhv aşkar edilmişdir) olsa da, testin niyə uğursuz olduğunu anlamaq, başqa şəkildə aşkarlanmayan xəttin altındakı problemləri həll etməyə kömək edəcəkdir. .

Statistik məlumatların təsdiqlənməsi

Məlumat QA, Statistik Məlumatların Doğrulanmasının ikinci mərhələsində məlumat mütəxəssisləri gördükləri məlumatların görmək istədikləri ilə uyğun olub olmadığını yoxlamalıdırlar. Bu incə proses hər şeyi sorğulamağı özündə ehtiva edir. Məlumat alimləri olduğu kimi heç nə götürməməlidirlər - məsələn, baxdıqları məlumatların intuisiyasına və təcrübələrinə uyğun olub-olmadığını və əllərində olan digər məlumat dəstləri ilə yanaşı bunun mənalı olub olmadığını da düşünməlidirlər.

Statistik Məlumatların Doğrulanmasında məlumat alimləri öz domeni biliklərindən və sistem biliklərindən istifadə edərək məlumatları həqiqətən ayırmaq və bunun arxasında "niyə" olduğunu anlamaq üçün istifadə edirlər. Tapmağı gözlədikləri şərtləri yazmaqdan başlamağı məsləhət görürük. Məsələn, sisteminiz gündə bir milyon istifadəçiyə xidmət edərsə, məlumatlarda əks olunan gündəlik sayının bu miqdarda qonşuluqda olacağını gözləyərdiniz. Məlumatların müəyyən bir ayda yalnız 100.000 istifadəçini qeyd etdiyi təqdirdə, Aprelin Məlumat Doğrulanması zamanı deyil, Statistik Məlumatların Doğrulanması zamanı açılacaq bir problemi göstərər.

Statistik məlumatların təsdiqlənməsi zamanı araşdırılacaq şərtlərə əlavə nümunələr:

● İşaret nişanları: məlumatlar görmək istədiyiniz müddətləri əks etdirirmi? Məsələn, dondurma istehlakını ölçsəniz və məlumatlarınız qış aylarında şərq sahillərindən məlumatları göstərirsə, bu nəticələrinizi ləkələyə bilər. Axı, insanların çoxu həqiqətən -10 dərəcə havada bir dondurma konusuna getmək istərdimi?

● Xarici dəyərlər: bunlar gerçəkdirmi? Niyə məlumatlarda var? Misal üçün, beş maşın qeyd etdiyiniz fərziyyədə, Selsidə dörd rekord temperatur olduqda, beşinci maşın qeyd etdiyinizi düşünün. Bundan sonra məlumatlarınız "32, 32, 104, 33, 32" göstərə bilər. Xarici dəyər, bu məlumat bazasında bir şeyə diqqət yetirilməli olduğunu göstərir. Qeyd edək ki, vaxtın 99% -ində bir verilənlər bazası bəzi kənar dəyərləri daxil edəcəkdir. Əgər sizin deyilsə, oyunda bir növ şübhə etməlisiniz.

● Məlumatların miqdarı: məna verirmi? Satırların sayı, bənzərsiz istifadəçilər, şəhərlər və s. Tapmaq istədiyinizə uyğun gəlirmi? Başqa sözlə, fərqli şəhərlər üçün görülən məlumatların nisbəti həmin şəhərlərdəki fərqli populyasiyaları əks etdirməlidir. Bir şəhər həddindən artıq çoxdur və ya təmsil olunmursa, bunun nə olduğunu hesab edə bilərsinizmi?

Çikaqoda istifadəçilərin sayı ölçülərinə görə digər şəhərlərə nisbətən daha çoxdur.

Qeyd edildiyi kimi, Statistik Məlumatların Doğrulanması sistem bilikləri ilə yanaşı domen biliklərini də tələb edir. Domain bilikləri, məsələn, verilənlər bazasında göstərilən müəyyən bir müddət üçün istifadəçi tələfinin miqdarının həqiqətən normal və ya gözlənilən diapazonda olub olmadığını aşkar edə bilər. Başqa bir nümunə olaraq, bir reklam şirkətisinizsə, nə qədər reklam verdiyiniz üçün ballpark rəqəmini bilməlisiniz. Yalnız min müxtəlif yayıncının məlumatlarını görürsən, ancaq yüz milyonlarla məlumatı görməli olduğunu bilirsinizsə, məlumatda səhv bir şey var.

Doğrulama testinin nəticələrinə necə yanaşmalısınız?

Gözlənilənlərin bir anlayışı Statistik məlumatların təsdiqlənməsi üçün vacibdir. Bir sütunun təsvir statistikasını əvvəlcə tapacağını gözlədiyiniz bir düşüncəyə sahib olmadan hesablamaq, nə tapacağınızı əsaslandırmağın məlum qərəzinə səbəb ola bilər. Bu düzgün yanaşma deyil. İdeal olaraq, məlumat mütəxəssisləri tapmağı gözlədikləri barədə bir təsəvvürə sahib olacaqlar və verilənlər bazası bu gözləntiyə uyğun olmalıdır. Əgər deyilsə, kontrasta maraqlanmalısınız; bu, gözləntilərinizin bağlandığı üçün mövcuddur, yoxsa məlumatda səhv bir şey aşkar etmisiniz?

Sıraların çoxunda problemli məlumatların nə olduğunu anlamaq da vacibdir. Yalnız bir neçə belə satır varsa, bu səhvləri nəzərdən keçirməyə və onları düzəltməyə dəyməz, çünki bu, nisbətən az məlumatdır. Məlumatla problem tapmaq adi haldır; heç bir tapmaq demək olar ki, mümkün deyil.

Xüsusilə, məlumatlar mükəmməl görünsə, bir növ məsələdən şübhələnmək ağıllı olar. Heç bir məlumat yayan və / və ya null yoxdursa, məlumatların əvvəlki mərhələdə təmizlənməsini yoxlamalısınız. Belə bir təmizlənmə prosesi səs-küy və istenmeyen qərəzləri məlumatlara əlavə edə bilər.

Nəticə

Burada qeyd etdiyimiz Data QA prosesini həyata keçirdiyiniz zaman məlumat yazma prosesində mövcud olan səhvlərin sayına heyran olacaqsınız. Bu səhvlər, bir çox insanın nəticə verə bilməməsinin səbəbidir; pis model seçimi və ya pis xüsusiyyət mühəndisliyi səbəbindən deyil. QAing məlumatların vacib prosesinin laqeyd olması ilə əlaqədardır.

Məsələ burasındadır ki, Data QA çox vacib olsa da, yorucu, vaxt tələb edən və səhvlərə meyllidir. Müvafiq suallar verməyi unutmaq və bununla əlaqədar müvafiq məlumatları qaçırmaq asandır.

Verilənlərinizin qərəzli olduğunu və səhvləri olduğunu görsəniz də, bu istifadə edilə bilməz demək deyil. Bu o deməkdir ki, məlumat mütəxəssisləri qərəz və səhvlərdən xəbərdar olmalıdır və tədqiqatın nəticələri yalnız tədqiqatın aparıldığı kontekstə aid olduğunu başa düşməlidir. Məsələn, erkən bir filtr aparılırsa və qalan məlumatlar müəyyən bir ölkədəndirsə, tədqiqatın nəticələri yalnız bu ölkəyə aiddir və digər ölkələrdə həqiqətləri çıxarmaq bu verilənlər bazası ilə mütləq mümkün deyildir.

Bir ölkənin məlumatlarına əsaslanan bir araşdırmanın nəticələri yalnız bu ölkə üçün aktual olacaqdır.

Bütün işlərin və Data QAing ilə əlaqəli bilinməyənlərin işığında sizin üçün işlərin çoxunu avtomatlaşdıran bir vasitə hazırladıq. Məlumatları çox ciddi qəbul edirik və alətimiz hər hansı bir tədqiqatın pis məlumatlara əsaslanmaq ehtimalını aradan qaldırır. Məlumat QA alətimiz hər məlumat bazasını tarar və aşkar etdiyi səhvlərin hamısını bildirir. Bununla, etibarlı və etibarlı məlumatlara əsaslanan araşdırma və nəticələr ilə "zibil, zibil çıxmamaq" dan qorunmağı bacarırıq.

Faydalı bağlantılar

pandas-profiling - pandas DataFrame obyektlərindən profillər hesabatları

spark-df-profiling - Apache Spark DataFrames-dən profillər hesabatları

Bu blog yazısı əvvəlcə Bigabid blogu üçün yazılmışdır və burada mövcuddur