Ölçülüyün azaldılması - Dizaynınızdakı xüsusiyyətlərlə necə məşğul olursunuz (Hissə 1).

Real Dünya Məlumatları qarışıqdır və əsasən istenmeyen və lazımsız xüsusiyyətlərdən ibarətdir. Bu lazımsız xüsusiyyətlər çox vaxt proqnozlaşdırılan modellərimizin gözlənildiyi kimi işləməsini çox çətinləşdirir. Beləliklə, ölçülərin azaldılması, mövcud xüsusiyyətlərin daxil edilməsi və dəyişdirilməsi prosesi məlumatların əvvəlcədən işlənməsində vacib addım olur.

Qısa və müvafiq məlumatlar əldə etdikdən sonra bizə kömək edir

  • Daha yaxşı vizuallaşdırma və məlumat dəstini araşdırmaq
  • Yaddaşda daha az yer tutur
  • Proqnozlaşdırılan modelin mürəkkəbliyini azaltmaq və şərh etməyi asanlaşdırır
  • Aşırı uyğunluğu azaltmaq
  • Doğru xüsusiyyətləri seçərək modelin fəaliyyətini yaxşılaşdırmaq

Proses geniş şəkildə 2 yolla təsnif edilə bilər:

  1. Xüsusiyyət seçimi - Məlumatlarda mövcud olan atributları dəyişdirmədən xaric etmək və ya daxil etmək prosesi.
  2. Feature Extraction-Mövcud atributlar üzərində bəzi dəyişikliklər edərək atributların yeni birləşmələrini yaratmaq prosesi

Bu hekayədə xüsusiyyətlərin seçimi hissəsinə baxacağıq. Bədii çıxarış bu hekayənin 2-ci hissəsində müzakirə ediləcəkdir.

Xüsusiyyət seçimi 3 əsas kateqoriyaya bölünür.

  1. Filtr üsulu
  2. 2.Qapaq üsulu
  3. 3.Qoşulmuş üsul.

Hər birini ətraflı müzakirə edəcəyik:

1.Filter üsulları

Burada ən uyğun xüsusiyyətlər hədəflə əlaqəsi, xüsusiyyətlərin unikallığı, statistik əhəmiyyəti əsasında seçilir. Verilənləri toplamaq üçün istifadə olunan ML alqoritmi xüsusiyyətləri seçərkən iştirak etmir.

Tez-tez istifadə olunan bəzi filtr üsulları:

a. Yarımçıq dəyər nisbəti: Çox vaxt müəyyən sütunların çox sayda itkin dəyərlərə sahib olduğu məlumatlara rast gəlirik. Sütunlar əsasən boşdursa, kifayət qədər müvafiq məlumat vermir. Beləliklə, hər bir sütunun itkin dəyər nisbətini tapa bilərik və razılaşdırılmış hədd nisbətinə uyğun olmayan sütunları silə bilərik.

b. Aşağı dəyişkənlik filtri: Bir sütunda məlumatların yayılması əsasən homojendirsə, onun mübahisəsi sıfıra enir. Bu cür sütunlar hədəf dəyişənini proqnozlaşdırmaqda çox kömək etmir. Beləliklə, bir ərəfə dəyərinin azaldılması barədə qərar verdikdən sonra, aralığımızın altına düşən sütunları aradan qaldıra bilərik. Fərqlilik məlumatların yayılma / aralığından asılıdır. Bu metodu tətbiq etmədən əvvəl məlumatları normallaşdırmaq vacibdir.

c. Məlumat əldə etmək: Bu, 2 dəyişən arasında asılılığın ölçülməsinə kömək edir. Əsasən təsnifat problemində istifadə olunur. IG hər bir xüsusiyyətə baxır və hədəf dəyişənini təsnifatlandırmaqda bu xüsusiyyətin nə qədər vacib olduğunu ölçür. Bu, entropiyanın ölçüsünü əhatə edir. (Məlumat qazancı = 1-Entropiya). Məlumat əldə etmək nə qədər yüksəkdirsə, təsnifat daha yaxşıdır.

2 xüsusiyyətləri olan x1 və x2 və 0s və 1s dəyərləri olan hədəf dəyişən y olan bir verilənlər bazasını nəzərdən keçirək. Gəlin y-ni iki dəfə x1 və bir dəfə x2 əsasında təsnif edək.

Müəyyən bir split üçün 1s və 0s nisbətinin p1 və p2 olmasına icazə verin, beləliklə bu split üçün entropiya olardı

Y hər parçası üçün entropiya və İnformasiya qazancını tapmağa imkan verir

Burada görürük ki, IG x2-də bölünmə üçün daha böyükdür və təsnifat da daha yaxşıdır. Beləliklə x2 daha yaxşı bir xüsusiyyətdir və seçilməlidir.

d. Pearsonun əlaqəsi: Bu da davamlı dəyərləri ehtiva edən digər bir sütundakı davamlı bir dəyər ilə hədəf sütununun asılılığını ölçür. 2 dəyişən arasında xətti birləşməni ölçür.

Dəyər ± 1-ə yaxın olduqda, mükəmməl bir əlaqə olduğunu söylədi: bir dəyişən artdıqca digər dəyişən də artmağa (müsbət olarsa) və ya azalmağa (mənfi olarsa) meyl edir.

Dəyər sıfıra yaxın olduqda dəyişənlərin heç bir əlaqəsi olmadığı deyilir. Bu barədə daha çox məlumat.

e. ANOVA: Bu hədəf bir sütunun davamlı dəyərləri olan başqa bir sütuna asılılığını ölçür. Əvvəlcə müzakirə etdiyimizdən oxucuları ANOVA anlayışını buradan anlamağa çağıracağam.

Mümkün A, B və C və müxtəlif davamlı dəyərləri olan bir hədəf sütunu olan bir kateqoriyalı bir x xüsusiyyətini nəzərdən keçirək. İndi bu davamlı hədəf dəyərləri y xüsusiyyət xüsusiyyətlərinə görə qruplaşdıracağıq

Y dəyərlərini x kateqoriyalarına görə qruplaşdırdıqdan sonra cədvəlin belə olacağını tapırıq

İndi ANOVA, Y qrupunun (A, B, C) hər qrupunun ortalama nisbətinin (Null Hipotezası) bərabər olub olmadığını və ya aralarında əhəmiyyət fərqinin olub olmadığını (Null Hipotez) müəyyənləşdirəcəkdir.

Null hipotezimiz doğrudursa, X kateqoriyalı xüsusiyyətin Y-yə heç bir təsiri olmadığı qənaətinə gələcəyik.

Null Hipotezası rədd edilsə, X xüsusiyyətinin fərqli kateqoriyaları Y'a təsir etdiyini və buna görə xüsusiyyət seçim texnikamızda seçim edilməli olduğu qənaətinə gələcəyik.

  • Statistik
  • Statistik> = Kritik Dəyər: Əhəmiyyətli bir nəticə varsa, null fərziyyəni rədd edin (Ho), asılıdır.

f. Chi kvadrat: Chi kvadrat testi iki kateqoriyalı dəyişən arasında əhəmiyyətli bir əlaqənin olub olmadığını müəyyənləşdirir. Chi meydanının paylanmasını və bir Chi kvadrat statistikasını necə hesablamaq lazım olduğunu başa düşmək üçün bunlardan keçə bilərsiniz. İndi bunu Maşın öyrənməsində xüsusiyyət seçimi üçün necə istifadə edə bilərik?

Əsasən başqa bir dəyişən Y (maraq) fərqli kateqoriyalar (Elm, İncəsənət, Riyaziyyat) arasında müəyyən bir kateqoriyalı dəyişən X (cins) arasında müxtəlif qrupların (Kişi, Qadın) tezliyin paylanmasının eyni olub olmadığını müəyyən edir.

Burada Art Science və Riyaziyyat qrupları tərəfindən qruplaşdırılmış 2 tezlik paylaması (kişi və qadın) var. Beləliklə, bu 2 sıra tezliyinin bərabər olduğunu (Null Hipotez) və ya aralarında ciddi fərqin olduğunu (Alternativ Hipotez) müəyyən edəcəyik.

  • Statistik
  • Statistik> = Kritik Dəyər: Əhəmiyyətli bir nəticə varsa, null fərziyyəni rədd edin (Ho), asılıdır.

Bu barədə daha çox məlumat.

2. Sarğı üsulları

Sarmalama üsulları xəsislik axtarış alqoritmlərinə əsaslanır, çünki xüsusiyyətlərin bütün mümkün birləşmələrini qiymətləndirir və müəyyən bir maşın öyrənmə alqoritmi üçün ən yaxşı nəticə verən birləşməni seçirlər. Alqoritmin performansına əsaslanan xüsusiyyətlərdən iterativ olaraq seçir və ya imtina edir. Bütün mümkün birləşmələri sınaqdan keçirir və buna görə hesablama baxımından bahadır.

Ən ümumi yayılmış üsullardan bəziləri:

a. İrəli xüsusiyyət seçimi

Burada xüsusiyyətlər 1 xüsusiyyətdən başlayaraq bir-bir seçilir.

Birinci mərhələdə alqoritm hər bir xüsusiyyət ilə öyrədilir. Aralarında ən yaxşısı seçilir.

İkinci mərhələdə bu xüsusiyyət digər xüsusiyyətlər ilə birləşmə ilə alınır və 2-nin ən yaxşı birləşməsi seçilir.

Bu, tələb olunan sayda xüsusiyyətin ən yaxşı birləşməsi seçilməyincə davam edir.

b. Rekursiv xüsusiyyətin aradan qaldırılması

Rekursiv xüsusiyyətin aradan qaldırılması prosesi verilənlər bazasındakı bütün xüsusiyyətlərdən başlayır. Xüsusiyyətlərin hər birini bir dəfə yuvarlaq bir şəkildə aradan qaldırır və qalan alt hissədəki performansını qiymətləndirir. Ən yaxşı performans altlığı seçilir.

Bu seçilmiş (# xüsusiyyət xüsusiyyətləri-1) alt dəsti ilə qalan xüsusiyyətlərdən hər biri bir dəfə çıxarılır və performans qiymətləndirilir. Ən yaxşı performans xüsusiyyət toplusu (# xüsusiyyətləri-2) seçildi.

Bu proses, tələb olunan meyarlara cavab verən ən yaxşı xüsusiyyət xüsusiyyətini əldə etməyimizə qədər davam edir

3. Götürülmüş metodlar

Daha çox xüsusiyyətə sahib olmaq bəzən səs-küyü artıracaq. Model, məlumatların trendini öyrənmək əvəzinə səs-küyü yadda saxlaya bilər. Qeyri-dəqiqliklər diqqətlə öyrədilmədiyi təqdirdə aşağı keyfiyyətli bir modelə səbəb ola bilər. Buna həddən artıq uyğunluq deyilir

Aşırı geyimdən qaçmağın əsas anlayışı modelləri mümkün qədər sadələşdirməkdir. Sadə modellər (ümumiyyətlə) həddindən artıq dərəcədə çox olmur. Digər tərəfdən, bir modeli həddindən artıq uyğunlaşdırmaq və alt-üst etmək arasında yumşaq ticarətə diqqət yetirməliyik. Bu nizamlama yolu ilə kəskinləşir.

Tənzimləmə qaydasında əsas fikir, öyrənilmiş çəkilərin (w) daha yüksək dəyəri üçün zərər funksiyasını cəzalandırmaq kimi başa düşülə bilər. Bu, bəzi xüsusiyyətlərin eksponent olaraq artmasına və həddən artıq aşınmasına səbəb olur.

Bunu ətraflı şəkildə başa düşməyə imkan verir

Təlim məkanında olan bir rekordu nəzərdən keçirək

X [0], x [1], x [2] .. x [n] ilə təmsil olunan n xüsusiyyətlər.

Öyrənilən parametrlər və ya çəkilər w [0], w [1], w [2]… w [n] olmalıdır.

Hədəf dəyəri y

Proqnozlaşdırılan dəyər olsun

İndi zərər funksiyası aşağıdakı kimi müəyyən edilə bilər:

Bütün motivimiz 1.2-də müəyyən edilmiş zərər funksiyasını minimuma endirməkdir.

Beləliklə, x [j] uyğun bir çəkiyə görə w [j] partlayırsa, bu həddən artıq çoxluğa səbəb ola bilər. Bunun qarşısını almaq üçün partlayan ağırlıqlar üçün zərər funksiyasını cəzalandırmalıyıq. Bunu aşağıdakı kimi etmək olar:

buraya nizamlama parametrini λ çəkilərlə birlikdə əlavə edirik ki, xərc funksiyasını minimuma endirərkən bəzi çəkilər kiçilir, modeli daha mürəkkəb edir.

a. Silsilə reqressiyası

Silsilə reqressiyasında çəkilərin kvadratı w [j] λ ilə birlikdə alınır.

Buna görə changing dəyişdirərək çəkilər nizamlanır və kiçilir, lakin heç 0-a çatmır.

Ridge Reqressiya haqqında daha çox məlumat

b. Lasso Reqressiyası

Lassoda çəkilərin mütləq vaIue w ilə birlikdə çəkilir.

Bu, sıfır çəkilərə səbəb ola bilər, yəni bəzi xüsusiyyətlər çıxışın qiymətləndirilməsi üçün tamamilə laqeyddir, beləliklə bəzi xüsusiyyətləri tamamilə aradan qaldırır.

Lasso Reqressiyası haqqında daha çox məlumat.

Beləliklə, daha sadə bir model yaratmaq üçün daha az idxal xüsusiyyətlərindən qurtulan və ya kiçilən əsas ölçü azaldılması üsullarını demək olar ki, əhatə etmişik. Yeni xüsusiyyətin çıxarılması mövzusu daha sonra müzakirə ediləcək.