Ansambli meetodid - ülevaade, kategooriad, peamised tüübid

Ansamblimeetodid on meetodid, mille eesmärk on parandada mudelite tulemuste täpsust, kombineerides ühe mudeli asemel mitu mudelit. Kombineeritud mudelid suurendavad oluliselt tulemuste täpsust. See on suurendanud ansamblimeetodite populaarsust masinõppes.

Kiire kokkuvõte

Ansamblimeetodite eesmärk on parandada mudelite prognoositavust, kombineerides mitu mudelit ühe väga usaldusväärse mudeli saamiseks.
Kõige populaarsemad ansamblimeetodid on võimendamine, kottimine ja virnastamine.
Ansamblimeetodid sobivad ideaalselt regressiooni ja klassifitseerimise jaoks, kus need vähendavad kallutatust ja dispersiooni, et suurendada mudelite täpsust.

Ansamblimeetodite kategooriad

Ansamblimeetodid jagunevad kahte laia kategooriasse, see tähendab järjestikused ansamblitehnikad ja paralleelsed ansamblitehnikad. Järjestikused ansamblitehnikad genereerida baasõppijaid järjestuses, nt Adaptive Boosting (AdaBoost). Põhiõppijate järjestikune põlvkond soodustab baasõppijate vahelist sõltuvust. Seejärel parandatakse mudeli toimivust, määrates varem valesti esindatud õppijatele suuremad kaalud.

Sisse paralleelsed ansamblitehnikad, genereeritakse baasõppijad paralleelses vormingus, nt juhuslik mets Juhuslik mets Juhuslik mets on ennustuste modelleerimisel ja käitumise analüüsil kasutatav tehnika, mis on üles ehitatud otsustuspuudele. Juhuslik mets sisaldab palju otsustuspuid. Paralleelsetes meetodites kasutatakse baasõppijate paralleelset põlvkonda, et soodustada baasõppijate iseseisvust. Baasõppijate sõltumatus vähendab märkimisväärselt viga, mis tuleneb keskmiste rakendamisest.

Enamik ansamblitehnikatest kasutab baasõppes ühte algoritmi, mille tulemuseks on homogeensus kõigil baasõppijatel. Homogeensed baasõppijad viitavad sama tüüpi baasõppijatele, kellel on sarnased omadused. Muud meetodid rakendavad heterogeenseid baasõppijaid, andes alguse heterogeensetest ansamblitest. Heterogeensed baasõppijad on erinevat tüüpi õppijad.

Ansambli meetodite peamised tüübid

1. Kottimine

Kottimist, bootstrapi agregeerimise lühivormi, kasutatakse peamiselt klassifikatsioonis ja regressioonis Regressioonianalüüs Regressioonanalüüs on statistiliste meetodite kogum, mida kasutatakse sõltuva muutuja ja ühe või mitme sõltumatu muutuja vaheliste seoste hindamiseks. Seda saab kasutada muutujate seose tugevuse hindamiseks ja nende vahelise tulevase suhte modelleerimiseks. . See suurendab otsustuspuude abil mudelite täpsust, mis vähendab suurel määral dispersiooni. Hajuvuse vähendamine suurendab täpsust, välistades seega üleliigse paigaldamise, mis on väljakutse paljudele ennustavatele mudelitele.

Kottide liigitamine jaguneb kahte tüüpi, s.t bootstrapping ja aggregation. Bootstrapping on proovivõtumeetod, kus proovid on saadud asendusprotseduuri kasutades kogu populatsioonist (komplektist). Asendamismeetodiga proovide võtmine aitab valikumenetlust randomiseerida. Protseduuri lõpuleviimiseks käivitatakse proovide baasõppe algoritm.

Liitmine kottides tehakse kõik prognoosi võimalikud tulemused ja juhuslikult jaotatakse tulemus. Ilma liitmiseta ei ole ennustused täpsed, sest kõiki tulemusi ei arvestata. Seetõttu põhineb liitmine tõenäosuse alglaadimise protseduuridel või kõigi ennustavate mudelite tulemustel.

Kottide pakkimine on kasulik, kuna nõrgad baasõppijad moodustavad ühe tugeva õppija, kes on stabiilsem kui üksikud õppijad. See välistab ka igasuguse varieeruvuse, vähendades seeläbi mudelite üleküllust. Kottide üks piirang on see, et see on arvutuslikult kallis. Seega võib see põhjustada mudelite suuremat kallutatust, kui eiratakse õiget kottimise protseduuri.

2. Suurendamine

Boosting on ansamblitehnika, mis õpib varasemate ennustusvigade põhjal tulevikus paremaid ennustusi tegema. Tehnika ühendab mitu tugevat õppurit, moodustades ühe tugeva õppija, parandades seeläbi oluliselt mudelite prognoositavust. Suurendamine toimib nõrkade õppurite järjestamise teel nii, et nõrgad õppijad õpiksid järjestikku järgmiselt õppijalt paremate ennustavate mudelite loomiseks.

Tugevdamine toimub mitmel kujul, sealhulgas gradienttõstmine, Adaptive Boosting (AdaBoost) ja XGBoost (Extreme Gradient Boosting). AdaBoost kasutab nõrku õppijaid, kes on otsustuspuude kujul, mis hõlmavad enamasti ühte jaotust, mida rahvasuus tuntakse otsuste kändudena. AdaBoosti peamine otsustuskänd hõlmab vaatlusi, millel on sarnane kaal.

Gradient boosting Gradient Boost Gradient boosting on tehnika, mida kasutatakse ennustamiseks mõeldud mudelite loomiseks. Tehnikat kasutatakse enamasti regressiooni- ja klassifitseerimisprotseduurides. lisab ansamblile järjestikku ennustajaid, kus eelnevad ennustajad parandavad oma järeltulijaid, suurendades seeläbi mudeli täpsust. Uued ennustajad sobivad eelmiste ennustajate vigade mõju vastu võitlemiseks. Laskumise gradient aitab gradientvõimendil tuvastada probleeme õppijate ennustustes ja neile vastavalt reageerida.

XGBoost kasutab suurendatud kaldega otsustuspuid, pakkudes paremat kiirust ja jõudlust. See sõltub suuresti arvutuskiirusest ja sihtmudeli toimivusest. Mudelitreening peaks järgima järjestust, muutes seega gradienttõstetud masinate rakendamise aeglaseks.

3. Virnastamine

Virnastamist, teist ansamblimeetodit, nimetatakse sageli virnastatud üldistuseks. See tehnika töötab, võimaldades treeningalgoritmil koondada mitut muud sarnast õppimisalgoritmi ennustust. Virnastamine on edukalt rakendatud regressioonis, tiheduse hindamises, kaugõppes ja klassifikatsioonides. Seda saab kasutada ka kottimisel kaasneva veamäära mõõtmiseks.

Dispersiooni vähendamine

Ansamblimeetodid sobivad ideaalselt mudelite dispersiooni vähendamiseks, suurendades seeläbi ennustuste täpsust. Dispersioon elimineeritakse, kui mitu mudelit kombineeritakse, moodustades ühe ennustuse, mis valitakse kõigi teiste kombineeritud mudelite võimalike ennustuste hulgast. Mudelite kogum on erinevate mudelite kombineerimine, et tagada kõigi prognooside põhjal parim võimalik võimalik ennustus.

Lisaressursid

Finance on ülemaailmse sertifitseeritud pangandus- ja krediidianalüütiku (CBCA) ™ CBCA ™ sertifikaadi ametlik pakkuja. Certified Banking & Credit Analyst (CBCA) ™ akrediteerimine on krediidianalüütikute globaalne standard, mis hõlmab finants-, raamatupidamis-, krediidianalüüsi-, rahavoogude analüüsi , pakti modelleerimine, laenu tagasimaksed ja palju muud. sertifitseerimisprogramm, mille eesmärk on aidata kellelgi saada maailmatasemel finantsanalüütikuks. Oma karjääri edendamiseks on kasulikud allpool olevad täiendavad finantsressursid:

Elastne võrk Elastne võrk Elastne võrk kasutab regressioonimudelite seadistamiseks lineaarselt nii lasso kui ka katuseharja tehnikat. Tehnika ühendab nii lasso kui ka
Ülepaigaldamine Ületöötamine Ümberseadmine on statistikas kasutatav mõiste, mis viitab modelleerimisveale, mis ilmneb siis, kui funktsioon vastab liiga tihedalt konkreetsele andmekogumile
Skaalautuvus Skaalautuvus Skaalautuvus võib langeda nii finants- kui ka äristrateegia kontekstis. Mõlemal juhul tähistab see üksuse võimet survet taluda
Võltsimine Võltsimine Võltsimine on häiriv algoritmiline kauplemispraktika, mis hõlmab futuurilepingute ostmiseks pakkumiste või pakkumiste esitamist ning pakkumiste või pakkumiste tühistamist enne tehingu täitmist. Selle tava eesmärk on luua turul valepilt nõudlusest või valepessimismist.