Kottide pakkimine (Bootstrapi liitmine) - ülevaade, kuidas see töötab, eelised

Ansambli masinõppe võib peamiselt liigitada kottide pakkimiseks ja võimendamiseks. Kottimistehnika on kasulik nii regressiooni kui ka statistilise klassifikatsiooni jaoks. Kottimist kasutatakse koos otsustuspuudega, kus see tõstab märkimisväärselt mudelite stabiilsust dispersioonide vähendamisel ja täpsuse parandamisel, mis välistab üleliigse paigaldamise väljakutse.

Kottimine

Joonis 1. Kottide pakkimine (Bootstrapi liitmine). Allikas

Ansambli masinõppe pakkimine võtab mitu nõrka mudelit, prognooside koondamine parima ennustuse valimiseks. Nõrgad mudelid on spetsialiseerunud funktsiooniruumi erinevatele osadele, mis võimaldab igast mudelist kottvõimenduse ennustusi saavutada kõige suurema eesmärgi saavutamiseks.

Kiire Summary

  • Kogumine ja täiendamine on ansambli masinõppe kaks peamist meetodit.
  • Kottimine on ansamblimeetod, mida saab kasutada regressioonis ja klassifitseerimisel.
  • Seda tuntakse ka kui bootstrapi liitmist, mis moodustab kottide kaks klassifikatsiooni.

Mis on alglaadimine?

Kottide koostamine koosneb kahest osast: liitmine ja saapakinnitus. Bootstrapping on proovivõtumeetod, kus proov valitakse komplektist asendusmeetodi abil. Seejärel käivitatakse valitud valimitel õppimisalgoritm.

Alglaadimise tehnika kasutab valimisprotseduuri asendajatega, et teha valikumenetlus täiesti juhuslikuks. Kui valim valitakse ilma asendamiseta, sõltuvad muutujate järgnevad valikud alati eelmistest valikutest, muutes kriteeriumid seega juhuslikeks.

Mis on liitmine?

Mudeli ennustused läbivad liitmise, et neid lõpliku ennustuse jaoks kombineerida, et kaaluda kõiki tulemusi võimalikuks. Liitmist saab teha tulemuste koguarvu või protseduuri iga mudeli alglaadimisest tulenevate ennustuste tõenäosuse põhjal.

Mis on ansambli meetod?

Nii kottimine kui ka võimendamine moodustavad silmapaistvamaid ansamblitehnikaid. Ansamblimeetod on masinõppe platvorm, mis aitab sama õpialgoritmi kasutamise kaudu treeningutel mitut mudelit. Ansamblimeetod on suurema klassifikaatori rühma osaleja.

Mitmeklassifikaatorid on mitme õppijaga rühm, kuhu jookseb tuhandeid inimesi ja mille ühine eesmärk võib ühise probleemi lahendada. Teine mitmeklassifitseerijate kategooria on hübriidmeetodid. Hübriidmeetodites kasutatakse õppijate komplekti, kuid erinevalt mitmeklassifikaatoritest saavad nad kasutada erinevaid õppemeetodeid.

Õppimine seisab silmitsi mitme väljakutsega, näiteks vigadega, mis on peamiselt tingitud kallutatusest, mürast ja dispersioonist. Masinõppe täpsuse ja stabiilsuse tagavad sellised ansamblimeetodid nagu kottimine ja täiendamine. Mitme klassifikaatori kombinatsioon vähendab dispersiooni, eriti kui klassifikaatorid on ebastabiilsed, ja need on olulised usaldusväärsemate tulemuste esitamisel kui üks klassifikaator.

Kas kottimise või võimendamise rakendamine nõuab kõigepealt baasõppija algoritmi valimist. Näiteks kui keegi valib klassifikatsioonipuu, on tõstmine ja kottimine puupakett, mille suurus on võrdne kasutaja eelistusega.

Kottide pakkumise eelised ja puudused

Juhuslik mets Juhuslik mets Juhuslik mets on ennustuste modelleerimisel ja käitumise analüüsimisel kasutatav tehnika, mis on üles ehitatud otsustuspuudele. Juhuslik mets sisaldab palju otsustuspuid on üks populaarsemaid kottimisalgoritme. Kottide pakkumine annab eelise, kui võimaldab paljudel nõrkadel õppijatel ühendada jõupingutused, et ületada üks tugev õppija. See aitab vähendada ka dispersiooni, seega on ülerõivastuse kõrvaldamine Overfitting Overfitting on statistikas kasutatav mõiste, mis viitab modelleerimisveale, mis ilmneb siis, kui funktsioon vastab liiga tihedalt protseduuri konkreetsele mudelite kogumile.

Kottide üks puudus on see, et see toob kaasa mudeli tõlgendatavuse kaotuse. Õige protseduuri eiramisel võib tulemuseks olev mudel olla palju kallutatud. Hoolimata sellest, et kott on väga täpne, võib see olla arvutuslikult kallis ja see võib teatud juhtudel selle kasutamist takistada.

Kottimine vs suurendamine

Parim tehnika, mida kottimise ja lisamise vahel kasutada, sõltub olemasolevatest andmetest, simulatsioonist ja kõigist sel ajal olemasolevatest oludest. Hinnangu dispersiooni vähendavad kombineerimisprotseduuri ajal kottimise ja suurendamise meetodid oluliselt, suurendades seeläbi täpsust. Seetõttu näitavad saadud tulemused suuremat stabiilsust kui üksikud tulemused.

Kui mõni sündmus esitab väljakutse madala jõudlusega, ei anna kottimistehnika paremat kallutatust. Kuid võimendustehnika loob ühtse mudeli, kus on vähem vigu, kuna see keskendub ühe mudeli eeliste optimeerimisele ja puuduste vähendamisele.

Kui ühe mudeli väljakutse on liiga sobiv, toimib kottimismeetod paremini kui võimendustehnika. Boosting seisab silmitsi üleliigse käitlemise väljakutsega, kuna see on iseenesest liiga sobiv.

Seotud lugemised

Finance pakub finantsmodelleerimise ja hindamise analüütikule (FMVA) ™ FMVA® sertifikaati. Liituge 350 600+ üliõpilasega, kes töötavad sellistes ettevõtetes nagu Amazon, JP Morgan ja Ferrari sertifitseerimisprogrammis neile, kes soovivad oma karjääri järgmisele tasemele viia. Oma teadmistebaasi õppimise ja arendamise jätkamiseks uurige palun allpool olevaid täiendavaid asjakohaseid finantsressursse:

  • Klastrite valimine Klastrite valimine Statistikas on klastrivalim valimi moodustamise meetod, mille käigus kogu uuringu populatsioon jaguneb väliselt homogeenseteks, kuid sisemiselt
  • Ülekindluse kallutatus Ülekindluse kallutatus Ülekindluse kallutatus on väär ja eksitav hinnang meie oskustele, intellektile või andele. Lühidalt öeldes on see egoistlik veendumus, et oleme paremad kui tegelikult. See võib olla ohtlik eelarvamus ja see on käitumisega seotud rahandus- ja kapitaliturgudel väga viljakas.
  • Regressioonanalüüs Regressioonanalüüs Regressioonanalüüs on statistiliste meetodite kogum, mida kasutatakse sõltuva muutuja ja ühe või mitme sõltumatu muutuja vaheliste seoste hindamiseks. Seda saab kasutada muutujate seose tugevuse hindamiseks ja nende vahelise tulevase suhte modelleerimiseks.
  • Aegridade andmete analüüs Aegridade andmete analüüs Aegridade andmete analüüs on teatud aja jooksul muutuvate andmekogumite analüüs. Aegridade andmekogumid registreerivad sama muutuja vaatlusi eri ajahetkedel. Finantsanalüütikud kasutavad aegridade andmeid, näiteks aktsiahindade liikumist või ettevõtte müüki ajas

Lang L: none (rec-post)