Liigne paigaldamine - ülevaade, avastamis- ja ennetusmeetodid

Üleliigne on statistikas kasutatav mõiste, mis viitab modelleerimisveale, mis ilmneb siis, kui funktsioon vastab konkreetsele andmekogumile liiga tihedalt. Seetõttu ei pruugi ülerõivastamine sobitada täiendavaid andmeid ja see võib mõjutada tulevaste vaatluste ennustamise täpsust.

Liigset paigaldamist saab tuvastada, kontrollides valideerimismõõdikuid, näiteks täpsust ja kaotust. Valideerimismõõdikud suurenevad tavaliselt kuni punktini, kus need soiku jäävad või hakkavad langema, kui mudelit mõjutab üleliigne paigaldamine. Tõusva trendi ajal taotleb mudel head sobivust, mille saavutamisel hakkab trend langema või soiku jääma.

Kiire kokkuvõte

Ülekinnitamine on modelleerimisviga, mis toob mudeli kallutatuse sisse, kuna see on andmekogumiga liiga tihedalt seotud.
Ülepaigaldamine muudab mudeli asjakohaseks ainult selle andmekogumi jaoks ja muudel andmekogumitel ebaoluline.
Mõned ülereguleerimise vältimiseks kasutatavad meetodid hõlmavad komplekteerimist, andmete täiendamist, andmete lihtsustamist ja ristkinnitamist.

Kuidas tuvastada üleliigset paigaldamist?

Üleannustamise tuvastamine on enne andmete testimist peaaegu võimatu. See võib aidata lahendada ülereguleerimise olemuslikku omadust, milleks on võimetus andmekogumeid üldistada. Seetõttu saab andmeid koolituse ja testimise hõlbustamiseks jagada erinevateks alamhulkadeks. Andmed jagunevad kaheks põhiosaks, s.t testikomplektiks ja treeningkomplektiks.

Koolituskomplekt esindab enamikku olemasolevatest andmetest (umbes 80%) ja see koolitab mudelit. Testikomplekt esindab väikest osa andmekogumist (umbes 20%) ja seda kasutatakse selliste andmete täpsuse testimiseks, millega ta varem ei suhelnud. Andmekogumi segmenteerimisel saame uurida mudeli toimivust igas andmekogumis, et kohata selle ülereguleerimist, samuti näha, kuidas koolitusprotsess töötab.

Toimivust saab mõõta, kasutades mõlemas andmekogumis täheldatud täpsuse protsenti, et järeldada üleliigse olemasolu olemasolu kohta. Kui mudel töötab treeningkomplektis paremini kui testikomplekt, tähendab see, et mudel sobib tõenäoliselt üle.

Kuidas vältida ülepaigutamist?

Allpool on toodud mõned võimalused üleliigse paigaldamise vältimiseks:

1. Rohkemate andmetega koolitus

Üheks võimaluseks ülerõivastamise vältimiseks on rohkemate andmetega treenimine. Selline võimalus muudab algoritmid algoritmide jaoks lihtsaks. Algoritmid (Algos) Algoritmid (Algos) on juhiste kogum, mis võetakse kasutusele ülesande täitmiseks. Algoritme tutvustatakse kauplemise automatiseerimiseks, et teenida kasumit sagedusel, mida inimkauplejatel on signaali tuvastamiseks võimatu. parem vigade minimeerimiseks. Kuna kasutaja sisestab mudelisse rohkem treeningandmeid, ei saa ta kõiki valimeid üle sobitada ja on tulemuste saamiseks sunnitud üldistama.

Kasutajad peaksid mudeli täpsuse suurendamiseks pidevalt koguma rohkem andmeid. Seda meetodit peetakse siiski kalliks ja seetõttu peaksid kasutajad tagama, et kasutatavad andmed oleksid asjakohased ja puhtad.

2. Andmete suurendamine

Alternatiiviks suurema andmemahuga treeningutele on andmete täiendamine, mis on eelmisega võrreldes odavam. Kui te ei saa pidevalt rohkem andmeid koguda, saate muuta saadaolevad andmekogumid mitmekesisteks. Andmete suurendamine muudab näidisandmed iga kord, kui mudel neid töödeldakse, veidi erinevad. Protsess muudab iga andmekogumi mudeli jaoks unikaalseks ja takistab mudelil andmekogumite omaduste tundmaõppimist.

Teine võimalus, mis töötab samamoodi nagu andmete suurendamine, on müra lisamine sisend- ja väljundandmetele. Müra lisamine sisendile muudab mudeli stabiilseks, mõjutamata andmete kvaliteeti ja privaatsust, samas kui väljundile müra lisamine muudab andmed mitmekesisemaks. Kuid müra lisamine peaks toimuma mõõdukalt, nii et müra ulatus ei oleks nii suur, et muudaks andmed valeks või liiga erinevaks.

3. Andmete lihtsustamine

Ülemäärane paigaldamine võib ilmneda mudeli keerukuse tõttu, nii et isegi suurte andmemahtude korral õnnestub mudelil koolitusandmete komplekt üle sobitada. Andmete lihtsustamise meetodit kasutatakse ülereguleerimise vähendamiseks, vähendades mudeli keerukust, et see oleks piisavalt lihtne, et see ei sobiks üle.

Mõned rakendatavad toimingud hõlmavad otsustuspuu kärpimist, parameetrite arvu vähendamist. Parameeter Parameeter on statistilise analüüsi kasulik komponent. See viitab omadustele, mida kasutatakse antud populatsiooni määratlemiseks. See on harjunud närvivõrgus ja väljalangevuse kasutamine neutraalses võrgus. Mudeli lihtsustamine võib muuta ka mudeli kergemaks ja kiiremaks.

4. Ansambel

Ansambel on masinõppe tehnika, mis töötab kahe või enama eraldi mudeli ennustuste kombineerimisega. Kõige populaarsemad komplekteerimismeetodid hõlmavad võimendamist ja kottidesse panemist. Suurendamine toimib lihtsate baasmudelite abil, et suurendada nende üldist keerukust. See koolitab suurt hulka nõrku õppijaid järjestatuna nii, et iga jadas õppija õpib enne seda õppija vigadest.

Boosting ühendab järjestikku kõik nõrgad õppijad, et tuua välja üks tugev õppija. Teine komplekteerimismeetod on kottimine, mis on vastupidine võimendamisele. Kottimine toimub nii, et koolitatakse suur hulk tugevaid õppijaid, mis on paigutatud paralleelselt, ja seejärel kombineeritakse neid prognooside optimeerimiseks.

Rohkem ressursse

Finance on ülemaailmse finantsmudeli modelleerimise ja hindamise analüütiku (FMVA) ametlik pakkuja. FMVA® sertifikaat. Liituge 350 600+ üliõpilasega, kes töötavad sellistes ettevõtetes nagu Amazon, JP Morgan ja Ferrari, mis on loodud selleks, et aidata kõigil saada maailmatasemel finantsanalüütikuks . Oma karjääri edendamiseks on kasulikud allpool olevad täiendavad finantsressursid:

Finantsstatistika põhimõisted Rahanduse põhistatistika mõisted Statistika kindel mõistmine on ülioluline, et aidata meil rahandust paremini mõista. Pealegi võivad statistikakontseptsioonid aidata investoritel jälgida
Andmekaevandamise eelarvamused Andmekaevandamise eelarvamused Andmekaevandamise eelarvamused viitavad eeldusele, kui oluline on kaupleja omistada turule juhtumile, mis oli tegelikult juhuse või ettenägematu tulemus.
Juhuslik mets Juhuslik mets Juhuslik mets on ennustuste ja käitumise analüüsi modelleerimisel kasutatav tehnika, mis on üles ehitatud otsustuspuudele. Juhuslik mets sisaldab palju otsustuspuid
Tingimusteta tõenäosus Tingimusteta tõenäosus Tingimusteta tõenäosus, mida nimetatakse ka marginaalseks tõenäosuseks, viitab tõenäosusele, mida varasemad või tulevased sündmused ei mõjuta. Teisisõnu,