Naabrireeglid klassifitseerimisel

Similar documents
Praktikumi ülesanne nr 4

Geograafilise päritolu ennustamine geeniekspressiooni ja geneetilise varieeruvuse abil

VALGE SÄRK PÕHIKANGAS TWO FOLD

LOGO. Eesti Arengukoostöö ja Humanitaarabi

Eesti koolide seitsmendate klasside õpilaste oskused matemaatikas rahvusvahelise Kassex projekti valgusel

Väiketuulikute ja päikesepaneelide tootlikkuse ja tasuvuse võrdlus

JÄRELTULIJALIJA e. Küsimustele vastab direktor Sirje Kautsaar

Eesti Haigekassa DRG piirhinna ja piiride arvutamise metoodika hindamine

Elekter päikesest Eestis aastal Andri Jagomägi, Ph.D. Tallinna Tehnikaülikool Materjaliteaduse Instituut

K ägu. Eesti Bioloogia ja Geograafia Õpetajate Liidu toimetised

jõudlusega ning vähendab võrra.

SADAMA VASTUVÕTUSEADMETE VÄIDETAVATEST PUUDUSTEST TEAVITAMISE VORM FORM FOR REPORTING ALLEGED INADEQUACIES OF PORT RECEPTION FACILITIES

UML keel. Keel visuaalseks modelleerimiseks. Ajalugu ja skeemide nimekiri

KURTNA KOOLI KLASSI ÕPILASTE RAHULOLU- UURINGU TULEMUSED

Tartu Ülikool Psühholoogia osakond. Margit Tamm. Algklasside õpilaste verbaalsete võimete hindamine. Individuaalse ja grupitestimise võrdlus

Tarkvaraprotsessi küpsuse hindamise ja arendamise võimalusi Capability Maturity Model i näitel

3. MAJANDUSSTATISTIKA

MADALA TASEME JUHTKONTROLLERI ARENDUS ISEJUHTIVALE SÕIDUKILE

Head lapsevanemad! Aasta 2009 hakkab läbi saama ning peagi on kätte jõudmas jõuluaeg ja aasta lõpp. Jõuluaeg on kindlasti meelespidamise

LISA 1. SILUMINE. e) Kanname andmed tabelisse L1.1 ja liidame kokku:

TALLINNA TEHNIKAÜLIKOOL Infotehnoloogia teaduskond IDK40LT Ilja Kudrjavtsev IAPB JÄRELTURU ELEKTRILINE DIFERENTSIAALILUKK AUTO ABS PÕHJAL Bakala

Tööülesanne Difraktsioonipildi põhiparameetrite määramine, katsetulemuste võrdlemine teooriaga.

Teema 10. Loogiline disain. CASE

SPORTLIK VABAVÕITLUS EESTIS

Bill Rogers. Käitumine klassiruumis. Tõhusa õpetamise, käitumisjuhtimise ja kolleegitoe käsiraamat

Sokkia GSR 2700ISX vertikaalsed ja horisontaalsed mõõtmishälbed valitud maastikutingimustes

Euroopa Sotsiaaluuring (ESS) Eestis

VÄLJALASKESÜSTEEMI PROJEKTEERIMINE ÜKSIKKORRAS VALMISTATUD SÕIDUKILE

Rehvitemperatuuri mõõtesüsteem võistlusautole FEST14

ATS3000/4000 Juhtpaneel. Kasutusjuhend

KESKMOOTORIGA RALLIAUTO TAURIA RESTAUREERIMINE SISSELASKETRAKT

Kadri Aljas LIIKUVUSSPEKTROMEETRIA: MEETOD JÄÄTMEGAASIDE MÄÄRAMISEKS. Bakalaureusetöö

Excel Tallinna Ülikool

This document is a preview generated by EVS

EESTI MAAÜLIKOOL Tehnikainstituut. Ago Ütt-Ütti

KESKMOOTORIGA RALLIAUTO TAURIA PLASTKOORIKU RENOVEERIMINE

PUBLITSEERIMISKESKUS. Kasutusjuhend

PÄIKESEELEKTRIJAAMADE TOOTLIKKUSE PROGNOOSIDE PAIKAPIDAVUS

EPMÜ, Filosoofia üldkursus. Leo Luks. 5. loeng 1

TOITESÜSTEEMI TÄIUSTAMINE RAHA SÄÄSTMISEKS

Kaitseväe Ühendatud Õppeasutused Sotsiaal- ja humanitaarteaduste õppetool

KÕRGEPINGE-IMPULSSTRAFO TOITEALLIKA JA KÕRGEPINGEMUUNDURIGA TESTMOODULI PROJEKTEERIMINE ESS-I PROOTONIKIIRENDILE

Tartu Ülikool Germaani, romaani ja slaavi filoloogia instituut KÜTTE, VENTILATSIOONI JA ÕHUKONDITSIONEERIMISE INGLISE-EESTI SELETAV SÕNASTIK

Kaarel Zilmer Tallinna Ülikooli Terviseteaduste ja Spordi Instituudi dotsent

This document is a preview generated by EVS

Tartu Ülikool Bioloogia-geograafiateaduskond Geograafia Instituut Loodusgeograafia ja maastikuökoloogia õppetool. Alar Teemusk

Mahu- ja kuluarvestus käsitöönduslikus palkehituses

Kaitseväe Ühendatud Õppeasutused Taktika õppetool

Tartu Ülikool Sotsiaal- ja Haridusteaduskond Haridusteaduste instituut Klassiõpetaja õppekava

Rakendustarkvara: R. Sügis 2017, 4. praktikum

KAS ENERGIA ON EESTIS ODAV VÕI KALLIS?

ETTEVÕTTE VÄÄRTUSE KUJUNEMINE LÄHTUVALT VALITUD STRATEEGIAST AS i IMPREST NÄITEL

Mees, kelle kinnisideeks on tehtud töö kvaliteet

Kodune biodiisli valmistamine ja kasutamine Uurimistöö

EUROOPA PARLAMENT ARVAMUS. Siseturu- ja tarbijakaitsekomisjon 2003/0226(COD) Esitaja: siseturu- ja tarbijakaitsekomisjon

Praktiline juhend biotsiidimääruse kohta

Väikelaevaehituse kompetentsikeskuse katsebasseini uuring. Kristjan Tabri

Arvutiklassi broneerimise veebirakendus. Eesti koolidele. Tallinna Ülikool. Informaatika Instituut. Bakalaureusetöö. Autor: Raimo Virolainen

MUUDETUD juunis Kõik õigused kaitstud WADA

PICAXE trükkplaatide koostamine

Ehitisintegreeritud fotoelektriliste päikesepaneelide tootlikkus ja majanduslik tasuvus Eesti kliimas aastal 2011

Natalja Levenko. analüütik. Elukondlik kinnisvaraturg a I poolaastal I 1 I

Kanepibetoonsegude tutvustus ja katsetamine Eesti kliimas

This document is a preview generated by EVS

TARTU ÜLIKOOL BIOLOOGIA-GEOGRAAFIA TEADUSKOND GEOGRAAFIA INSTITUUT. Tõnis Kärdi. Magistritöö

PFEIFER-i keermestatud tõstesüsteem PFEIFER SEIL- UND HEBETECHNIK GMBH

FORMULA RENAULT 1.6 KLASSI VORMELAUTO RATTAKINNITUSKOOSTU MODIFITSEERIMINE

-40% * KANGADZUNGLIS ALLAHINDLUSED. 1. veebruaril KangaDzungel XXL-is, Tartu mnt 35 avatakse pidulikult PUDUPARADIIS. Palju uusi pärle, paelu, pitse

Tarbimise juhtimine tootmisettevõttes kasutades DMAIC ja Six-Sigma metoodikaid

LYRA. Loob rahuliku keskkonna. Air Climate Solutions

TÖÖSTUSLIKUST KANEPIST SOOJUSISOLATSIOONIMATERJALIDE OMADUSTE UURIMINE STUDYING CHARACTERISTICS OF THERMAL INSULATION MATERIALS FROM INDUSTRIAL HEMP

KEELEKÜMBLUSE KÄSIRAAMAT TALLINN

This document is a preview generated by EVS

Väga tõhusad väikese energiakuluga

TALLINNA ÜLIKOOL Haapsalu Kolledž Liiklusohutus. Kristo Lensment SÄÄSTLIKU SÕIDUVIISI TEADLIKKUSE UURING Diplomitöö. Juhendaja: MA Heli Ainjärv

KEHALISE KASVATUSE ÕPETAMISE TINGIMUSED JA OLUKORD EESTI KOOLIDES

KÄSIRAAMAT WALDORFKOOLI LAPSEVANEMALE

Elektrivõrgu tänane olukord. Võimalikud arengustsenaariumid.

Elektrituuliku seisundi reaalajajälgimissüsteem ja selle rakendused

Aasia riikide elanike kulutused välisreisidele (miljardites eurodes)

B 90 R Adv DOSE Bp Pack

Vaheseinte ehitamine, kasutades helineelduvaid kivivillaplaate

EUROOPA KAUBAMÄRGI JA DISAINI INFOKIRI

TALLINNA TEHNIKAÜLIKOOL Mehaanikateaduskond Soojustehnika instituut Soojusenergeetika õppetool

SA Säästva Eesti Instituut/ Stockholmi Keskkonnainstituudi Tallinna keskus NATURA HINDAMISE PRAKTIKAST JA KVALITEEDIST 2010.

Projekti TULUKE viis ellu Tartu Linnavalitsus

GB Instruction for use EE Kasutusjuhend! UMPLM EE. POWERTEX Permanent Lifting Magnet model PLM

Eesti rahvusvaheline konkurentsivõime 2009 AASTARAAMAT

UUS NEW Q-Q-SEERIA PÕLLUMAJANDUSE TULEVIK UUS Q-SEERIA

Elektribusside laadimissüsteemide tasuvus- ja tundlikkusanalüüs

KÄSIRAAMAT WALDORFKOOLI LAPSEVANEMALE

INGLISE-EESTI SELETAV TAKISTUSSÕIDUSÕNASTIK

SÖÖMINE KASVAME KOOS MAITSETEGA

EESTI AKREDITEERIMISKESKUS ESTONIAN ACCREDITATION CENTRE

Kinnituselemendid ja ühendustehnika. Kvaliteet, mida saab usaldada

Tuleohutuspaigaldiste ja päästevahendite rakendamise juhend haiglatele ja hooldekodudele

Talendi valik ja arendamine spordis

Kasutusjuhend Slagkrafti kraanad

KEY TO SYMBOLS. Symbols. Choke: Set the choke control in the choke position. 2 English AT26CCMC

Ohutuskaartide ja kokkupuutestsenaariumide juhend

Transcription:

Tartu Ülikool Matemaatika-Informaatika Teaduskond Matemaatilise Statistika Instituut Semestritöö: Naabrireeglid klassifitseerimisel Autor: Raivo Kolde Juhendaja: Jüri Lember 9. detsember 2004. a.

Sisukord 1 Sissejuhatus 2 2 k-lähima naabri meetod 6 2.1 Mõni asümptootiline omadus................... 6 2.2 Mõjusus.............................. 9 2.3 Koondumiskiirus......................... 10 3 Simulatsioon 12 3.1 Normaaljaotused võrdsete dispersioonimaatriksitega...... 13 3.2 Erinevate dispersioonimaatriksitega normaaljaotused..... 18 3.3 Patoloogiline juhtum....................... 21 3.4 Eluline näide........................... 23 3.5 Veahinnang............................ 25 4 Lisa 28 1

1 Sissejuhatus Klassifitseerimine ehk diskriminatsioon on teatud objektide liigitamine etteantud klassidesse; näiteks haigetele diagnoosi panemine või tundmatu taime liigi määramine. Klassifikaatorile on ette antud võimalike klasside hulk ja objekti kirjeldus, tema ülesanne on antud kirjelduse põhjal objekti õigesse klassi liigitamine. Inimese jaoks on see ülesanne üldjuhul suhteliselt lihtne ning me teeme seda kogu aeg: otsustame kas vastutulev inimene on meie tuttav või mitte, kas uks millest sisse astume on ikka koduuks jne.... Kuid on probleeme, mille puhul inimese kasutamine on kas ebaotstarbekas või lasua võimatu. Sellistel puhkudel tuleb appi võtta masinad ning anda probleemile matemaatilisem kuju. Olgu meil antud K klassi {0,..., K 1} ja olgu iga uuritava objekti kirjelduseks mingi vektor x R d. Seda vektorit nimetatakse tunnusvektoriks. Näiteks kui laenuandmisel on vaja otsustada, kas tegu on usaldusväärse kliendiga või mitte, siis võiksid tunnusvektori moodustada kliendi vanus, haridustase ja viimase kuue kuu palk. Klassifikaator seab tunnusvektorile vastavusse klassi ehk arvu hulgast Y = {0,..., K 1}. Seega on klassifikaator funktsioon g : R d Y. Klassifikaatori konstrueerimiseks on mitu võimalust. Eelkõige sõltub see meie käsutuses olevatest andmetest. Olgu mingi klassifikaator g. Kuidas hinnata klassifikaatori g headust? Kindlasti ei saa temast veel loobuda, kui ta klassifitseerib valesti mingi konkreetse tunnusvektori x. Üldiselt ei pruugigi tunnusvektor üheselt ära määrata klassi, kuhu see objekt kuulub. Näiteks võivad kõrge palavik, valus kurk ja peavalu viidata nii tavalisele külmetusele kui ka mõnele palju tõsisemale haigusele. Seetõttu tuleb võtta kasutusele tõenäosuslik lähenemine. Olgu X R d juhuslik vektor jaotusega F, mis kirjeldab, kuidas on jaotunud parameetervektorid. Olgu (X, Y ) juhuslik vektor, kus Y {0,..., K 1} ja P (Y = i X = x) on tõenäosus, et tunnusvektorile x vastav klass on i. Vektor (X, Y ) annab kogu klassifitseerimiseks vajaliku info. Teades (X, Y ) jaotust, saame hinnata g headust. Me ootame, et klassifikaator g teeks võimalikult vähe vigu, mistõttu on loomulik hinnata g headust tema veategemise tõenäosusega L(g) = P {g(x) Y }. 2

Seda tõenäosust nimetatakse ka riskiks. Mida väiksem on risk, seda parem on klassifikaator. Ülaltoodud definitsioonist lähtudes on parim võimalik klassifikator g defineeritud järgnevalt g = arg min g:r d {0,...,K 1} P {g(x) Y }, kus miinimum on võetud üle kõigi võimalike funktsioonide. Klassifikaatorit g nimetatakse Bayesi klassifikaatoriks. Avaldame ka Bayesi klassifikaatori riski. Kui X jaotus on F, siis avaldub g risk integraalina L(g) = P {g(x) Y X = x}df (x) = (1 P {Y = g(x) X = x})df (x). Minimaalse riski saame me siis, kui iga punkti x klassifitseerime nii, et eksimise tõenäosus (1 P {Y = g(x) X = x}) on minimaalne. Seega Bayesi klassifikaatori risk L - Bayesi risk - on L = L(g ) = min (1 P {Y = i X = x})df (x). (1) i {0,...,K 1} Valemist (1) järeldub, et g (x) = arg max i P (Y = i x). (2) L on väga oluline jaotust kirjeldav suurus. Tema põhjal võime öelda, kui hästi erinevad klassid tunnusvektorite ruumis üldse eralduvad. Vaatleme edaspidi juhtu, kus K = 2. Seega max i=0,1 P (Y = i x) 1/2, millest min i=0,1 (1 P (Y = i x)) 1/2. Järelikult L 1/2, kusjuures L = 1/2 parajasti siis, kui P (Y = i x) = 1/2. Seega, kui L = 1/2, on ükskõik kuidas vektorile x klass valida, eksimise tõenäosus on ikka 1/2 ning järelikult on ka iga klassifikaatori risk 1/2. Antud juhul on klassifitseerimine mõttetu. Kui aga L = 0, siis on klassid jällegi täielikult eristuvad, ehk iga tunnusvektor x kirjeldab vaid ühte kindlasse klassi kuuluvaid objekte. Jaotuste täielik eristuvus, aga ei pruugi tähendada veel, et me iga klassifikaatoriga saame väga hea tulemuse. Näiteks olgu X U(0, 1) ja Y olgu järgmine { 0, kui x on ratsionaalarv, Y = 1, kui x on irratsionaalarv 3

Bayesi risk on antud juhul tõepoolest 0, kuid enamik klassifikaatoreid annaks siin siiski väga halva tulemuse. Seega kui L < 1/2, sõltub meie klassifikaatori headus oluliselt sellest, kuidas klassifikaator on konstueeritud. Klassifitseerimisülesande eesmärk on konstrueerida klassifikaator, mille risk oleks võimalikult lähedane Bayesi riskile L. Probleem on aga selles, et tavaliselt pole (X, Y ) täpne jaotus teada ja seetõttu ei saa leida ka g ja L. Enamasti on Bayesi riski L ka väga raske hinnata, mistõttu pole teada, kui lähedal me parimale klassifikaatorile oleme. Nii, et Bayesi risk on siiski pigem teoreetiline piir kui praktiline hindmisvahend klassifikaatori headuse jaoks. Konstrueerimaks võimalikult väikese riskiga klassifikaatorit, on vaja informatsiooni jaotuse (X, Y ) kohta. Enamasti on kasutada mingi hulk vaatlusi (X i, Y i ), 1 i n. Näiteks n patsiendi sümptomid ja arsti pandud diagnoos. Sellist valimit nimetatakse treeningvalimiks. Reeglina eeldatakse, et treeningvalimi moodustavad i.i.d juhuslikud suurused, mille jaotus langeb kokku (X, Y ) jaotusega. See on kaunis tugev eeldus, sest täiesti juhusliku ja sõltumatu valimi koostamine ei pruugi olla väga lihtne. Tähistame treeningvalimi järgnevalt D n = {(X i, Y i ) 1 i n}. Valimi D n baasil konstrueeritud klassifikaatorit tähistame g n -ga, tema konstrueerimise protsessi nimetatakse õppimiseks. Klassifikaatori g n risk avaldub valemiga L n = L(g n ) = P {g n (X) Y D n }. See on juhuslik suurus, sest ta sõltub valimist D n. Nii aga jääb ikka õhku küsimus klassifikaatori headuse hindamisest: risk L n võib olla mõne valimi korral väga väike, teise korral jälle väga suur. Võtame vaatluse alla suuruse EL n, kus keskväärtus on võetud üle D n -i. Et L n L, siis EL n = L vaid siis, kui L n = L peaaegu kindlasti. On aga ebareaalne, et iga valimi põhjal saaks teha Bayesi klassifikaatori. Seega pole üldiselt võimalik konstrueerida klassifikaatorit, mille keskmine risk võrdub Bayesi riskiga. Vaadeldes klassifitseerijat kui algoritmi, on mõistlik nõuda, et me saame talle ette anda kuitahes suure hulga treeningandmeid. Selle idee matemaatiliseks formulatsiooniks on klassifitseerimisreegel. Definitsioon 1 Klassifikaatorite jada g 1, g 2,..., g k,... nimetatakse klassifitseerimisreegliks. 4

Põhimõtteliselt on klassifitseerimisreegel meetod või printsiip, mille kohaselt me iga n korral konstrueerime klassifikaatori. Näiteks sobib kasvõi tavaline lineaarne diskriminant (vaata [4]): ükskõik milline on valimi suurus n ning valimisse kuuluvad vektorid, ikka on meil olemas eeskiri klassifikaatori konstrueerimiseks. Nagu nägime, pole üldiselt võimalik konstrueerida Bayesi klassifikaatorit lõpliku treeningvalimi D n korral. Samas n suurenedes, on meil aina rohkem infot (X, Y ) jaotuse kohta ning seda paremaid tulemusi peaksime me klassifitserimisel saama. Definitsioon 2 Ütleme, et klassifitseerimisreegel {g n } on mõjus, kui Reegel on tugevalt mõjus, kui EL n L. L n L p.k. Kui reegel on (tugevalt) mõjus iga jaotuse korral, siis nimetatakse teda universaalselt (tugevalt) mõjusaks. Tugevast mõjususest järeldub mõjusus. Mõjusus on omadus, mis ei garanteeri head klassifikaatorit, kuid vähemalt annab lootust, et tehes rohkem vaatlusi võime me selle siiski saavutada. Et Bayesi klassifikaatorit andmete põhjal saada ei õnnestu, jääb meil üle püüelda selle poole, et klassifitseerimisreegel oleks vähemalt mõjus. Eriti hea reegel on universaalselt mõjus, sest enamikel juhtudel pole uuritavate andmete jaotus teada. Universaalne mõjusus on väga tugev omadus, mida ei rahulda kaugeltki kõik reeglid. Õigupoolest ei teatud kuni 1977 aastani, kas mõni selline reegel üldse eksisteerib. Õnneks on sellised reeglid olemas ja ühest sellisest järgnevalt juttu tulebki. 5

2 k-lähima naabri meetod Järgnev kokkuvõte on kirjutatud raamatu [1] põhjal; sealt võib leida ka esitatud tulemuste tõestused. Lihtne kuid mitmes mõttes hea klassifitseerimisreegel on k-lähima naabri reegel. Selle põhimõte on äärmiselt lihtne. Punkti klassikuuluvuse kohta otsustatakse tema lähimate naabrite põhjal. Lähima naabri reegli kohaselt käib objekti x klassifitseerimine järgnevalt. Leiame treeningvalimist elemendi, mis asub meie uuritavale objektile kõige lähemal - naabri - ning paigutame x temaga samasse klassi. Põhimõtteliselt samamoodi talitades võime kasutada ka rohkem x-i naabreid, lugedes kokku millisesse klassi kuulub kõige rohkem elemente k lähimast treeningvalimi punktist. Selline on lühidalt öeldes k-lähima naabri meetodi idee. Lähemaks uurimiseks tuleb paika panna tähistused. Olgu x R d klassifitseeritav punkt ja olgu (X 1, Y 1 ),..., (X n, Y n ) treeningvalim. Järjestame treeningvalimi ümber kauguse X i x kasvamise järjekorras. Tähistame treeningvalimi uue järjestuse järgnevalt: (X (1) (x), Y (1) (x)),..., (X (n) (x), Y (n) (x)). Kui kahel punktil on kaugus võrdne, siis loetaks lähimaks väiksema indeksiga punkt. Praegusel juhul vaatleme lähimaid vektoreid eukleidilise kauguse mõttes, kuid saab näidata, et naabrireeglite asümptootilised omadused ei sõltu kasutatavast kaugusest. Seega võime me valida erinevaid kaugusi ja proovida, milline neist annab paremaid tulemusi. Olgu meil kaks võimalikku klassi: 0 ja 1. Sel puhul võiks k-lähima naabri reegli kirja panna järgnevalt. { 1, kui ki=1 w g(x) = ni I {Y(i)(x)=0} > k i=1 w ni I {Y(i)(x)=1} (3) 0, mujal, kus w ni = 1/k. Iseenesest võib konstantide w ni väärtused olla ka erinevad. Sellega anname osale naabritest suurema kaalu. Selliseid kaale võib kasutada näiteks siis, kui k on paaris ja mõlemast klassist on naabreid ühepalju. 2.1 Mõni asümptootiline omadus Järgnevas uurime situatsiooni, kus iga punkt x kuulub ühte kahest klassist 0 või 1. Tähistame P (Y = 1 X = x) =: η(x). 6

Seega on η(x) siis tõenäosus, et objekt x kuulub klassi 1. Vaatleme olukorda, kus k on fikseeritud ja valimi maht n kasvab. Olgu X jaotusega F. Suurte arvude seadust kasutades saab näidata, et kehtib järgnev tulemus. Lause 1 Kuulugu x jaotuse F (x) kandjasse(s.t. x igal ümbrusel on positiivne tõenäosus). Kui n, siis iga fikseeritud k korral toimub koondumine X (k) (x) x 0 p.k. Teisisõnu x-i k-s naaber koondub x-ks peaaegu kindlasti. See lause annab meile idee, kuidas uurida naabrireeglite asümptootilist käitumist. Eelduse järgi on uuritav objekt (x, y) realisatsioon juhuslikust vektorist (X, Y ), samast jaotusest on ka treeningvalim. Arvestades, et k-s naaber koondub punktiks x, võime öelda, et piisavalt suure valimimahu korral on tõenäosus η(x (k) (x)) peaaegu võrdne η(x)-ga. Ehk x-i k-s naaber kuulub klassi 1 umbes sama tõenäosusega, kui punkt x ise. Seega asümptootiliselt võime punkti x lähimate naabrite klasse vaadelda kui i.i.d B(1, η(x)) jaotusega juhuslikke suurusi. Oletamegi nüüd, et punkti x naabrite klassid on i.i.d ja Bernoulli jaotusega juhuslikud suurused. Tähistame x k-ndat naabrit klassi taolisel juhul, Y (k) (x)-ga. Seega Y (k)(x) B(1, η(x)). Olgu g n valemiga (3) defineeritud k-naabri klassifikaator. Asendame definitsioonis (3) juhuslikud suurused Y (i) (x) juhuslike suurustega Y (i) (x). Olgu g saadud funktsioon. Ülaltoodust on selge, et suure valimimahu korral g n g. Saab näidata, et valimimahu n kasvamisel läheneb g n keskmine viga E(L n ), klassifikaatori g keskmisele veale E(L ). Suurust E(L ) on võimalik leida. Näiteks ühe naabri reegli korral avaldub ta suhteliselt lihtsalt. Punkti x korral on veategemise tõenäosus võrdne tõenäosusega, et x klass Y ja Y (1) (x) on erinevad. Need on Bernoulli η(x)- jaotusega juhuslikud suurused. Seega P (g (x) Y X = x) = P (Y(1) (x) 1, Y = 0) + P (Y(1) (x) 0, Y = 1) = 2η(x)(1 η(x)). Suuruse E(L ) saame integraalina üle X jaotuse E(L ) = P (g (x) Y X = x)df (x) = 2 η(x)(1 η(x))df (x) =: L NN. (4) 7

Nagu öeldud kehtib koondumine E(L n ) E(L ) = L NN. Seega on L NN ühe naabri reegli asümptootiline risk. Valemit (4) kasutades on võimalik tõestada järgnev teoreem. Teoreem 1 Lähima naabri reegli asümptootilise riski L n jaoks kehtivad võrratused L NN 2L (1 L ) 2L. (5) Tuletame meelde, et L tähistab Bayesi riski. Võrratusi (5) nimetatakse Cover-Harti võrratusteks. Neist on näha, et lähima naabri reegel käitub asümptootiliselt seda paremini, mida väiksem on L (mis on iseenesest ka loogiline). Kui L = 0 on lähima naabri reegel lausa mõjus, sest sel juhul L = L NN. Bayesi riski L suuremate väärtuste korral ei pruugi lähima naabri meetod siiski mõjus olla. Seetõttu vaatleme ka selliseid naabrireegleid kus k on suurem kui üks. Olgu k paaritu, analoogiliselt ühe naabri reegliga kehtib E(L n ) ( k i=1 ( ) k η(x) j (1 η(x)) k j (η(x)i j {j< k 2 } + (1 η(x))i {j> k }))df (x). 2 Olgu valemis (6) oleva integraali tähiseks L knn. Antud valemit saab kasutada, kui k väärtused on paaritud. Millised on asümptootilised veatõenäosused paarisarvulise k korral? Vastamaks sellele küsimusele, tuleb kõigepealt välja mõelda mida teha siis, kui mõlemast klassist naabreid on ühe palju. Üks võimalik algoritm antud juhul on näiteks klassifitseerida see punkt, mille korral mõlemast klassist naabreid on ühepalju, tema lähima naabri järgi. Iseenesest on tegu väga loomuliku variandiga, sest peaks ju lähim naaber andma kõige rohkem infot punkti enda kohta. Tuleb aga välja, et sellise algoritmi kasutamine paaris k korral, ei anna mingit võitu k 1 naabri reegliga võrreldes. Kehtib järgmine teoreem. Teoreem 2 Iga k N ja iga jaotuse korral kehtib võrratus (6) L 2kNN = L (2k 1)NN Seega pole erilist mõtet vaadelda naabrireegleid, kus k on paaris, vähemalt mitte kahe võimaliku klassi korral. 8

Asümptootiliste vigade kohta kehtivad ka järgnevad võrratused L... L (2k+1)NN L (2k 1)NN... L 5NN L 3NN L NN, (7) kusjuures enamasti on need võrratused ranged. Seega mida rohkem naabreid me vaatame, seda väiksem on asümptootiline keskmine viga. Suuruste L knn ja L erinevuse hindamiseks on leitud erinevaid võrratusi. Näiteks kehtib teoreem Teoreem 3 Paaritu k korral kehtib kõigi jaotuste jaoks võrratus ( ) L knn L 1 2LNN + min,. ke k Järelikult ɛ > 0 korral k N nii, et 2.2 Mõjusus L knn L + ɛ. Just nägime, et mida suurem k, seda paremini naabrireegel asümptootiliselt töötab. Mõjusust me fikseeritud k korral siiski ei saavuta. Et reegel oleks mõjus, peame seega laskma k-l kasvada koos n-ga. Samas, et reegel oleks mõistlik, peab k võrreldes n-ga olema piisavalt väike. Teisisõnu võiks toimuda koondumine k/n. Kehtib järgnev teoreem. Teoreem 4 Kui k ja k/n, siis on naabrireegel universaalselt mõjus, s.t iga jaotuse korral EL n L. Tegu on tõesti hea omadusega, kuid selgub et see pole veel kõik. Tuleb välja, et naabrireegel on ka tugevalt mõjus. Selle näitamiseks tuleb küll tegeleda hoolikamalt võrdsete kauguste probleemiga. Seda probleemi pole, kui me eeldame et X-i jaotus on absoluutselt pidev. Sellisel juhul on tõenäosus, et kaks elementi satuvad mõnest kolmandast võrdsele kaugusele 0. Kehtib teoreem. Teoreem 5 Olgu X-i jaotus absoluutselt pidev. Kui k ja k/n, siis iga ɛ > 0 korral leidub n 0 nii, et iga n > n 0 korral P (L n L > ɛ) 2e nɛ2 /c, (8) kus konstant c sõltub vaid tunnusvektori dimensioonist d, kuid mitte jaotusest. 9

Tänu Boreli-Cantelli esimesele lemmale järeldub võrratusest (8), et naabrireeglid on tugevalt tugevalt mõjususad, ehk L n L p.k. Teoreemis 5 eeldasime, et X-i jaotus on absoluutselt pidev. Et sellest loobuda tuleb leida viis võrdsete kauguste vältimiseks. Sellele probleemile on mitmu lahendust. Nagu eespool sai mainitud, võib võrdsete kauguste puhul lähedasemaks võtta väiksema indeksiga naabri. Selline lähenemine tugeva mõjususe seisukohalt väga hea ei ole, sest nii omandavad väiksema indeksiga treeningvalimi elemendid liiga suure mõju ja naabrireeglid pole tugevalt mõjusad. Kõige parem tugeva mõjususe seisukohalt on kasutada lisajuhuslikkust. Üks võimalus selleks on tunnusvektori dimensiooni suurendamine. Defineerime uued vektorid X = (X, U), X 1 = (X 1, U 1 )... X n = (X n, U n ), kus U, U 1,...,U n on absoluutselt pidevad i.i.d juhuslikud suurused, mis on sõltumatud X-st ja Y -st. Et U on absoluutselt pidev ja sõltumatu X-st, siis tõenäosus, et kaks treeningvalimi elementi asuvad punktist x võrdsel kaugusel on 0. Et U on täiesti sõltumatu vektorist (X, Y ), siis tema lisamine Bayesi viga ei saa vähendada, samas sobib jaotuse (X, Y ) Bayesi klassifikaator g ka jaotuse (X, U, Y ) jaoks (vektorit U ei pea ju tingimata klassifitseerimisel arvestama). Seega on laiendatud vektori Bayesi viga sama kui algsel vektoril. k-naabri meetodi rakendamisel uutele andmetele võrdsete kauguste probleemi enam ei teki. Saab näidata, et selline reegel on universaalselt mõjus. Huvitav on see, et reegel jääb tugevalt mõjusaks ka siis, kui U varieerub palju suuremates piirides, kui X. See on muidugi vaid asümptootiline omadus, praktikas on siiski mõistlik võtta U suhteliselt väike. On ka teine loomulik võimalus lisajuhuslikkuse kasutamiseks. Laiendame algseid andmeid samamoodi kui eelnevalt. Otsuse tegemisel aga kasutame k-naabri reeglit vanade andmete korral, välja arvatud juhul,kui mõned naabrid on võrdsel kaugusel. Siis võtame lähemaks selle, millel lisatud tunnuse väärtus on väiksem. Tuleb välja, et ka selline reegel on tugevalt mõjus. 2.3 Koondumiskiirus Eelnevates sektsioonides nägime, et naabrireeglid on mõjusad. Teisisõnu kui n ja k/n 0, siis lim n EL n = L. Seega teame, et naabrireeglid on head asümptootiliselt. Kas on võimalik hinnata kiirust millega EL n läheneb 10

Bayesi riskile? Vastuse küsimusele annavad järgnevad kaks teoreemi ning see vastus on negatiivne. Teoreem 6 Iga ɛ > 0, n N ja klassifitseerimisreegli g n korral leidub (X, Y ) jaotus nii, et selle Bayesi risk on L = 0 ja EL n 1/2 ɛ. Teoreem 6 ütleb,et kuigi meil on reeglid mis on asümptootiliselt optimaalsed kõigi jaotuste jaoks, siis valimimahu n korral leidub alati mõni jaotus mille korral g n käitumine on äärmiselt halb. See tähendab, et ka väga suur valim ei taga meile ühtlaselt head klassifikaatorit, ükskõik millist reeglit me ka kasutaks. Teoreemis 6 sõltub halb jaotus konkreetselt valimi suurusest n. Kuid kehtib veel tugevam tulemus. Teoreem 7 Olgu {a n } nulliks koonduvate positiivsete arvude jada nii, et 1/16 a 1 a 2.... Iga klassifitseerimismeetodite jada jaoks eksisteerib (X, Y ) jaotus nii,et Bayesi riski on L = 0 ja EL n a n, n N. See teoreem ütleb, et kõigi mõjusate reeglite puhul võib vea koondumine piirväärtuseks toimuda ükskõik kui aeglaselt ning me ei saa isegi määrata teoreetilist kuju koondumiskiiruse jaoks. See tähendab, et pole olemas universaalselt head klassifitseerimisreeglit. Koondumiskiiruse uurimiseks peab alati tegema eeldusi ka (X, Y ) jaotuse kohta. 11

3 Simulatsioon Simuleerides valimeid tuntud jaotustest, saame täpselt välja arvutada suurused L, L NN, L 3NN, L 5NN, jne... Tundmatute jaotustega valimite puhul jäävad need näitajad vaid teoreetiliseks. Vaatame kuidas neid suurusi leida. Vaatleme kaheklassilist juht, s.t Y {0, 1}. Bayesi viga L avaldub valemi (1) järgi L = E{min(η(X), (1 η(x)))}. (9) Asümptootiline viga L NN avaldub valemi (4) põhjal järgnevalt L NN = 2E{η(X)(1 η(x))}. (10) Ka suuremate k väärtuste korral saame leida asümptootilise vea L knn valemist (6) k ( ) k L knn = E( η(x) j (1 η(x)) k j (η(x)i j {j< k 2 } + (1 η(x))i {j> k })). 2 i=1 (11) Valemite (1)-(6) rakendamiseks on vaja avaldada kõigepealt tõenäosused η(x) = P (Y = 1 X = x). Olgu X tihedusfunktsiooniks f. Et ma ise andmed simuleerin, on mulle teada ka tinglikud tihedused klassides f 0 (x) := f(x Y = 0) ja f 1 (x) := f(x Y = 1). Teada on ka klassidesse 0 ja 1 kuulumise tõenäosused P (0) = P (Y = 0) ja P (1) = P (Y = 1). Bayesi valemit kasutades saab avaldada kus tihedus f avaldub η(x) = f 1(x)P (1), (12) f(x) f(x) = f 0 (x)p (0) + f 1 (x)p (1). (13) Seda teades saab valemid (9)-(11) välja kirjutada integraalidena. L = min(η(x), (1 η(x)))f(x)dx. (14) L NN = 2 η(x)(1 η(x))f(x)dx (15) 12

L knn = k i=1 ( ) k η(x) j (1 η(x)) k j (η(x)i j {j< k 2 } + (1 η(x))i {j> k })f(x)dx 2 (16) Käsitsi selliseid integraale muidugi väga lihtne leida pole, kuid õnneks suudab MathCad neid numbriliselt väga kenasti lahendada. Seega võime leida meetodite headust kirjeldavad suurused L, L NN, L 3NN,.... 3.1 Normaaljaotused võrdsete dispersioonimaatriksitega Alustame simulatsiooniga sealt, kust statistikud ikka armastavad alustada - normaaljaotusest. Kuigi naabrimeetodid on mitteparameetrilised ja pole otseselt normaaljaotuse jaoks loodud, oleks siiski oluline teada, kui hästi need meetodid üldse käituvad võrreldes kõige klassikalisema klassifitseerimismeetodi - Fisheri diskriminandiga. Kas normaaljaotuse puhul annab mitteparameetriline lähenemine väga suure tagasilöögi võrreldes parameetrilisega? Ühtlasi uurime kuidas töötab teooria praktikas ning kas toimub koondumine asümptootiliste suurusteni. Olgu X 0 ja X 1 juhuslikud suurused tihedustega f 0 ja f 1. X 0 ja X 1 kirjeldavad parameetervektori jaotust klassides 0 ja 1. Simulatsiooniks võtsin X 0 ja X 1 jaotusteks suhteliselt hästi eristuvad kahemõõtmelised normaaljaotused parameetritega. EX 0 = ( 0 0 ), Σ 0 = ( ) 1 0, EX 0 1 1 = ( ) 2, Σ 1 1 = ( ) 1 0. 0 1 Klasside tõenäosused P 0 ja P 1 võtsin võrdsed. Et jaotuste dispersioonimaatriksid on võrdsed, on ka Bayesi klassifikaator lineaarne (vt. [4]). Antud juhul on Bayesi klassifikaator Fisheri diskriminant. Mind aga huvitas, kas sellisel juhul on midagi peale hakata ka naabrireeglitega ning kuivõrd on naabrireegel Fisheri diskriminandist kehvem. Joonisel 1 on toodud juhuslik realisatsioon (valim) neist jaotustest. Must joon tähistab Bayesi klassifikaatorit. Valemeid (15) ja (16) kasutades arvutasin L NN, L 3NN ja L 5NN. Valemiga (14) arvutasin Bayesi riski L, mis on ka ühtlasi Fisheri diskriminandi asümptootiliseks riskiks L F D, sest võrdsete dispersioonimaatriksitega normaaljaotuste eristamisel on Fisheri diskriminant mõjus. Sain 13

Valim y 2 0 2 4 6 2 0 2 4 6 x Joonis 1: Pilt jaotustest L NN = 0.189 L 3NN = 0.159 L 5NN = 149 L F D = 0.132. Saadud tulemused on kooskõlas teooriaga. Kehtivad Cover ja Harti võrratused. Tõepoolest L NN = 0.189 0.229 = 2 0.132(1 0.132) = 2L (1 L ). Samuti kehtivad võrratused (7). Analüüsime leitud asümptootilisi veatõenäosusi. Nagu oligi oodata, on asümptootiliselt kõige väiksem võimalus eksida Fisheri diskriminanti kasutades. Naabrireeglite asümptootilised vead on selgelt suuremad, kuid erinevus pole siiski väga suur. Asjaolu, et erinevad meetodid käituvad kõik piiril suhteliselt hästi, ei tähenda veel, et me lõpliku treeningvalimi puhul nende kohta sedasama saame öelda. Seepärast uuringi simuleerimist kasutades, erinevate meetodite käitumist lõplike treeningvalimite korral. Valimiimahtu kasvatades püüan uurida kas ja kui kiiresti toimub koondumine asümptootilisteks väärtusteks. Simuleerimisel kasutasin järgmist eeskirja. Kõigepealt genereerisin treeningvalimi D n, mille peal treenisin nii naabrireeglid, kui ka lineaarse diskrimi- 14

n NN 3NN 5NN 7NN 9NN 11NN 13NN 15NN 17NN FD 10 0,212 0,183 0,173 0,173 0,231 20 0,202 0,172 0,162 0,158 0,155 0,154 0,167 50 0,194 0,164 0,154 0,149 0,146 0,145 0,142 100 0,192 0,162 0,152 0,147 0,145 0,143 0,141 0,137 200 0,190 0,160 0,150 0,146 0,143 0,141 0,140 0,139 0,134 500 0,190 0,159 0,150 0,145 0,142 0,140 0,139 0,138 0,138 0,133 0,189 0,159 0,149 0.145 0.142 0.140 0.139 0.138 0.137 0,132 Tabel 1: Empiirilised veatõenäosused, võrdsete dispersioonimaatriksitega normaaljaotuste korral nandi. Seejärel genereerisin samast jaotusest testvalimi suurusega m = 2000, mille põhjal hindasin eelnevalt saadud klassifikaatorite keskmist viga suurusega L n = P (g n (X) Y D n ) L n = 1 I {gn (X m i ) Y i D n }. i Niimoodi sain hinnangu keskmistele vigadele mille teevad konkreetsed klassifikaatorid. Suurus L n on treeningvalimist sõltuv juhuslik suurus. Et saada hinnangut keskmistele vigadele mida reeglid teevad (EL n ), suurusega n treeningvalimite korral, kordasin kirjeldatud katset k = 1000 korda ja võtsin saadud tulemustest aritmeetilise keskmise. Seega suuruse EL n hinnanguks võtsin ÊL n = 1 k L n (l), k kus L n (l) on veahinnang l-nda treeningvalimi korral. Tabelis 1 on toodud ÊL n väärtused erinevate naabrireeglite ja Fisheri diskriminandi korral. Tabeli viimases reas on vastavad asümptootilised piirväärtused L knn ja L F D. Kui täpsed saadud hinnangud on, tuleb arutlusele viimases peatükis. Esimesena jääb tabelit vaadates silma suuruste ÊL n suhteliselt kiire koondumine vastavateks asümptootilisteks väärtusteks, kusjuures naabrimeetodid ei jää siinkohal lineaarsest mitte kuidagi maha, vaid koonduvad pigem kiiremini. Ootuspärane oleks ehk vastupidine tulemus, sest Fisheri diskriminant 15 l=1

opereerib keskmistega ja seetõttu peaks ta olema vähem tundlik konkreetsete valimite suhtes ning ka koondub kiiremini. Samal põhjusel võiks arvata, et väikeste valimite korral on naabrireeglite keskmine viga Fisheri diskriminandi keskmisest veast oluliselt suurem, kuid simulatsioon näitab hoopis vastupidist. Kui treeningvalimi suurus on 10, siis on Fisheri diskriminant kõigist vaadeldud meetoditest kõige kehvem ja mitte natuke vaid kohe päris palju, ka 20 elemendilise treeningvalimi korral oli enamus naabrireeglitest paremad. Paneme tähele, et 10 elemendilise valimi juures toimib eriti hästi 7 naabri reegel. Iseenesest on see natuke loogikavastane: 10-st võimalikust naabrist seitsme arvesse võtmisel ei peaks saama head klassifikaatorit. Uurime seda asja lähemalt. Joonisel 2 on üks suvaline 10 elemendiline treeningvalim antud jaotustest ja näited kuidas selle valimi põhjal tehtud naabrireeglid ja lineaarne diskriminant, suvalist testvalimit klassifitseerivad. Pildilt on näha, et naabrimeetodid tabavad antud juhul andmete struktuuri palju paremini kui lineaarne diskriminant. Hämmastaval kombel langeb 7 naabri reegel peaaegu kokku Bayesi diskriminandiga, ka kolme naabri puhul on üldpilt kaunis lähedane Bayesi reeglile. Samas aga on lineaarse diskriminandi suund on hoopis vale. Väga kaugeleulatuvaid järeldusi sellest muidugi teha ei saa, sest juba järgmises näites teiste jaotuste korral seda efekti ei esine. Kuid huvitav tähelepanek on see siiski, näidates, et nii mõnigi kord võib naabrireegel suhteliselt ootamatult väga hästi töötada. Kahjuks pole kindlaid reegleid, mille järgi a priori otsustada kas naabrireegel töötab hästi või mitte. 16

Valim Lineaarne y 2 0 2 4 y 2 0 2 4 2 0 2 4 6 x 2 0 2 4 6 x k=3 k=7 y 2 0 2 4 y 2 0 2 4 2 0 2 4 6 x 2 0 2 4 6 x Joonis 2: Klassifitseerimine 10 elemendilise treeningvalimi korral 17

3.2 Erinevate dispersioonimaatriksitega normaaljaotused Järgnevas vaatleme olukorda, kus klassijaotused on erinevate dispersioonimaatriksitega normaaljaotused. Sellisel juhul pole Fisheri diskriminant enam Bayesi klassifikaator, kuid sellegipoolest peaks töötama päris hästi. Bayesi klassifikaator on antud juhul mingi teist järku joon, mille moodustavad punktid, kus klassijaotuste tihedusfunktsionid võrduvad. Praktikas taoliste jaotuste korral Fisheri diskriminanti ka kasutatakse, sest dispersioonimaatriksite võrdsus on väga kitsendav eeldus. Kõige selle taustal oleks huvitav vaadata, kuidas käituvad sellisel juhul naabrireeglid. Simuleeritavad jaotused X 0 ja X 1 olid järgmiste parameetritega. ( ) 0 EX 0 =, Σ 0 0 = ( 0.5 0 0 0.5 ), EX 1 = ( 2 1 ), Σ 1 = ( 2 0 0 2 Klasside 0 ja 1 tõenäosused võtsin jälla võrdseks. Suvaline valim neist jaotustest on näha joonisel 3. Musta joonega on näidatud Bayesi klassifikaator. Eeskirja Bayesi klassifikaatori arvutamiseks võib leida raamatust [2]. ). Valim y 2 0 2 4 6 2 0 2 4 6 x Joonis 3: Pilt jaotustest 18

Sellise jaotuse korral on klassifikaatorite asümptootilised vead järgnevad L = 0.114 L NN = 0.170 L 3NN = 0.138 L 5NN = 0.128 L F D = 0.135. Naabrireeglite ja Bayesi reegli asümptootilised vead arvutasin valemite (15) ja (16) põhjal. Suuruse L F D sain, kui konstrueerisin Fisheri diskriminandi kasutades toodud jaotuste parameetreid ja siis arvutasin selle klassifikaatori riski nende jaotuste korral. Fisheri diskriminandi risk läheneb n kasvades L F D -le, sest selle koostamisel kasutatakse momente, mis aga lähenevad omakorda jaotuse parameetritele. On näha, et vähemalt asümptootilise vea poolest k-naabri meetod Fisheri diskriminandist väga palju maha ei jäägi ja juba 5-naabri meetod võiks teoreetiliselt anda paremaid tulemusi kui Fisheri diskriminant. Et tegu on siiski asümptootiliste tulemustega ei saa me olla kindlad, et see paremus vähegi mõistlike suurustega treeningvalimitel ka avaldub. Selleks simuleerime erineva suurusega treeningvalimeid ja hindame nende põhjal konstrueeritud klassifikaatorite vigu. Eri tüüpi klassifikaatorite käitumist võib näha joonisel 4. Vasakpoolsel joonisel on 2000 elemendiline valim klassifitseeritud Fisheri diskriminandiga ja teisel puhul on kasutatud kolme naabri reeglit. Treeningvalimi suuruseks oli 100. Lineaarne k=3 y 2 0 2 4 6 y 2 0 2 4 6 2 0 2 4 6 x 2 0 2 4 6 x Joonis 4: Näited erinevate reeglite klassifitseerimisest 19

Pildilt on näha, et naabrireegel arvestab palju paremini jaotuste kujuga ning vähemalt välimuse poolest on reegel suhteliselt sarnane parimale võimalikule klassifikaatorile. Muidugi ei ole ka naabrireegel perfektne: võib näha tumedata saarekest heledate punktide seas, jaotusi teades me neid punkte nii ei klassifitseeriks. See viitabki naabrireegli puudusele: ta on vägagi sõltuv konkreetsest treeningvalimist ning eriti just väheste treeningandmete korral võib ta anda kaunis kummalisi reegleid. Meetodi tundlikkust saab vähendada k suurendamisega. Suurem vaatluste arv vähendab üksikute ebatüüpiliste vaatluste rolli. Et Fisheri diskriminant kasutab reeglite konstrueerimiseks momente, siis seda üksikvaatlused ja nende paiknemine nii drastiliselt ei mõjuta, seevastu on tema vead süstemaatilisemad. Simulatsioon on läbi viidud samamoodi kui enne. Tabelis 2 on hinnangud erinevate klassifikaatorite tehtud keskmistele vigadele, erinevate treeningvalimimahtude korral. n NN 3NN 5NN 7NN 9NN 11NN 13NN 15NN 17NN FD 10 0,201 0,183 0,197 0,226 0,183 20 0,185 0,161 0,160 0,165 0,172 0,185 0,157 50 0,177 0,148 0,141 0,140 0,141 0,143 0,143 100 0,174 0,145 0,136 0,132 0,132 0,132 0,133 0,140 200 0,172 0,142 0,132 0,128 0,127 0,126 0,126 0,126 0,137 500 0,170 0,139 0,129 0,125 0,123 0,122 0,121 0,121 0,121 0,136 0,170 0,138 0,128 0,124 0,121 0,120 0,119 0,118 0,118 0,135 Tabel 2: Normaaljaotuse klassifitseerimisel tehtud vead Tabelist 2 võib välja lugeda nii mõndagi. Kõik veahinnangud lähenevad n suurenedes eelnevalt arvutatud asümptootilistele vigadele. Fisheri diskriminandi võrdlemisel naabrimeetoditega näeme, et väiksemate valimite korral töötasid mõlemad umbes sama hästi ehk oli Fisheri diskriminant natuke parem. Kuid kui treeningvalimis oli juba 100 või rohkem elementi, siis osutusid paremaks juba naabrimeetodid. Nagu asümtootiliste vigade põhjal võib ennustada, on vähegi suuremate valimite puhul 5-naabri reegel Fisheri diskriminandist selgelt parem. Paneme tähele, et fikseeritud valimisuuruse korral ei lähe reegel k suurendamisel aina paremaks, vaid mingi hetk hakkab tema poolt tehtud vigade arv jälle kasvama. See on muidugi väga loogiline, sest kui me iga punkti liigitamisel kasutaksime kõiki treeningvalimi punkte, ei saaks me just väga head 20

klassifikaatorit. Ütleb ju ka mõjususe teoreem, et naabrireegel on mõjus, kui n ja k 0. Näiteks k = n oleks asümptootiliselt hea valik reegli n jaoks. Kui me vaatame nüüd andmeid, siis 10 elemendilise valimi korral on kõige paremin 3 naabri reegel, 20 elemendilise valimi korral 5 naabri reegel, 50 puhul 7 naabri reegel jne.... Nende tulemuste pealt võib õelda, et mõistlik valik on k n. 3.3 Patoloogiline juhtum Kui eelmises osas vaatlesime kõige klassikalisemat juhtumit normaaljaotustega, siis nüüd läheb asi huvitavamaks. Võtame käsile näite, mille puhul tavalised parameetrilised meetodid hätta jäävad, kuid mis naabrireeglitele ei valmista mingit erilist probleemi. Olgu X kahemõõtmelise standardse normaaljaotusega. Tunnusvektori X ja klassi Y ühisjaotus olgu järgnev { 1, kui X 1.177 Y = 0, kui X > 1.177. Konstant 1.177 on selline, et P (Y = 1) = P (Y = 0) = 1/2. Seega on Y tunnusvektori X funktsioon, millest L = 0 ehk klassid on eristuvad. Suvaline valim sellest jaotusest on toodud joonisel 5. Et (X, Y ) Bayesi viga on 0, siis Cover-Harti võrratustest (L NN 2L (1 L ) 2L ) järeldub, et L NN = 0. Seostest (7) saame, et L NN = 0 L 3NN = 0 L 5NN = 0 L 7NN = 0.... Sellise jaotuse puhul käitub naabrimeetod (vähemalt asümptootiliselt) väga hästi.seda ei saa aga öelda lineaarse klassifikaatori kohta. Muidugi pole Fisheri diskriminant taoliste gruppide eraldamiseks mõeldudki, kuid olles klassikaline meetod, kasutatakse seda tihtipeale ka siis, kui eeldused on täitmata. Seepärast proovin kirjeldatud jaotuse korral ka lineaarset diskriminanti. Simuleerimine toimub täpselt samamoodi kui eelnevate näidete puhul: genereerin treening- ja testvalimid ning seejärel vaatan, kui suure osa testvalimist klassifitseerivad treeningvalimi järgi konstrueeritud reeglid valesti. Antud juhul kordasin iga treeningvalimi suuruse korral katset 1000 korda, testvalimi suurus oli nagu ikka 2000. Tulemused on Tabelis 3. 21

Valim y 4 2 0 2 4 4 2 0 2 4 x Joonis 5: Pilt jaotustest Nagu arvata oligi, pole antud näite puhul lineaarne klassifikaator suurem asi, viga on stabiilselt kuskil 0.5 lähedal. Teine lugu on aga naabrimeetoditega, mille vead valimi suurendamisel jõudsalt nullile lähenevad. Asümptootika tundub töötavat päris kenasti. Siin pole ka midagi imestada: et naabrireeglite definitsioonis pole kuskil ühtegi eeldust ega kitsendust jaotuste kuju kohta, pole neil ka mingit põhjust lasta ennast heidutada andmete taolisest patoloogilisest kujust. Paneme tähele, et kõige väiksema riskiga on lähima naabri meetod. Kui üldiselt naabrite arvu suurendamisel läheb meetod paremaks, siis siin toimib vastupidine: mida rohkem naabreid arvesse võtta, seda kehvem on tulemus. Asümptootiliselt on vead kõik võrdsed 0-ga ning koondumiskiiruse kohta me midagi öelda ei oska. Seega teooriaga nimetatud omadus otseselt vastuolus pole. Natuke üllatav on see siiski. Saamaks jälile selle omaduse põhjustele, vaatame jooniselt 6, kuidas ühte valimit klassifitseerib lähima naabri reegel ja seitsme naabri reegel. Antud juhul oli treeningvalimu suuruseks 50 ja testvalimi suuruseks 2000, ring märgib joonisel tegelikku piiri kahe klassi vahel. Jooniselt on näha selle omaduse põhjus. Nimelt on keskmisese ringi kõik punktid väga tihedalt kokku kontsentreeritud, samas on välimise klassi punk- 22

n NN 3NN 5NN 7NN 9NN 11NN 13NN 15NN 17NN FD 10 0,270 0,358 0,419 0,462 20 0,191 0,255 0,306 0,355 0,392 0,423 0,469 50 0,104 0,128 0,157 0,187 0,218 0,255 0,484 100 0,071 0,082 0,093 0,105 0,119 0,133 0,149 0,494 200 0,049 0,054 0,058 0,062 0,066 0,070 0,075 0,081 0,496 500 0,030 0,032 0,033 0,034 0,035 0,035 0,036 0,037 0,038 0,502 0 0 0 0 0 0 0 0 0 Tabel 3: Patoloogilise jaotuse klassifitseerimisel tehtud vead tid hajali. Seega on välimise klassi punkti kõige lähemad naabrid arvatavasti õigest klassist. Võttes aga arvesse kaugemaid naabreid on suurem tõenäosus, et enamus naabritest on valest klassist, sest õigest klassist punktid on hajutatud palju hõredamalt. Ehk mida rohkem me naabreid arvesse võtame, seda halvemini klassifitseerib reegel välimisi punkte. 3.4 Eluline näide Eelmistes osades vaatlesime suhteliselt kunstlikke näiteid. Esimene ja teine olid lineaarse diskrimineerimise jaoks suhteliselt meeldivad juhud, nii ilusaid normaaljaotusi reaalsete andmete korral aga väga tihti ei kohta. Demonstreerimaks naabrimeetodite suutlikust ekstreemsetel juhtudel konstrueerisime kolmanda näite lineaarsele diskriminandile võimalikult ebameeldiva, reaalselt selliseid andmeid suure tõenäosusega ette ei tule ka. Saamaks pilti nende reeglite käitumisest väljaspool laboritingimusi, võtsin ette ka ühe elulisema näite. Andmestik kirjeldab Indoneesia naiste rasestumisvastaste vahendite kasutamist. Eesmärk on prognoosida, milliseid rasestumisvastaseid vahendeid (pikaajalisi, lühiajalisi või ei kasutagi) naised kasutavad. Argumenttunnused on naise vanus, haridus, laste arv, usk, elatustase ja ligipääs meediale, samuti abikaasa haridus ja töö. Tunnused religioon ja ligipääs meediale on binaarsed, haridus ja elatustase on nelja väärtusega järjestustunnused (1=madal... 4=kõrge), laste arv ja vanus on antud lihtsalt numbritena. Vaatlusi on selles andmestikus 1473. Selle andmestiku jaoks enam asümptootilisi tõenäosuseid välja ei saa arvutada, sest üldkogumi jaotus pole teada. Simulatsiooni käigus hindasin reeglite keskmist riski valimimahu n korral. 23

K=7 K=1 y 4 2 0 2 4 y 4 2 0 2 4 4 2 0 2 4 x 4 2 0 2 4 x Joonis 6: Patoloogilise jaotuse klassifitseerimine naabrireeglitega, kui k = 1 ja k = 7 Sel korral ei saanud ma aga genereerida aina uusi ja uusi punkte samast jaotusest, mistõttu võtsin andmestikust järjest juhuslikke valimeid suurusega n ja jätsin ülejäänud punktid testvalimiks. Ülejäänu arvutasin aga täpselt samamoodi nagu eelnevates näidetes. Tulemused on toodud tabelis 4. n 1NN 3NN 5NN 7NN FD 50 0,149 0,113 0,094 0,082 0,138 100 0,140 0,103 0,084 0,073 0,127 200 0,129 0,092 0,074 0,063 0,116 500 0,114 0,075 0,061 0,053 0,109 Tabel 4: Klassifitseerimisvead elulise näite korral Tabelist on näha, et nii Fisheri diskriminant kui ka naabrireeglid töötavad suhteliselt hästi. Kõige kehvem vaadeldud reeglitest on lähima naabri reegel, natuke parem on Fisheri diskriminant. Kolme-, viie- ja seitsme-naabri reeglid on juba märgatavalt väiksema riskiga, valimimahu n = 500 korral on 7-naabri reegli risk juba kaks korda väiksem kui Fisheri diskriminandil, ka väiksemate valimimahtude korral on tema paremus märgatav. Nagu näha, saavad naabrireeglid suhteliselt edukalt hakkama väga erine- 24

vate andmestikega. Seega võiks alati klassifitseerimisel proovida naabrimeetodeid, eriti juhtudel mil teiste meetodite eeldused pole kindlalt täidetud. 3.5 Veahinnang Käesolevas töös on väga tähtsal kohal tabelid hinnangutega suurusele EL n. Peaaegu kõik järeldused on tehtud nende tabelite põhjal. Kui täpsed need hinnangud on? Kui EL n hinnangu ÊL n hajuvus on palju suurema erinevustest meetodite vahel, kaotab suurem osa eelnevast jutust mõtte. Püüame hinnata vahet ÊL n EL n. Olgu ˆL n,m (g n ) suuruse L n empiiriline hinnang klassifikaatori g n ja testvalimimahu m korral. ˆL n,m (g n ) = 1 m m I (gn(xi ) Y i ), i=1 Kus {(X i, Y i ) 1 i m} on treeningvalim. Tähistame k ˆL n,m,k = k 1 ˆL n,m (gn), i kus i=1 g 1 n,..., g k n on klassifikaatorid üle k treeningvalimi. Paneme tähele, et E[ˆL n,m (g i n) D i n] = L(g i n) := P (g i n(x) Y ). Et juhuslik suurus mˆl n,m (g i n) on binoomjaotusega, saame leida hinnangu ˆL n,m (g i n) dispersioonile seega m 2 D(ˆL n,m (g i n)) = D(mˆL n,m (g i n)) = ml(g i n)(1 L(g i n)), D(ˆL n,m (g i n)) = ml(gi n)(1 L(g i n)) m 2 1 4m. Juhuslikust suurusest konstandi lahutamine dispersiooni ei muuda, järelikult ka D(ˆL n,m (g i n) L(g i n)) 1 4m. 25

Eesmärk oli hinnata Selleks teisendame seda avaldist ( ) P ˆL n,m,k EL n > ɛ = k P ( k 1 ( k 1 P i=1 k i=1 ˆL n,m (g i n) k 1 P ( L n,m,k EL n > ɛ). (17) k E[ˆL n,m (gn) D i n] i + k 1 i=1 (ˆLn,m (gn) i L(gn) ) i ɛ ) > 2 ( k 1 + P k i=1 k i=1 ) E[ˆL n,m (gn) D i n] i EL n > ɛ ( L(g i n ) EL(gn) ) i ɛ ) >. 2 (18) Avadlises (18) on kaks liidetavat, mida saab hinnata kontsenratsioonivõrratustega nagu Höffdingi ja Bernsteini võrratused. Kahjuks praegusel juhul vajalike parameetrite korral (m = 2000, k = 1000, ɛ 0.005), Höffdingi võrratus veel häid tulemusi ei anna. Väikeste dispersioonide korral annab Höffdingi võrratusest paremaid tulemusi Bernsteini võrratus. Proovime seda rakendada, võrratus ise on ära toodud lisas. Avaldise (18) esimest liidetavat saab hinnata Bernsteini võrratusega väga hästi, sest eespool on leitud hinnang dispersioonile D(L(g i n) EL(g i n)). Juhuslik suurus L(g i n) EL(g i n) ise kuulub vahemikku ( 1, 1), seega võrratuses c = 1. Võrratus omandab siis järgneva kuju ( k 1 P k i=1 (ˆLn,m (gn) i L(gn) ) i ɛ ) > 2 ( ) ( ) < 2exp kɛ2 /4 2exp kɛ2 /4 2σ 2 + ɛ/3 1/2m + ɛ/3 (19) Kui nüüd panna võrratusse (19) sisse simulatsioonis kasutatud parameetrid: m = 2000 ja k = 1000, siis näiteks ɛ = 0.005 korral on ülemiseks tõkkeks tõenäosusele 0.07. Saadud hinnang tundub mõistlik. Eesmärgiks oli hinnata tõenäosust (17), seetõttu peaks andma hinnangu ka parempoolsele liidetavale valemist (18). Põhimõtteliselt kirjeldab see tõenäosus klassifikaatorite vea hajuvust suurusega n treeningvalimi korral. Ka seda võib hinnata Höffdingi võrratusega, kuid väga häid tulemusi nii ei saa. Järelikult võiks proovida Bernsteini võrratust. Kahjuks ei ole see eriti lihtne, sest Bernsteini võrratuse rakendamiseks peaksime me teadma juhusliku suuruse L(g i n) EL(g i n) dispersiooni. Selle leidmine on aga keerkas, sest 26

ta sõltub treeningvalimimahust n, kasutatavast klassifitseerimisreeglist ja ka konkreetsetest jaotustest. Seetõttu jääb kahjuks hinnangu L n hajuvus teoreetiliselt hindamata. Saamaks mingitki pilti ÊL n väärtuste varieeruvusest, lähenesin probleemile empiiriliselt ja uurisin simuleerimise teel hajuvust konkreetsete valimimahtude ja reeglite korral. Valemi (18) järgi saab ÊL n hajuvuse jagada kaheks osaks, millest üks osa sõltub vaid testvalimi suurusest ja on seega suhteliselt stabiilne. Teine osa aga sõltub otseslt treeningandmetest. Treeningvalimite erinevus avaldab kõige suuremat mõju siis, kui treeningvalimi maht on väike. Seega kõige suurem peaks ÊL n hajuvus olema, kõige väiksema valimimahu n korral. Prooviks arvutasin 20 korda tabeli 2 esimest rida, kus valimimahuks oli 10. Standardhälveteks tulid n NN 3NN 5NN 7NN FD 10 0.00247 0.00218 0.00169 0.00120 0.00284 Nagu näha on standardhälbed suhteliselt mõistlikus suurusjärgus. Tehes sama asja valimimahu 20 korral, saame standardhälbed veel umbes kaks korda väiksemad. Et tabelites on hinnangud kolme kümnendkoha täpsusega, siis usun, et saadud järeldusi hinnangu ÊL n hajuvus ei ole mõjutanud. 27

4 Lisa Teoreem 8 (Bernsteini võrratus) Olgu X 1,..., X n sõltumatud reaalarvusliste väärtustega juhuslikud suurused nii, et EX i = 0 ja c < X i < c p.k. Kui σ 2 = 1 n D(X i ), n siis kehtib { 1 P n } n X i > ɛ i=1 i=1 ( < 2exp nɛ 2 2σ 2 + 2cɛ/3 ). 28

Kokkuvõte Naabrireeglid on mitteparameetrilised klassifitseerimismeetodid, mis liigitavad objekte nende lähimate naabrite järgi. Hoolimata oma headest asümptootilistest omadustest ja intuitiivsest lihtsusest on nad teenimatult jäänud teiste meetodite varju. Käesolevas semestritöös võrreldakse naabrireeglite ja klassikalise Fisheri diskriminandi omadusi erinevate üldkogumi jaotuste korral. Lisaks tutvustatakse peamisi klassifitseerimist puudutavaid mõisteid ja naabrireeglitega seotud teooriat. 29

Viited [1] L. Devroye, L. Györfi, and G. Lugosi. A Probabilistic Theory of Pattern Recognition. Springer-Verlag, New York, 1996. [2] R.Õ. Duda, P. E. Hart, and D. G. Stork. Pattern Classification (2nd Edition). Wiley-Interscience, 2000. [3] R Development Core Team. R: A language and environment for statistical computing. R Foundation for Statistical Computing, Vienna, Austria, 2004. ISBN 3-900051-00-3. [4] E-M. Tiit, S. Koskel, and P. Arandi. Diskriminantanals. Tartu likooli Kirjastus, 1998. [5] V. N. Venables. Modern applied statistics with S-Plus. Springer-Verlag, 1994. 30