Gépi tanulás és Mintafelismerés

Gépi tanulás és Mintafelismerés jegyzet

Csató Lehel Matematika-Informatika Tanszék BabesBolyai Tudományegyetem, Kolozsvár 2007 Aug. 20

2

1. fejezet

Bevezet®

1

A mesterséges intelligencia azon módszereit, melyeket numerikus vagy enyhén strukturált adatokra tudunk alkalmazni, gépi tanulásos módszereknek nevezzük. A gépi tanulás e meghatározás alapján egy szerteágazó tudományág, melynek a keretén belül sok módszerr®l és ennek megfelel®en sok alkalmazási területr®l beszélhetünk. A módszerek közös jellemz®je, hogy olyan algoritmusokat 2

fejlesztenek ki, melyek egy bejöv® nagy

adathalmazból a hasznos információkat tudják kinyerni.

A fenti megfogalmazás kell®en általános. Az adat jelenthet:

•

mérési eredményeket egy rendszer ki- és bemenetér®l.

Ez a klasszikusnak is mondható

regressziós feladat, ahol a cél egy berendezés melyr®l mérési adatokat rögzítünk m¶ködési paramétereinek a becslése.

•

égitestek jellemz®it, ahol a cél egy automata osztályozó felépítése.

•

mikrofonok által rögzített akusztikus jeleket. Ebben az esetben az információ az adatokban lev® szöveg beszélt szöveg esetén vagy a hangmagasságok és ritmus zene feldolgozásánál.

(referencia)

•

!

egy DNS-spirálban az aminosavak egymásutánját. Ez a típusú adathalmaz a modern biológiában és a gyógyszerészettudományokban, az orvosi illetve bioinformatikában nagyon gyakori. A feldolgozás célja olyan aminosav-szekvenciák keresése, melyek géneket alkotnak, illetve azon vegyi anyagok meghatározása, melyek egy adott génszekvencia m¶ködését befolyásolják (segítik vagy gátolják). referencia.

•

!

m¶holdas meggyeléseket. A tengerek felszínér®l visszaver®d® napfény mérése információkat szolgáltat a felszínen keletkez® mikro-hullámokról, ezek a hullámok pedig segítenek a szél becslésénél.

Ez inverziós feladat ahol ismerjük a jelenségek zikai modelljét.

Ki tudjuk

számítani tehát a szél ismeretében a m¶hold által mért értékeket, azonban a fordított irányú következtetés sokkal nehezebb. referencia.

1

Enyhén strukturált (nagyon felületesen):

!

az adatok komponensei (dimenziók) közötti kapcsolat nem túl bo-

nyolult

2

Nagy adathalmaz pl. az internet azaz az interneten megtalálható összes dokumentum. Ebben a halmazban

történ® böngészés illetve az azt megel®z® lépések jó példák a gépi tanulás alkalmazásaira.

3

4

1. FEJEZET. BEVEZET cm 13 10 17

190 6 9 5

180

12

11

7 16 15

18

14

2 3

170 4

160 1

150 8

140

50

60

70

80

1.1. ábra. A testsúly és a magasság kapcsolata súlyok, az

Y

18

90

100

bejegyzés alapján. Az

110

X

kg

tengelyen a meggyelt

tengelyen a magasság; a szaggatott vonal a súly-magasság kapcsolat becslése.

Az adatok sokféleségéhez hasonlóan a módszer azaz az algoritmus is sokféle lehet. Jelenthet:

•

osztályozó rendszert, ahol minden bemen® adathoz címkét rendelünk, azaz besoroljuk egy kategóriába. Klasszikus példa a postai rendszerek által használt felismer®, ahol a kézzel írott számjegyeknek kell meghatározzuk a tartalmát. referencia

!

•

approximátort, mely bemeneti értékekhez tartozó folytonos értékeket rendel. Ekképp meg tudjuk becsülni korábbi betegek adatainak feldolgozása alapján például azt, hogy egy páciens milyen eséllyel fog egy nehéz szívm¶tétet túlélni. referencia

!

• !

prediktort, mely múltbeli meggyelések alapján képes egy becslést adni a meggyelt folyamat jöv®beli alakulásáról. referencia

1. Példa. Testsúly és magasság kapcsolatát szeretnénk vizsgálni orvosi adatok alapján. Tegyük fel,

hogy rendelkezésünkre áll

18

meggyelés, ahogyan azt a 1.1 ábrán látható. A cél, hogy a magasság

és súly között egy lineáris kapcsolatot deniáljunk, azaz meghatározzuk az optimális

(α, β)

paramétereit: mindegyik meggyelt adatra az

mi

m ^ i = α + βsi

egyenlet

magasság közel van az egyenlet

alapján számított értékhez. A fenti feladatok amint láttuk feltételezik, hogy adatokat gy¶jtsünk és feltételezzünk egy

modellt ami az adatokat generálta. Ezen fogalmakat tisztázzuk a következ®kben. Jelen jegyzet nem önálló kutatás, a terjedelmes irodalomnak egy rövid összefoglalója, a teljesség igénye nélkül.

1.1. Deníciók, meghatározások Tegyük fel, hogy az adatokat tároltuk a bármilyen típusúak.

D = {zz1 , . . . , z N }

halmazba.

Az

zi

adatok lehetnek

A korábbi példák esetéhez hasonlóan minden adatot tovább bontunk egy

bemeneti és egy kimeneti értékre:

x i , ti ) z i = (x

1.1. DEFINÍCIÓK, MEGHATÁROZÁSOK

ahol az

x i ∈ Rd

a rendszer bemenete, a

5

ti ∈ R a rendszer kimenete, d pedig a bemeneti adatok

dimenziója. Feltételeztük tehát, hogy a bemeneti és a kimeneti adatok típusa valós. Továbbá feltételezzük, hogy létezik egy függvény, mely a kimen® adatokat generálja, legyen ez a függvény

f : Rd → R.

A feltételezés fontos, merthogy a

A következ®kben feltételezzük, hogy

Gépi tanulás és Mintafelismerés

Recommend Documents