Gépi tanulás és Mintafelismerés jegyzet
Csató Lehel Matematika-Informatika Tanszék BabesBolyai Tudományegyetem, Kolozsvár 2007 Aug. 20
2
1. fejezet
Bevezet®
1
A mesterséges intelligencia azon módszereit, melyeket numerikus vagy enyhén strukturált adatokra tudunk alkalmazni, gépi tanulásos módszereknek nevezzük. A gépi tanulás e meghatározás alapján egy szerteágazó tudományág, melynek a keretén belül sok módszerr®l és ennek megfelel®en sok alkalmazási területr®l beszélhetünk. A módszerek közös jellemz®je, hogy olyan algoritmusokat 2
fejlesztenek ki, melyek egy bejöv® nagy
adathalmazból a hasznos információkat tudják kinyerni.
A fenti megfogalmazás kell®en általános. Az adat jelenthet:
•
mérési eredményeket egy rendszer ki- és bemenetér®l.
Ez a klasszikusnak is mondható
regressziós feladat, ahol a cél egy berendezés melyr®l mérési adatokat rögzítünk m¶ködési paramétereinek a becslése.
•
égitestek jellemz®it, ahol a cél egy automata osztályozó felépítése.
•
mikrofonok által rögzített akusztikus jeleket. Ebben az esetben az információ az adatokban lev® szöveg beszélt szöveg esetén vagy a hangmagasságok és ritmus zene feldolgozásánál.
(referencia)
•
!
egy DNS-spirálban az aminosavak egymásutánját. Ez a típusú adathalmaz a modern biológiában és a gyógyszerészettudományokban, az orvosi illetve bioinformatikában nagyon gyakori. A feldolgozás célja olyan aminosav-szekvenciák keresése, melyek géneket alkotnak, illetve azon vegyi anyagok meghatározása, melyek egy adott génszekvencia m¶ködését befolyásolják (segítik vagy gátolják). referencia.
•
!
m¶holdas meggyeléseket. A tengerek felszínér®l visszaver®d® napfény mérése információkat szolgáltat a felszínen keletkez® mikro-hullámokról, ezek a hullámok pedig segítenek a szél becslésénél.
Ez inverziós feladat ahol ismerjük a jelenségek zikai modelljét.
Ki tudjuk
számítani tehát a szél ismeretében a m¶hold által mért értékeket, azonban a fordított irányú következtetés sokkal nehezebb. referencia.
1
Enyhén strukturált (nagyon felületesen):
!
az adatok komponensei (dimenziók) közötti kapcsolat nem túl bo-
nyolult
2
Nagy adathalmaz pl. az internet azaz az interneten megtalálható összes dokumentum. Ebben a halmazban
történ® böngészés illetve az azt megel®z® lépések jó példák a gépi tanulás alkalmazásaira.
3
4
1. FEJEZET. BEVEZET cm 13 10 17
190 6 9 5
180
12
11
7 16 15
18
14
2 3
170 4
160 1
150 8
140
50
60
70
80
1.1. ábra. A testsúly és a magasság kapcsolata súlyok, az
Y
18
90
100
bejegyzés alapján. Az
110
X
kg
tengelyen a meggyelt
tengelyen a magasság; a szaggatott vonal a súly-magasság kapcsolat becslése.
Az adatok sokféleségéhez hasonlóan a módszer azaz az algoritmus is sokféle lehet. Jelenthet:
•
osztályozó rendszert, ahol minden bemen® adathoz címkét rendelünk, azaz besoroljuk egy kategóriába. Klasszikus példa a postai rendszerek által használt felismer®, ahol a kézzel írott számjegyeknek kell meghatározzuk a tartalmát. referencia
!
•
approximátort, mely bemeneti értékekhez tartozó folytonos értékeket rendel. Ekképp meg tudjuk becsülni korábbi betegek adatainak feldolgozása alapján például azt, hogy egy páciens milyen eséllyel fog egy nehéz szívm¶tétet túlélni. referencia
!
• !
prediktort, mely múltbeli meggyelések alapján képes egy becslést adni a meggyelt folyamat jöv®beli alakulásáról. referencia
1. Példa. Testsúly és magasság kapcsolatát szeretnénk vizsgálni orvosi adatok alapján. Tegyük fel,
hogy rendelkezésünkre áll
18
meggyelés, ahogyan azt a 1.1 ábrán látható. A cél, hogy a magasság
és súly között egy lineáris kapcsolatot deniáljunk, azaz meghatározzuk az optimális
(α, β)
paramétereit: mindegyik meggyelt adatra az
mi
m ^ i = α + βsi
egyenlet
magasság közel van az egyenlet
alapján számított értékhez. A fenti feladatok amint láttuk feltételezik, hogy adatokat gy¶jtsünk és feltételezzünk egy
modellt ami az adatokat generálta. Ezen fogalmakat tisztázzuk a következ®kben. Jelen jegyzet nem önálló kutatás, a terjedelmes irodalomnak egy rövid összefoglalója, a teljesség igénye nélkül.
1.1. Deníciók, meghatározások Tegyük fel, hogy az adatokat tároltuk a bármilyen típusúak.
D = {zz1 , . . . , z N }
halmazba.
Az
zi
adatok lehetnek
A korábbi példák esetéhez hasonlóan minden adatot tovább bontunk egy
bemeneti és egy kimeneti értékre:
x i , ti ) z i = (x
1.1. DEFINÍCIÓK, MEGHATÁROZÁSOK
ahol az
x i ∈ Rd
a rendszer bemenete, a
5
ti ∈ R a rendszer kimenete, d pedig a bemeneti adatok
dimenziója. Feltételeztük tehát, hogy a bemeneti és a kimeneti adatok típusa valós. Továbbá feltételezzük, hogy létezik egy függvény, mely a kimen® adatokat generálja, legyen ez a függvény
f : Rd → R.
A feltételezés fontos, merthogy a
A következ®kben feltételezzük, hogy