Statistick´ e metody v marketingu Ing. Michael Rost, Ph.D. ˇ esk´ Jihoˇ cesk´ a univerzita v C ych Budˇ ejovic´ıch
K pojmu distiribuˇ cn´ı funkce · · · Distribuˇ cn´ı funkce je definov´ ana vztahem: F (x) = P (X ≤ xi) Distribuˇ cn´ı funkce je definov´ ana na pˇ redem dan´ em intervalu. Jej´ı z´ akladn´ı vlastnosti jsou: 0 ≤ F (x) ≤ 1 F (xi) ≤ F (xj ) pro kaˇ zdou dvojici ˇ c´ısel xi < xj lim F (x) = F (−∞) = 0
x→−∞
lim F (x) = F (+∞) = 1
x→+∞
P (a < X ≤ b) = F (b) − F (a) Distribuˇ cn´ı funkce F (x) je zprava spojit´ a a m´ a nejv´ yˇ s spoˇ cetnˇ e bod˚ u nespojitosti. c Rost 2007 °
K pojmu distiribuˇ cn´ı funkce · · · Grafu distribuˇ cn´ı funkce odpov´ıd´ a v popisn´ e statistice graf kumulativn´ıch relativn´ıch ˇ cetnost´ı.
Distribuˇ cn´ı funkce diskr´ etn´ı n´ ahodn´ e veliˇ ciny je nespojit´ a. Pro diskr´ etn´ı n´ ahodnou veliˇ cinu plat´ı: X
F (xi) = P (X ≤ xi) =
pj
j≤i
Pro spojitou n´ ahodnou veliˇ cinu, nab´ yvaj´ıc´ı vˇ sech hodnot z intervalu x ∈ [a; b] Zx
F (x) = P (X ≤ xi) =
f (t)dt a c Rost 2007 °
K hustotˇ e pravdˇ epodobnosti · · · Funkci definovanou vztahem 0 dF (x) = F (x) (1) dx naz´ yv´ ame frekvenˇ cn´ı funkc´ı nebo hustotou pravdˇ epodobnosti. Z´ akladn´ı vlastnosti hustoty pravdˇ epodobnosti jsou:
f (x) =
f (x) ≥ 0 lim f (x)dx = 0
x→−∞
lim f (x)dx = 0
x→+∞
Rb a
f (x)dx = 1
pro x ∈ [a; b]
P (a < X ≤ b) =
Rb a
f (x)dx c Rost 2007 °
K pojmu kvantil · · · Velmi d˚ uleˇ zit´ y je pojem kvantilu. P -kvantilem nebo P 100%-n´ım kvantilem n´ ahodn´ e veliˇ ciny X, kter´ a m´ a jist´ e spojit´ e rozdˇ elen´ı n´ ahodn´ e veliˇ ciny s distribuˇ cn´ı funkc´ı F (x) a hustotu pravdˇ epodobnosti f(x), je ˇ c´ıslo xP pro kter´ e plat´ı ZxP
F (xP ) = P (X ≤ xP ) =
f (x)dx = P −∞
Nˇ ekter´ e kvantily maj´ı speci´ aln´ı n´ azvy napˇ r.: doln´ı kvartil, medi´ an, horn´ı kvartil, decil, percentil,
c Rost 2007 °
Rozdˇ elen´ı · · · Lze rozliˇ sovat diskr´ etn´ı a spojit´ e:
• Diskr´ etn´ı: Alternativn´ı A(π), binomick´ e Bi(n, π), hypergeometrick´ e H(M, N, n), Poissnovo P o(λ) atd.. • Spojit´ e: Norm´ aln´ı N (µ, σ 2) , Studentovo t(n), χ2-rozdˇ elen´ı, Fisherovo-Snedecorovo F (m, n), atd...
c Rost 2007 °
Pomoc´ı R Prostˇ red´ı Rumoˇ zˇ nuje velmi snadno urˇ covat hodnoty distribuˇ cn´ıch funkc´ı pro r˚ uzn´ a x a r˚ uzn´ e typy rozdˇ elen´ı. Slouˇ z´ı k tomu nˇ ekolik jednoduch´ ych pˇ r´ıkaz˚ u.
c Rost 2007 °
K intervalov´ emu odhadu · · · Vyjadˇ rujeme jej pomoc´ı dvou ˇ c´ısel, mezi nimiˇ z se pohybuje skuteˇ cn´ a hodnota hledan´ eho parametru s pˇ redem zvolenou pravdˇ epodobnost´ı. ˇ´ısla vymezuj´ıc´ı tento interval se naz´ C yvaj´ı doln´ı a horn´ı mez intervalu spolehlivosti. Takov´ y interval naz´ yv´ ame 100(1 − α)%-n´ı konfidenˇ cn´ı interval nebo t´ eˇ z 100(1 − α)%-n´ı interval spolehlivosti. ˇ´ıslo 1 − α pak naz´ ˇ´ıslo α C yv´ ame koeficientem spolehlivosti. C pak hladinou v´ yznamnosti. Spolehlivost odhadu vol´ıme sami. Vˇ etˇ sinou chceme aby byla bl´ızko 1 a vol´ıme α = 0, 01 nebo ˇ castˇ eji α = 0, 05. c Rost 2007 °
K intervalov´ emu odhadu · · · Podstata intervalov´ eho odhadu charakteristiky Θ spoˇ c´ıv´ a v urˇ cen´ı hodnot(statistik) TD a TH , tak aby platilo P (TD ≤ Θ ≤ TH ) = 1 − α v pˇ r´ıpadˇ e oboustrann´ eho intervalu spolehlivosti, nebo P (Θ ≤ TH ) = 1 − α resp. P (TD ≤ Θ) = 1 − α v pˇ r´ıpadˇ e jednostrann´ ych interval˚ u spolehlivosti. Napˇ r. je-li n´ aˇ s v´ ybˇ er z´ısk´ an z rozdˇ elen´ı N (µ; σ 2), kde rozptyl nen´ı zn´ am, lze hledan´ y oboustrann´ y 100(1 − α)%-n´ı interval spolehlivosti parametru µ zapsat jako: Ã
!
s s P x ¯ − √ t1−α/2(n − 1) < µ < x ¯ + √ t1−α/2(n − 1) = 1 − α . n n c Rost 2007 °
K testov´ an´ı hypot´ ez · · · Pokud n´ as zaj´ım´ a zda plat´ı, ˇ ci neplat´ı tvrzen´ı o urˇ cit´ em parametru, napˇ r. o parametru Θ, pak takov´ eto tvrzen´ı lze nazvat hypot´ ezou, resp. statistickou hypot´ ezou. Statistickou hypot´ ezu lze pak zapsat napˇ r´ıklad ve tvaru H0 : θ = θ0 Takto formulovanou hypot´ ezu nazveme testovanou hypot´ ezou (nulovou hypot´ ezou). ˇ lovˇ Pˇ r´ıklad: H0 : C ek dennˇ e spotˇ rebuje v pr˚ umˇ eru 2,3 l tekutin. H0 : µ = 2, 30
c Rost 2007 °
Alternativn´ı hypot´ eza Proti testovan´ e hypot´ eze formulujeme alternativn´ı hypot´ ezu HA neboli H1. Rozliˇ sujeme zpravidla tˇ ri typy alternativn´ıch hypot´ ez: Pravostrann´ a hypot´ eza
HA :
Θ > Θ0
Levostrann´ a hypot´ eza
HA :
Θ < Θ0
Oboustrann´ a hypot´ eza
HA :
Θ 6= Θ0 .
Je velmi d˚ uleˇ zit´ e, jak budeme sv´ e hypot´ ezy specifikovat. Dle formulace probl´ emu se mus´ıme spr´ avnˇ e rozhodnout mezi tˇ remi variantami: H0 : Θ = Θ0 vs. HA : Θ 6= Θ0 , nebo H0 : Θ = Θ0 vs. HA : Θ > Θ0 nebo H0 : Θ = Θ0 vs. HA : Θ < Θ0 .
c Rost 2007 °
Testov´ e krit´ erium Pro rozhodnut´ı o tom, kter´ a z v´ yˇ se formulovan´ ych hypot´ ez je pravdiv´ a, tj. zda bude platit H0 nebo naopak HA, rozhodujeme za pomoci tzv. testov´ e statistiky T . Testov´ a statistika je funkc´ı naˇ sich pozorov´ an´ı, tj.: T = g(x1, x2, x3, . . . , xn) a je tedy n´ ahodnou veliˇ cinou nab´ yvaj´ıc´ı urˇ cit´ eho oboru hodnot, resp. hodnot z urˇ cit´ e podmnoˇ ziny mnoˇ ziny re´ aln´ ych ˇ c´ısel. Na definovan´ em oboru hodnot testov´ e statistiky T lze vymezit jist´ ym zp˚ usobem dvˇ e podmnoˇ ziny, a to oborem pˇ rijet´ı a kritick´ y obor. c Rost 2007 °
Chyby spojen´ e s testov´ an´ım hypot´ ez Ot´ azka spoˇ c´ıv´ a v tom jak stanovit hranici mezi tˇ emito mnoˇ zinami? S t´ım souvis´ı problematika chyb, kter´ ych se m˚ uˇ zeme pˇ ri testov´ an´ı hypot´ ez dopustit. Lze doj´ıt ke ˇ ctyˇ rem z´ avˇ er˚ um: • Zam´ıtneme nulovou hypot´ ezu, pˇ riˇ cemˇ z ve skuteˇ cnosti plat´ı alternativn´ı hypot´ eza. Naˇ se rozhodnut´ı je tedy spr´ avn´ e. • Nezam´ıtneme nulovou hypot´ ezu, pˇ riˇ cemˇ z ve skuteˇ cnosti nulov´ a hypot´ eza plat´ı. Naˇ se rozhodnut´ı je tedy spr´ avn´ e. • Zam´ıtneme nulovou hypot´ ezu pˇ restoˇ ze je spr´ avn´ a. Dopouˇ st´ıme se tak chyby. Tento typ chyby naz´ yv´ ame chybou I. druhu. • Nezam´ıtneme nulovou hypot´ ezu pˇ restoˇ ze plat´ı alternativn´ı hypot´ eza. Dopouˇ st´ıme se tak chyby. Tento typ chyby naz´ yv´ ame chybou II. druhu.
c Rost 2007 °
Chyba I. druhu Pokud bychom tedy chtˇ eli urˇ cit pravdˇ epodobnost vzniku chyby I. druhu, platilo by n´ asleduj´ıc´ı: P (chyby I.) = P (pˇ rijmu HA|H0) = P (T ∈ K|plat´ı H0). Ve vˇ etˇ sinˇ e pˇ r´ıpad˚ u poˇ zadujeme, aby tato pravdˇ epodobnost nepˇ rekroˇ cila urˇ citou, pˇ redem danou hodnotu α. Hodnotu α naz´ yv´ ame hladinou v´ yznamnosti. Nejˇ castˇ ejˇ s´ı volbou hodnoty α pro testov´ an´ı hypot´ ez je α = 0, 05 ˇ ci α = 0, 01. V takov´ em pˇ r´ıpadˇ e pˇ ripouˇ st´ıme existenci vzniku chyby I. druhu s pravdˇ epodobnost´ı 0,05 resp. 0,01. Kritick´ y obor je konstruov´ an tak, ˇ ze plat´ı: P (chyby I.) = P (T ∈ K|plat´ı H0) = α . c Rost 2007 °
Rozhodnut´ı o platnosti testovan´ e hypot´ ezy Pokud jde o samotn´ e testov´ an´ı hypot´ ezy, pak to spoˇ c´ıv´ a v aplikaci jednoduch´ eho rozhodovac´ıho pravidla: Leˇ z´ı-li hodnota testov´ eho krit´ eria T v kritick´ em oboru tj. plat´ı-li: T ∈ K, zam´ıt´ ame nulovou hypot´ ezu H0 ve prospˇ ech hypot´ ezy alternativn´ı HA. Naopak, neleˇ z´ı-li hodnota testov´ eho krit´ eria v kritick´ em oboru, pak testovanou hypot´ ezu nezam´ıt´ ame a tvrd´ıme, ˇ ze se nepodaˇ rilo zam´ıtnout nulovou hypot´ ezu na pˇ redem zvolen´ e hladinˇ e v´ yznamnosti α a na z´ akladˇ e pozorovan´ ych dat.
c Rost 2007 °
Chyba II. druhu Chyby druh´ eho druhu se dopust´ıme tehdy, nezam´ıtneme-li hypot´ ezu H0, pˇ restoˇ ze tato hypot´ eza ve skuteˇ cnosti neplat´ı. Pravdˇ epodobnost toho, ˇ ze se dopust´ıme chyby II. druhu lze vyj´ adˇ rit n´ asleduj´ıc´ım zp˚ usobem: P (chyby II.) = P (nezam´ıtnu H0|HA) = P (T 6∈ K|HA) = β. Vˇ etˇ sinou se vˇ sak zaj´ım´ ame sp´ıˇ se o doplnˇ ek k t´ eto pravdˇ epodobnosti. Tj. o pravdˇ epodobnost toho, ˇ ze se t´ eto chyby nedopust´ıme. Symbolicky lze hledanou pravdˇ epodobnost definovat n´ asledovnˇ e: P (pˇ rijmu HA|HA) = P (T ∈ K|HA) = 1 − β.
(2)
Tento doplnˇ ek k pravdˇ epodobnosti chyby II. typu, tj. hodnotu 1 − β, zpravidla naz´ yv´ ame silou testu. c Rost 2007 °
Druhy test˚ u Z hlediska toho, jak´ e pˇ redpoklady ˇ cin´ıme o rozdˇ elen´ı sledovan´ eho statistick´ eho znaku, lze rozliˇ sit dvˇ e tˇ r´ıdy test˚ u: Parametrick´ e testy: Jsou testy zaloˇ zen´ e na znalosti charakteru rozdˇ elen´ı sledovan´ eho statistick´ eho znaku. Parametrick´ ymi testy se pak testujeme pˇ redpoklady o nezn´ am´ ych hodnot´ ach parametr˚ u (m˚ uˇ ze j´ıt napˇ r´ıklad o stˇ redn´ı hodnotu ˇ ci rozptyl). V pˇ rev´ aˇ zn´ e vˇ etˇ sinˇ e jde o poˇ cetnˇ e n´ aroˇ cnˇ ejˇ s´ı, ale siln´ e testy. Neparametrick´ e testy: Jsou takov´ e testy, kter´ e nevyˇ zaduj´ı znalost pˇ redpoklad˚ u o charakteru rozdˇ elen´ı n´ ahodn´ ych veliˇ cin. Neparametrick´ e, se naz´ yvaj´ı proto, ˇ ze se net´ ykaj´ı parametr˚ u rozdˇ elen´ı. Tyto testy maj´ı obecnˇ e menˇ s´ı s´ılu ve srovn´ an´ı s parametrick´ ymi testy. c Rost 2007 ° ←
→
ˇ´ C ast II: Pr´ ace s R
←
→
´ Uvodem
• V souˇ casn´ e dobˇ e existuje na trhu cel´ a ˇ rada statistick´ eho software. Asi nejrozˇ s´ıˇ renˇ ejˇ s´ım je statistick´ y software SAS, SPSS, STATISTICA, MATLAB, pˇ r´ıpadnˇ e S-plus.
• Jde pˇ redevˇ s´ım o komerˇ cn´ı a monolitick´ e syst´ emy s relativnˇ e pˇ r´ atelsk´ ym prostˇ red´ım.
• Nev´ yhodou tˇ echto program˚ u je vˇ sak jejich vysok´ a poˇ rizovac´ı cena.
Alternativou m˚ uˇ ze b´ yt ”profesion´ aln´ı” programovac´ı prostˇ red´ı R. c Rost 2007 ° ←
→
Proˇ c pr´ avˇ e R?
+ R je zdarma a rozv´ıj´ı se. V mnoha ohledech pˇ rekon´ av´ a (a to i o nˇ ekolik let) nˇ ekter´ e jin´ e komerˇ cn´ı programy.
+ Syst´ em n´ apovˇ edy ke kaˇ zd´ e funkci spolu s uk´ azkou pouˇ zit´ı pˇ r´ısluˇ sn´ e funkce. Existuje ˇ sirok´ a uˇ zivatelsk´ a obec - moˇ znost ˇ reˇ sit probl´ emy s pˇ redn´ımi odborn´ıky.
+ Velmi dobr´ a grafika, import a export dat a v´ ystup˚ u + (Sweave).
+ ”Uˇ cesan´ y jazyk”, vektorizace v´ ypoˇ ct˚ u, moˇ znost vyuˇ zit´ı objektovˇ e orientovan´ eho programov´ an´ı, komunikuje Tinn-R, GGobi, LATEX, Excel, . . . . . .
+ Dostupnost nejnovˇ ejˇ s´ıch statistick´ ych metod. c Rost 2007 ° ←
→
Prvn´ı kroky: Spuˇ stˇ en´ı R
Erko lze inicializovat r˚ uzn´ ym zp˚ usobem.
• Windows GUI: Obvykl´ y zp˚ usob pˇ res Start – Vˇ sechny programy – R.
• Xemacs, Rterm, Rcmd, Tinn-R . . .
Ukonˇ cen´ı pr´ ace s programovac´ım prostˇ red´ım R, je velmi jednoduch´ e. Staˇ c´ı do pˇ r´ıkazov´ eho ˇ r´ adku zapsat za prompt q()
c Rost 2007 ° ←
→
Princip pr´ ace s R Obvykle prob´ıh´ a pr´ ace s R interaktivnˇ e. Lze ji popsat modelem ot´ azka — odpovˇ ed’:
• Zad´ ate pˇ r´ıkaz a stisknete kl´ avesu Enter.
• R vyhodnot´ı pˇ r´ıkaz (vytiskne jeho hodnotu pokud je nen´ı zaps´ ana do vnitˇ rn´ı pamˇ eti).
• Pak R ˇ cek´ a na dalˇ s´ı vstupn´ı pˇ r´ıkaz.
c Rost 2007 ° ←
→
Nˇ ekolik mal´ ych pˇ r´ıklad˚ u
2 + 2 [1] 4 exp(-2) [1] 0.1353353 log(100, base = 10) [1] 2 rnorm(10) [1] 0.28561157 0.17790983 1.63946005 -0.46323635 [5] 0.70008063 -0.04786677 -0.98090075 -1.72214332 [9] -0.23604856 -0.85228894 data<-(rnorm(50,13,4)) mean(data) [1] 13.02051 var(data) [1] 18.60891 sqrt(var(data)) [1] 4.313805
c Rost 2007 ° ←
→
Funkce exp(), log(), mean(), var(), sqrt(), rnorm() jsou funkce implementovan´ e v R. Vol´ an´ı funkc´ı je indikov´ ano prostˇ rednictv´ım jm´ ena funkce a z´ avorek
jm´ eno.funkce(argument1, argument2,argument3,...) v nichˇ z jsou obsaˇ zeny argumenty funkce. Naprost´ a vˇ etˇ sina pr´ ace v R se odehr´ av´ a pr´ avˇ e prostˇ rednictv´ım funkc´ı.
c Rost 2007 ° ←
→
Moˇ znosti z´ aznamu dat Do R lze data zaznamen´ avat r˚ uzn´ ymi zp˚ usoby. Asi nejjednoduˇ sˇ s´ı postup spoˇ c´ıv´ a ve vyuˇ zit´ı funkc´ı c() nebo scan(). Nebo vyuˇ z´ıt vestavˇ en´ y datov´ y editor pomoc´ı funkce edit(data.frame()). Import data bude zm´ınˇ en pozdˇ eji. x<-c(1,2,3,4,8,12,3,4,6) x [1] 1 2 3 4 8 12 3 4 6
nebo x<-scan() 1: 1 2 3 4 8 12 3 4 6 10: Read 9 items x [1] 1 2 3 4 8 12 3 4 6
c Rost 2007 ° ←
→
Z´ akladn´ı statistick´ e funkce Ukaˇ zme si nˇ ekolik jednoduch´ ych pˇ r´ıkaz˚ u, kter´ e lze vyuˇ z´ıt pˇ ri z´ akladn´ım (opravdu pˇ ri tom nejz´ akladnˇ ejˇ s´ım) statistick´ em zpracov´ an´ı dat. Pˇ redpokl´ adejme, ˇ ze data jsou uloˇ zena v objektu x nebo v objektech A, B, C. Co hodl´ am z´ıskat Aritmetick´ y pr˚ umˇ er Poˇ cet pozorov´ an´ı Rozptyl Smˇ erodatn´ a odchylka Histogram Dekadick´ y logaritmus Pˇ rirozen´ y logaritmus Minimum Maximum Suma Vytvoˇ ren´ı rostouc´ı posloupnosti
pˇ r´ıkaz v R mean(x) length(x) var(x) sqrt(var(x)) hist() log(x,10) log(x) min(x) max(x) sum(x) sort(x)
c Rost 2007 ° ←
→
Grafika v R
Co hodl´ am z´ıskat Krabicov´ y diagram Histogram Rozpylov´ e diagramy Kol´ aˇ cov´ y graf 3D graf Vynesen´ı bod˚ u do kart´ ezsk´ e soustavy souˇ radnic atd. ...
pˇ r´ıkaz v R boxplot(x) hist() pairs() pie(x) persp() plot(x,y) ...
c Rost 2007 ° ←
→
Hodnoty F (x) = P(X ≤ x) a hodnoty uα; tα(n); χ2 α(n); Fα(n1; n2); . . . Hodnoty distribuˇ cn´ıch funkc´ı: pro pˇ r´ıpad, ˇ ze x = 2; m = 18, n = 20 F (x) pokud X ∼ N(0; 1) F (x) pokud X ∼ t(n) F (x) pokud X ∼ χ2(m) F (x) pokud X ∼ F (m, n) Kvantily nejˇ castˇ eji pouˇ z´ıvan´ ych rozdˇ elen´ı spojit´ ych n´ ahodn´ ych veliˇ cin: pro pˇ r´ıpad, ˇ ze α = 0, 05, m = 18, n = 20 z1−α t1− α2 (n−1) χ2α (n) F1−α(m − 1, n − 1)
pnorm(2,0,1) pt(2,20) pchisq(2,20) pf(2,18,20)
qnorm(0.95,0,1) qt(0.975,19) qchisq(0.05,20) qf(0.95,17,19)
c Rost 2007 ° ←
→
Testov´ an´ı hypot´ ez (tˇ ech z´ akladn´ıch . . .)
Student˚ uv t-test(jeden v´ ybˇ er) HA : µ 6= µ0 = 140 HA : µ < µ0 = 140 HA : µ > µ0 = 140
t.test(x,mu=140) t.test(x,mu=140,alternative="less") t.test(x,mu=140,alternative="greater")
Test na shodu dvou rozptyl˚ u 2 2 HA : σA 6= σB
var.test(A,B)
Student˚ uv t-test(dva v´ ybˇ ery) HA : µA 6= µB H A : µA < µ B H A : µA > µ B
t.test(A,B) t.test(A,B,alternative="less") t.test(A,B,alternative="greater")
c Rost 2007 ° ←
→
N´ apovˇ eda V prostˇ red´ı R lze s v´ yhodou vyuˇ z´ıvat velmi dobˇ re koncipovanou n´ apovˇ edu. K jej´ı vyvol´ an´ı staˇ c´ı zadat jednoduch´ y pˇ r´ıkaz help() nebo jeˇ stˇ e jednoduˇ seji, vyuˇ z´ıt pˇ r´ıkaz ?. seme n´ azev funkce ke kter´ e hodl´ ame z´ıskat Za symbol ? nap´ıˇ n´ apovˇ edu. e t´ ema Jinou moˇ znost´ı je pouˇ z´ıt pˇ r´ıkaz help.search(). Hledan´ pak vep´ıˇ seme do uvozovek napˇ r. help.search("mean") a stiskneme enter. Pokud pˇ r´ıkaz sice zn´ ame, ale nev´ıme jak´ e argumenty obsahuje, m˚ uˇ zeme vyuˇ z´ıt pˇ r´ıkazu args(). Do z´ avorek opˇ et vep´ıˇ seme n´ azev funkce. c Rost 2007 ° ←
→
Import dat z Excelu V pˇ r´ıpadˇ e, ˇ ze hodl´ ame importovat data, napˇ r. z Excelu, lze vyuˇ z´ıt nˇ ekolika moˇ znost´ı.
• Asi nejjednoduˇ sˇ s´ı cestou je exportovat data z Excelu prostˇ rednictv´ım jeho nab´ıdky/ Postup je n´ asleduj´ıc´ı: Soubor – Uloˇ zit jako:mojedata Typ souboru: CSV (oddˇ elen´ y stˇ redn´ ıkem) Enter. Ve vaˇ sem pracovn´ım adres´ aˇ ri se objev´ı soubor mojedata.csv. Pak pokraˇ cujeme jiˇ z v R. Za prompt > nap´ıˇ seme: mojedata<-read.csv("mojedata.csv", header=TRUE,dec=",",sep=";") mojedata c Rost 2007 ° ←
→
Import dat z Excelu • Druh´ a moˇ znost spoˇ c´ıv´ a ve vloˇ zen´ı kop´ırovan´ ych dat do schr´ anky a pak pouˇ zit´ı pˇ r´ıkazu: mojedata<-read.table(file("clipboard"),sep="\t",dec=",") mojedata
c Rost 2007 ° ←
→
Export dat do Excelu Sv´ a data m˚ uˇ zeme tak´ e exportovat do Excelu. Pˇ redpokl´ adejme, ˇ ze hodl´ ame vytvoˇ rit n´ ahodn´ e poˇ rad´ı, ve kter´ em provedeme mˇ eˇ ren´ı. V´ ysledn´ e poˇ rad´ı uloˇ z´ım do objektu cislapokusu a vyexportuji do Excelu. Soubor obsahuj´ıc´ı vytvoˇ ren´ e poˇ rad´ı bude pojmenov´ an jako poradi.xls. cislapokusu<-sample(1:50,50,replace=F) write.table(cislapokusu,"poradi.xls",sep="\t",na="",row.names=F)
c Rost 2007 ° ←
→
Pˇ r´ıklad z maticov´ e algebry - SVD dekompozice Pˇ redpokl´ adejme jednoduch´ y skript v R: library(pixmap) x<- read.pnm("modelka.pgm") plot(x) #aproximaceobr´ azku dekompo<-svd(x@grey) V<-diag(dekompo$d[1:50]) S<-dekompo$u[,1:50] D<-dekompo$v[,1:50] rekonstr<-S %*% V %*% t(D) aproximovany.obrazek<-pixmapGrey(rekonstr) plot(aproximovany.obrazek, main="Aproximace pomoci 50 SVD komponent")
c Rost 2007 ° ←
→
Grafick´ y v´ ystup v R Aproximace pomoci 5 SVD komponent
Aproximace pomoci 15 SVD komponent
Aproximace pomoci 20 SVD komponent
Aproximace pomoci 10 SVD komponent
Aproximace pomoci 50 SVD komponent
c Rost 2007 ° ←
→
c Rost 2007 ° ←
→