STATISTICA 10 Nové funkce a vylepšení Obsah STATISTICA 10.............................................................................................................................1 VÝKONNOST ...............................................................................................................................1 KONEKTIVITA A INTEGRACE .......................................................................................................1 SHAREPOINT ...............................................................................................................................1 OFFICE 2010..............................................................................................................................1 OLAP .......................................................................................................................................2 STATISTICA PI CONNECTOR..........................................................................................................3 VIZUALIZACE DAT .......................................................................................................................3 PŘEHLED ....................................................................................................................................3 INTERAKTIVNÍ ROLOVÁNÍ ................................................................................................................4 PRŮHLEDNOST.............................................................................................................................4 REFERENČNÍ ČÁRY ........................................................................................................................5 INTERAKTIVNÍ EDITACE TEXTU ..........................................................................................................5 ERGONOMIE UŽIVATELSKÉHO ROZHRANÍ..................................................................................6 PŘEHLED ....................................................................................................................................6 RIBBON BAR................................................................................................................................6 VYLEPŠENÝ PRACOVNÍ PROSTOR .......................................................................................................6 DOPLŇKY STATISTICA PRO RIBBON BAR...........................................................................................7 STATISTIKY..................................................................................................................................7 SIMULACE, ROZDĚLENÍ A KOVARIANCE ...............................................................................................7 COXOVY MODELY PROPORCIONÁLNÍCH RIZIK ........................................................................................8 LEPŠÍ ŠKÁLOVATELNOST A VYŠŠÍ RYCHLOST U RŮZNÝCH TYPŮ POPISNÝCH STATISTIK .......................................9 DATA MINING.............................................................................................................................9 GRAF ZISKU.................................................................................................................................9 KŘIVKA ROC...............................................................................................................................9 JEŠTĚ LEPŠÍ ŠKÁLOVATELNOST A VYŠŠÍ RYCHLOST ROZLIČNÝCH PREDIKTIVNÍCH MODELOVACÍCH METOD ...............9 TEXT MINING ............................................................................................................................10 JAVA AND NASAZENÍ C# ...............................................................................................................10 STATISTICA SCORECARD ............................................................................................................11 STATISTICA ENTERPRISE ...........................................................................................................11 RIBBON BAR .............................................................................................................................11
KONFIGURACE DAT .....................................................................................................................11 MIGRACE DATABÁZE ...................................................................................................................12 SDÍLENÍ MAKER VE STATISTICA ENTERPRISE ....................................................................................12 JMÉNA KONFIGURACÍ ENTERPRISE ..................................................................................................12 STATISTICA ENTERPRISE SERVER: AUTOMATICKÁ AKTUALIZACE GRAFŮ DEFINOVANÝCH ANALÝZ ...................12 STATISTICA MSPC ONLINE ........................................................................................................13 STATISTICA WEB DATA ENTRY..................................................................................................14 STATISTICA LIVE SCORE ............................................................................................................14 STATISTICA SCORECARD ...........................................................................................................15 NÁPOVĚDA A DOKUMENTACE .................................................................................................15 PŘÍKLADY OBJEKTOVÉHO MODELU STATISTICA ................................................................................15
STATISTICA 10 Výkonnost (Všechny produkty)
STATISTICA 10 nově automaticky využívá 64-bitovou technologii CPU (pokud je k dispozici na používaném hardwaru, bude nainstalována automaticky 64-bitová verze). Dalším zlepšením jsou vysoce optimalizované paralelní výpočty (multithreading). Mnoho funkcí ve správě dat a mnoho analýz (C & RT, CHAID, Obecné lineární modely, atd.), které pracovaly ve verzi 9 v jednovláknovém režimu, nyní nově využívají technologie paralelních výpočtů a předností více jader či procesorů. Tím je dosaženo významného zvýšení výkonnosti.
KONEKTIVITA a INTEGRACE SharePoint (Všechny produkty)
Vstup (a také výstup) do prostředí STATISTICA 10 je nyní integrován s nejrychleji rostoucím standardem pro výměnu dat - Microsoft SharePoint. K dokumentům lze nyní přistupovat přes SharePoint přímo z uživatelského rozhraní STATISTICA, což šetří čas uživatelů. Navíc je software STATISTICA v současnosti jediným analytickým a dataminingovým programem, který tuto možnost nabízí.
Office 2010 (Všechny produkty)
STATISTICA podporuje přímý import původních souborů Office 2007 a 2010, včetně informace o jejich formátování. Technologie pro import do pracovního sešitu STATISTICA má významně vylepšenou kompatibilitu s nestandardními soubory Excel 2007 a 2010, import a export z Excelu 2007/2010 nyní reflektuje nastavený formát buněk.
-1-
OLAP (Všechny produkty)
Prostřednictvím STATISTICA Query se lze nyní připojit také k poskytovatelům datových kostek OLAP, kterými jsou např. Microsoft OLE DB Provider for Analysis Services nebo SAP Business Warehouse. MDX dotazy lze generovat v grafickém uživatelském rozhraní (táhni a pusť) nebo lze psát přímo kód MDX.
-2-
STATISTICA PI Connector (doplňkový produkt)
Verze 10 přináší jednodušší instalaci a správu STATISTICA PI konektoru. Konektor PI je nyní distribuován jako součást verze 10 a samostatný instalátor proto již není vyžadován.
Vizualizace dat (Všechny produkty)
Přehled Grafy v software STATISTICA 10 byly modernizovány, využívají vysoký výkon grafických akcelerátorů, který je dostupný nejen v kartách typu „high-end“, ale také v ostatních grafických kartách, např. v přenosných počítačích. Výsledek je generován nejen rychleji, ale grafy mají také vyhlazenější a zřetelnější vzhled a podporují nově implementované barevné přechody a zjemněné vykreslovací postupy. Všechny grafy jsou nově vybaveny interaktivními posuvníky, které umožňují rychle upravit grafiku zobrazení. Dále bylo vylepšeno otáčení 3D grafů - vertikálně i horizontálně, které má vliv na odhalení skrytých trendů v rozsáhlých datových souborech.
-3-
Interaktivní rolování S 3D grafem lze přímo, pomocí spodních posuvných lišt, interaktivně otáčet a měnit tak úhel pohledu na data. To umožňuje zkoumat nové závislosti v modelovaných datech.
Po přejetí kurzoru myši nad popis osy a tažením lze interaktivně měnit měřítko grafu a tím vybrat pouze určitou oblast dat, zvětšit ji a detailně zkoumat její průběh. Průhlednost Grafy softwaru STATISTICA 10 nově, oproti předchozím verzím, podporují průhlednost. Průhlednost je ovládána interaktivně přes posuvníky na spodní části grafu, a lze s její pomocí kontrolovat překrývající se složky grafu (je vyžadován operační systém Windows Vista SP 2 nebo Windows 7). Průhlednost je užitečná technika, která umožňuje odhalit skryté trendy v husté koncentraci datových bodů, zejména u bodových graf, které vznikly z extrémně velkých datových souborů.
-4-
Cílem těchto technik je dosáhnout optimální úrovně hustoty dat a odkrýt skryté vzory, které zakrývají náhodné body. Lze překrývat jednotlivé části např. u histogramu, tím naznačit shodu v části dat a zároveň udržet graf přehledný.
Referenční čáry Referenční čáry, průměry a další vodící hodnoty mohou být přidány do grafu mnohem snadněji než dříve. K přidání slouží nová funkce v dialogovém okně Možnosti grafu – Vztažné čáry.
Interaktivní editace textu Textové popisky grafu lze nyní interaktivně upravovat přímo na obrazovce bez nutnosti otevření okna editoru. Textový editor je stále k dispozici pro pokročilou úpravu textu.
-5-
ERGONOMIE UŽIVATELSKÉHO ROZHRANÍ Přehled Vylepšeno bylo také uživatelské rozhraní a ergonomie ovládacích prvků, což podle nejnovějších zkušeností: 1) Snižuje únavu očí. 2) Zlepšuje interakci člověk – počítač. STATISTICA ve verzi 10 nabízí efektivnější uživatelské rozhraní, kompletně přepracované zobrazovací technologie a v neposlední řadě také novou ikonografii. Ribbon bar (Všechny produkty)
Všechny prvky Ribbon baru byly aktualizovány a byly také přepracovány jejich symboly (tradiční klasické menu je i nadále podporováno z důvodu kompatibility). Do Ribbon Baru mohou být nově přidána i makra STATISTICA Visual Basic.
Vylepšený pracovní prostor (STATISTICA Data Miner/STATISTICA Text Miner)
STATISTICA Data Miner nyní nabízí větší (a vizuálně optimalizovaný) pracovní prostor jednotlivých ikon a další nové vylepšení uživatelského rozhraní tohoto modulu.
-6-
Doplňky STATISTICA pro Ribbon bar (Všechny produkty)
STATISTICA Ribbon bar lze nově programově ovládat. Vývojáři mohou přizpůsobit Ribbon bar prostřednictvím volání API (Application Programming Interface). Tato vlastnost je užitečná zejména při vytváření vlastních doplňků STATISTICA.
STATISTIKY Simulace, rozdělení a kovariance (Všechny produkty kromě STATISTICA Base)
Ve STATISTICA verze 10 byl posílen modul Rozdělení a simulace. STATISTICA 10 nyní usnadňuje generování simulovaných dat z konkrétního rozdělení pomocí nástroje: Návrh simulace.
V této verzi lze jednoduše najít rozdělení, které nejlépe odpovídá konkrétním proměnným, a použít tuto informaci společně se zvolenou korelační maticí pro simulaci potřebného počtu nových případů. Nemusíte tedy čekat na nárůst rozsahu dat, ale můžete využít aproximaci teoretického rozdělení pozorovaných dat a tu využít pro simulaci a na základě této simulace formulovat závěry. Pro účely simulace lze použít metody korelace, které jsou stále více oblíbené v různých oborech a jsou velmi vhodné například pro analýzy typu „Co se stane, když…“ Například u společnosti používající výrobní zařízení, která jsou přesně kalibrována, lze znalost kalibračních parametrů a reálných nastavení stroje použít pro simulaci, která poslouží jako vstup pro analýzu spolehlivosti. Příklad níže ukazuje korelační matici pro sazební stroj a dobu realizace jednotlivých částí. Tato korelace byla odhadnuta na základě předchozích procesů a informuje o tomto konkrétním procesu, přestože výroba ještě nezačala, máme k dispozici odhady parametrů a charakteristik variability. Pomocí nového modulu „Návrh simulace“ jsou pomocí teoretických rozdělení simulovány hodnoty všech proměnných se zachováním jejich korelací. Uživatel má možnost zvolit konkrétní rozdělení pro každou proměnnou (včetně specifikace jeho parametrů). Výsledná data jsou znázorněna v korelačním grafu, směrnice přímky je -1, s rostoucím časem klesá počet chyb. Simulace procesu a jeho následná analýza mohou být použity pro optimalizaci nastavení stroje ještě před započetím vlastní práce.
-7-
Dalším příkladem je studie Quality by Design federálního úřadu pro potravinářské a farmaceutické produkty (FDA) v USA, který používá vícerozměrné simulace pro stanovení výsledků ve farmaceutických výrobních procesech.
Coxovy modely proporcionálních rizik (Všechny produkty kromě STATISTICA Base)
Kompletní a vysoce škálovatelný modul Coxova modelu byl přidán do verze 10. Nový modul zahrnuje: Aplikace analýzy přežití z údajů pacientů ze zdravotnických studií. Analýza odchodu zákazníků (modelování ztráty zákazníka). Modelování a selhání mechanických částí (spolehlivost). Coxovy modely proporcionálního rizika umožňují pružné zpracování cenzorovaných dat, vytvoření kategorických prediktorů a schémat obsahujících interakcích nebo hierarchické efekty. Modul využívá techniky pro výstavbu modelu jako jsou např. kroková regrese anebo metoda best subsets. K nasazení funkcí přežití pro nová data slouží modul STATISTICA Rapid Deployment.
-8-
Lepší škálovatelnost a vyšší rychlost u různých typů popisných statistik (Všechny produkty kromě STATISTICA Base)
Ve výpočtech různých popisných statistik byla provedena četná vylepšení, která zvyšují rychlost zpracování u velkých objemů dat. Příkladem je paralelní zpracování popisných statistik pro analýzu po skupinách, včetně výpočtů percentilů, které má za následek velmi rychlé zpracování i pro velké objemy dat.
DATA MINING Graf výtěžnosti (STATISTICA Data Miner)
Nyní je možné grafy výtěžnosti (Profit charts) vytvářet pomocí nástroje Rapid Deployment. Graf výtěžnosti vyjadřuje vztah nákladů a odhadovaného zisku pro daný model. Lze jej využít pro široké spektrum dataminingových aplikací jako jeden z nástrojů pro vyhodnocování modelů.
Křivka ROC (STATISTICA Data Miner)
Křivky ROC je nyní možné vytvářet pomocí nástroje Rapid Deployment. Jde o další z užitečných nástrojů pro vyhodnocení kvality modelů pomocí vizualizace míry správně a chybně určených pozitivních odezev. Křivky ROC mají uplatnění v mnoha různých oblastech jako je medicína, kontrola kvality a psychologie. Poznámka: Zajímavé je, že křivky ROC májí své kořeny v raných dobách radarové technologie, kdy byly využívány během druhé světové války. Operátoři radarů byli hodnoceni na základě jejich schopnosti odlišit "správné" signály (letadla) od těch "falešných" (ptáci). ROC křivky jsou dnes běžně používány v data miningu ze stejných důvodů.
Ještě lepší škálovatelnost a vyšší rychlost rozličných prediktivních modelovacích metod (STATISTICA Data Miner)
Dalšího významného zvýšení výkonu bylo dosaženo pro různé prediktivní metody modelování a při práci s velmi velkými soubory dat. Například, všechna modelování prostřednictvím zobecněných lineárních modelů (např. logistická regrese) nyní využívají vícejádrové procesory a -9-
dokáží zpracovat velké objemy dat. Podobné škálovatelnosti a významného nárůstu výkonu bylo dosaženo pro C&RT a CHAID algoritmy. Text Mining (STATISTICA Text Miner)
V reakci na současné trendy získávání informací z textu, kde enormně vzrůstají velkosti zkoumaných souborů dat, byl výpočetní algoritmus STATISTICA Text Mineru podstatně přepracován a optimalizován pro zvýšení škálovatelnosti a výkonu. Vnitřní řídící procesy databáze byly přepracovány a modul je nyní schopen velmi efektivně zpracovávat extrémně velké soubory dat s využitím paralelních výpočtů (multithreading). Java and nasazení C# (Nasazení STATISTICA Data Miner – In-Place Database)
STATISTICA 10 nabízí dvě nové možnosti nasazení: Java and C#. Druhá z možností také zahrnuje schopnost generovat kód v jazyku C# v takové podobě, že jej lze přímo začlenit do SQL serveru jako uživatelskou funkci, kterou lze následně využít ke skórování modelu přímo uvnitř databáze. Java kód může být využit podobným způsobem v rámci uživatelských funkcí serveru Oracle. Tato funkcionalita vyžaduje dodatečnou licenci. Hlavním přínosem této metody nasazení je nárůst výkonnosti; zpracování uvnitř databáze může být vykonáno řádově rychleji, ve srovnání s externím zpracováním.
- 10 -
STATISTICA Scorecard (Produkt STATISTICA Scorecard)
Průvodce výstavbou skórovacích karet je nyní plně začleněn do řešení platformy STATISTICA a zahrnuje řadu vylepšení. STATISTICA Scorecard je specializované řešení pro vývoj, ověření a monitorování skórovacích karet včetně kroků pro výběr proměnných, kategorizaci prediktorů a výstavbu skórkarty, volby cut-off bodů, reject inference a ověření stability populace. Program umožňuje vytvářet tradiční skórovací karty založené na regresi a nabízí možnost vzájemného porovnání kvality skórovacích karet jakož i skóringových modelech založených na data miningu (prediktivní modely). Scorecard také podporuje rozličné specializované analýzy a grafické průzkumné nástroje pro skóring nových případů a ověření přesnosti modelů. Více informací najdete na adrese http://www.statsoft.com/solutions/credit-scoring/.
STATISTICA ENTERPRISE Ribbon Bar Navigace v aplikaci STATISTICA 10 Enterprise Manager je promocí nového Ribbon baru snazší a efektivnější.
Konfigurace dat Konfigurace databázových připojení je nyní dostupná jako volba ve STATISTICA System View, umožňující uživateli procházet datové konfigurace v rámci uživatelského rozhraní STATISTICA, bez nutnosti použití modulu Enterprise Manager.
- 11 -
Migrace databáze Nástroj Migrace databáze je upraven pro databázové schéma STATISTICA 10 Enterprise a je nyní dostupný přímo v rámci STATISTICA Enterprise. Může být spouštěn administrátorem pro kopírování konfigurací z jedné databáze do jiné. Sdílení maker ve STATISTICA Enterprise STATISTICA 10 umožňuje snadněji publikovat makra ve STATISTICA Enterprise. Jedná se o jednodušší metodu, jak vytvořit SVB (STATISTICA Visual Basic) konfiguraci analýzy a lze použít nejen SVB, ale také R skripty. Pro zpřístupnění této volby se po vytvoření makra ve STATISTICE přepněte do záložky Enterprise a klikněte na Deploy Macro. Jména konfigurací Enterprise Enterprise Manager nyní nabízí vyšší flexibilitu při formulaci jmen konfigurací STATISTICA Enterprise. Jména musí být unikátní pouze v rámci stejné složky v System View. STATISTICA Enterprise Server: Automatická aktualizace grafů definovaných analýz Nyní jsou automaticky obnovovány i QC analýzy, které běží prostřednictvím webového prohlížeče; uživatel může nastavit interval obnovení přímo v prohlížeči nebo může použít ruční obnovení. Pro aktualizaci obrázků v grafech jsou použity nejnovější webové technologie bez nutnosti znovu načítat webovou stránku (to znamená bez “problikávání” stánky).
- 12 -
STATISTICA Enterprise Server: Průzkumník grafů pro kontrolu kvality Grafy pro kontrolu kvality lze nyní interaktivně upravovat i v prostředí webového prohlížeče. Přiřazení Příčin, akcí a komentářů (stejně tak i akce zahrnout/vyloučit) lze nyní také provádět ve webovém prohlížeči. Jsou použity nejnovější webové technologie pro aktualizaci obrázků v grafech bez nutnosti znovu načítat webovou stránku (to znamená bez “problikávání” stánky).
STATISTICA MSPC Online (Produkt STATISTICA MSPC Online)
V programu STATISTICA 10 umožňuje volba STATISTICA MSPC Online snadněji nasadit modely vícerozměrných analýz (PCA, PLS) do prostředí STATISTICA Enterprise, jejich aktualizaci v reálném čase, monitorování a interaktivní drill-down vedoucí k detailním výsledkům, jakými jsou komponentní skóre, grafy příspěvků jednotlivých proměnných a grafy jednotlivých proměnných.
- 13 -
STATISTICA Web Data Entry (Produkt STATISTICA Web Data Entry)
STATISTICA Web Data Entry umožňuje uživateli nadefinovat si obrazovku pro vkládání dat přes webový prohlížeč a uchování/práci s těmito daty v databázi STATISTICA Enterprise.
STATISTICA 10 Web Data Entry zahrnuje řadu vylepšení, jakými jsou: Snadná konfigurace “požadovaných polí”. Vylepšená navigace. Možnost rozdělení polí do sekcí pro snazší vkládání dat. Možnost vyhledávat historické vzorky s použitím libovolného textového popisku vzorku. Vylepšení možností získávání dat pro analýzy pomocí databázových dotazů.
STATISTICA Live Score (Produkt STATISTICA Live Score)
Společně s produktem STATISTICA 10 vyšla také nová a vylepšená verze STATISTICA Live Score. Jedná se o serverový software STATISTICA v rámci platformy STATISTICA pro analýzu dat a datamining. Data jsou agregována, čištěna a modely jsou trénovány a ověřovány s využitím softwaru STATISTICA Data Miner. Jakmile jsou modely ověřeny, jsou nasazeny na server STATISTICA Live Score. STATISTICA Live Score nabízí podporu paralelních výpočtů, výkonný a na platformě nezávislý nástroj pro skórování dat v obchodní oblasti. Několik příkladů využití STATISTICA Live Score: Poskytování kreditních skórovacích karet pro podporu aplikací zákaznických služeb (např. systémy call center a webových aplikací), Segmentace zákazníků, up-sell-cross-sell, identifikace klientů, kteří chtějí odejít, (churn analysis) pro zákaznické služby a obchodní zástupce, Zajištění proaktivní detekce podvodů pro analytiky.
- 14 -
STATISTICA Scorecard (Produkt STATISTICA Scorecard)
STATISTICA Scorecard je specializované řešení pro vývoj, hodnocená a monitorování skórovacích karet včetně kroků pro výběr proměnných, kategorizace prediktorů a výstavbu skórkarty, volby cut-off bodů, reject inference a ověření stability populace.
NÁPOVĚDA a DOKUMENTACE (Všechny produkty)
Příklady objektového modelu STATISTICA Do položky „Nápověda“ byly přidány stovky příkladů pro STATISTICA Visual Basic.
- 15 -