„Indexace pro souborová uložiště a Vyhledávací centrum“ Obsah I.
Úvod ................................................................................................................................................ 2
II.
Cíl dokumentu ................................................................................................................................. 2
III.
Fáze projektu ............................................................................................................................... 2
IV.
Popis jednotlivých fází projektu .................................................................................................. 2
1.
Fáze 1. - Analýza .......................................................................................................................... 2
2.
Fáze 2. - Implementace ............................................................................................................... 2 a.
Konfigurace.............................................................................................................................. 2
b.
Indexace .................................................................................................................................. 3
c.
Nastavení ................................................................................................................................. 3
d.
Vyhledávání ............................................................................................................................. 3
3. V.
Fáze 3. - Migrace ......................................................................................................................... 3 Fáze 1. Analýza – popis .................................................................................................................... 3
1.
Revize připravenosti platformy ................................................................................................... 3
2.
Výstup revize připravenosti platformy ........................................................................................ 3
3.
Analýza typů uložišť ..................................................................................................................... 4
4.
Analýza metadat .......................................................................................................................... 4
5.
Dokumentové centrum ............................................................................................................... 4
6.
Struktura organizace a oprávnění ............................................................................................... 5
7.
Vázané činnosti na realizaci Fáze 1. ............................................................................................ 5
VI.
Doplnění popisu pro Fáze 2. a 3. ................................................................................................. 5
1.
2.
Fáze 2. Implementace - postup ................................................................................................... 5 a.
Konfigurace – povinnosti klienta ............................................................................................. 5
b.
Indexace – očekávané komplikace .......................................................................................... 5
c.
Nastavení – konfigurace a programování ............................................................................... 6
d.
Vyhledávání – využití a analýza ............................................................................................... 6 Fáze 3. Migrace - postup ............................................................................................................. 6
VII.
Časová a cenová kalkulace Fáze 1. Analýza ................................................................................. 7
VIII.
Závěr ............................................................................................................................................ 7
VYPRACOVALA SPOLEČNOST EMRIS, SPOL. S R.O. BURIANOVA 956/6, PRAHA 4 – LIBUŠ, 142 00 E-MAIL:
[email protected]; WEB: WWW.EMRIS,CZ TEL.(GSM): +420 724 176 911
1
I.
Úvod
Na základě představených oblastí, které pokrývá a nabízí možnost řešení na platformě SharePoint je předmětem této studie je oblast vyhledávání, respektive vyhledávání dat v jednotlivých úložištích prostředky platformy SharePoint v rámci domén organizace.
II.
Cíl dokumentu
Dokument si klade za cíl představit koncepci projektu pro zavedení vyhledávacího centra pomocí služeb „Search Services Application - SSA“ nebo „FAST Search Server FSS“. Realizaci projektu doporučujeme rozdělit do třech hlavních fází. Tento dokument popisuje jednotlivé fáze a jejich dílčí úseky fází. Detailněji se zaměřuje na Fázi 1. tedy „Analýzu“, která detailně určí další postup a možnosti projektu a je předmětem připojené nabídky.
III.
Fáze projektu
Plánovaný postup projektu rozdělujeme na tři fáze. Fáze 1. Analýza Fáze 2. Implementace (Konfigurace, Indexace, Nastavení, Vyhledávání) Fáze 3. Migrace (převod dat dle požadavků do prostředí SPS)
Analýza
Konfigurace
Fáze 1
IV.
Indexace
Fáze 2.
Nastavení
Vyhledávání
Migrace
Fáze 3.
Popis jednotlivých fází projektu 1. Fáze 1. - Analýza -
Analýza připravenosti platformy. Analýza jednotlivých uložišť, objemu dat v úložištích a dostupných metadat. Určení nutné struktury Dokumentového centra, potřebných metadat a jejich závislosti. Analýza firemní struktury pro určení budoucího členění a oprávnění uživatelů.
2. Fáze 2. - Implementace a. Konfigurace - Příprava konfigurace Dokumentového centra a metadat - Příprava aplikace pro vyhledávací „SSA“ vyhledávacího serveru „FSS“ pro indexaci obsahu. Typ aplikace respektive serveru použitého pro vyhledávání ovlivňuje prostředky a možné
VYPRACOVALA SPOLEČNOST EMRIS, SPOL. S R.O. BURIANOVA 956/6, PRAHA 4 – LIBUŠ, 142 00 E-MAIL:
[email protected]; WEB: WWW.EMRIS,CZ TEL.(GSM): +420 724 176 911
2
výsledky pro zobrazování. Rozdíl prostředků pro vyhledávání a jejich popis není předmětem tohoto dokumentu, tak jako jejich nasazení v rámci SharePoint Serveru 2010 SPS nebo SharePoint Foundation 2010 - SPF.
b. Indexace - Provedení indexace všech úložišť pomocí „SSA“ nebo „FSS“ - Pořízení ručního výpisu úložišť, které nejsou podporovaná a zápis těchto údajů do SharePointu
c. Nastavení - Provedení úprav v třídění a v metadatech na konkrétních indexovaných dokumentech Na základě - Nastavení způsobu vyhledávání dokumentů a výsledků vyhledávání - Programová příprava způsobů pro individuální migraci dokumentů do Dokumentového centra
d. Vyhledávání - Uživatelé mohou vyhledávat dokumenty na základě full textu i metadat - Uživatelé mohou dokumenty přesunout do Dokumentového centra pro větší možnosti
3. Fáze 3. - Migrace -
V.
Postupný přesun všech dokumentů do „Dokumentového centra - DCC“ pro maximalizaci možností využití nástrojů platformy SharePoint.
Fáze 1. Analýza – popis
Výstupem Fáze 1. (Analýzy) bude vypracování tzv. „Implementační dokumentace pro Fázi 2.“, uvedené ve skladbě plánovaného scénáře projektu, spolu s časovou osou a naceněním této fáze. Pro úspěšnou realizaci záměru projektu je nutné provést a ověřit následující oblasti:
1. Revize připravenosti platformy - ověření stavu systému Sharepoint - ověření dostupnosti zdrojů pro indexaci pod definovaným doménovým účtem - otestování schopnosti indexace jednotlivých typů dokumentů (např. pdf - ověření správné funkce indexování dokumentů typu pdf) - definice výjimek (Rules) - otestování schopností HW provozovat definovaný systém - návrh časování s ohledem na velikost datových zdroj
2. Výstup revize připravenosti platformy Na základě provedených zjištění bude pro výslednou implementační dokumentaci sestaven plán činností potřebných pro nastavení platformy např.:
VYPRACOVALA SPOLEČNOST EMRIS, SPOL. S R.O. BURIANOVA 956/6, PRAHA 4 – LIBUŠ, 142 00 E-MAIL:
[email protected]; WEB: WWW.EMRIS,CZ TEL.(GSM): +420 724 176 911
3
-
instalace opravných balíčků instalace potřebných filtrů nastavení přístupů a práv ve FileShares případné otestování funkčnosti výjimek (pokud budou definovány) řešení případných problémů s časováním a výkonem
3. Analýza typů uložišť Pro konkrétní analýzu bude potřeba především zjistit podrobnosti o všech umístěních, která se budou v rámci projektu indexovat. Dle našich zjištění je možné naindexovat: - stránky SharePoint, čili migrované dokumenty v budoucnu - databáze a služby s rozhraním SQL - souborový systém Microsoft Windows Jiná uložiště bude nutné individuálně prozkoumat a pravděpodobně provést výpis souborů, který bude manuálně zpracován.
4. Analýza metadat Na základě typů uložišť zjistíme metadata, která bude možné k dokumentům získat. Určíme metadata, která budou zpracovávána, aby se uchovala jednoduchost a zajistila přesnost hledání. Předpokládáme metadata: - určující umístění: Doména, Úložiště, Adresa v úložišti - určující původ: Autor, Datum vytvoření, Editor, Datum změny Debatou v rámci daného projektu dohodneme dodatečná metadata, která budou uživatelé manuálně přiřazovat po migraci. Například metadata: - určující obsah: Typ dokumentu, Jazyk, ... - určující důležitost: Aktuálnost, Důležitost, Určení, ... - popisná: Popis, Klíčová slova, Kategorie, ...
5. Dokumentové centrum Na základě úložišť a metadat navrhneme strukturu spravovaných metadat, která budou společná pro všechny dokumenty i celý systém SharePoint. Dále určíme strukturu „Dokumentového centra – DCC“, aby byl dostatečně připraven pro daný počet dokumentů pro případnou migraci. Předpokládáme rozdělení do kolekcí webů podle jednotlivých domén, případně rozdělení do knihoven podle jednotlivých úložišť. Další členění nepředpokládáme. Pro data, která nelze přímo indexovat připravíme „katalogové seznamy“, ve kterých budou dokumenty vypsány s příslušnými metadaty.
VYPRACOVALA SPOLEČNOST EMRIS, SPOL. S R.O. BURIANOVA 956/6, PRAHA 4 – LIBUŠ, 142 00 E-MAIL:
[email protected]; WEB: WWW.EMRIS,CZ TEL.(GSM): +420 724 176 911
4
Pro zpracování předpokládáme nutnost určení námi generovaného „katalogového čísla“, pod kterým se bude s dokumenty pracovat. Po migraci se bude dále pracovat s DMS ID (Document Management System Identification*), standardně generovaným v SharePoint. *Platí pouze pro SPS nikoliv SPF
6. Struktura organizace a oprávnění Pro členění dokumentového centra a následnou práci s ním proběhne diskuse o struktuře uživatelů, resp. členění na oddělení či pracovní skupiny. Zde také předpokládáme využití celofiremních spravovaných metadat*. *Platí pouze pro SPS nikoliv SPF Podle získaných informací navrhneme strukturu skupin nebo synergii s existujícími doménovými skupinami, se kterými se bude následně pracovat (jako s rolemi) v rámci nastavení metadat, jak pro hledání, tak pro řízení přístupů oprávnění. V tomto směru nepředpokládáme práci s jednotlivci (kromě informace o autorovi a editorovi).
7. Vázané činnosti na realizaci Fáze 1. -
VI.
Úvodní schůzka, která bude určena pro představení osob projektového týmu a stanovení jejich kompetencí. Práce budou probíhat v součinnosti s pracovníky klienta. Určení režimu kontrolních schůzek a určení formy a způsobu komunikace. Představení záměru pro vytvoření pracovního prostoru projektu. Předpokládáme, že práce budou probíhat místně klienta i vzdáleně.
Doplnění popisu pro Fáze 2. a 3. 1. Fáze 2. Implementace - postup a. Konfigurace – povinnosti klienta
Proběhne dle připravené Analýzy. KLient bude muset zajistit potřebné zdroje pro zajištění dostatečné výkonnostní i datové kapacity. Také bude muset zajistit nutné propojení veškerých úložišť a nastavení oprávnění pro přístup systémového účtu daného Searche.
b. Indexace – očekávané komplikace I přes veškeré přípravy lze očekávat komplikace během indexace, způsobené například dlouhou odezvou úložišť nebo velkým objemem dat. Tyto problémy se budou muset řešit podle konkrétní situace úpravou konfigurace ze strany Searche, síťové konfigurace klienta nebo servisním modulem. Problém může způsobit také neznámý typ obsahu, tj. data z aplikací standardně nepodporovaných aplikacemi Microsoft. Dále pak větší dokumenty, v řádu desítek MB, které ani FSS standardně neumí indexovat. Tyto a výše popisované problémy je možné překonat například vytvořením servisního
VYPRACOVALA SPOLEČNOST EMRIS, SPOL. S R.O. BURIANOVA 956/6, PRAHA 4 – LIBUŠ, 142 00 E-MAIL:
[email protected]; WEB: WWW.EMRIS,CZ TEL.(GSM): +420 724 176 911
5
modulu, který nabídne mezivrstvu pro indexaci, nebo naplní katalog (např. seznam přímo na SPS nebo SPF), který pokrývá indexace. Návrh řešení bude finálně řešen podle konkrétních situací.
c. Nastavení – konfigurace a programování Diskuzí s klientem určíme vhodný způsob vyhledávání podle textu i podle filtrování metadata a způsob zobrazení výsledků hledání s odkazem na dokument (pokud bude dostupný) a s připojenými metadaty. V této fázi bude nutná spolupráce zástupců uživatelů, aby jim aplikace maximálně vyhovovala. Budeme podle požadavků uživatelů a klienta upravovat výsledky vyhledávání jak v obecné rovině, tak vytvářením výsledků vyhledávání specifických podle oddělení. Zároveň zde bude maximální zátěž na programování, kdy budeme připravovat možnosti migrování jednotlivých dokumentů do Dokumentového centra a následnou práci s nimi. Budeme se ale snažit programování omezit na minimální úroveň a řešit vše nejprve konfigurací Dokumentového centra.
d. Vyhledávání – využití a analýza Uživatelé budou moci v této chvíli již využívat vyhledávání dokumentů. Manuálně si budou moci plánovat přesun dokumentu do Dokumentového centra (center), aby mohli využívat plnohodnotnou dokumentovou správu, kam například patří: - Plná škála metadat (nejen systémová a firemní, ale i pod vlastní správou), včetně dalšího tagování (popisu označení) a následné využití ve vyhledávání. - Používání verzování dokumentu. - Snadné sdílení dokumentů se svými kolegy formou odkazu. - Přidávání dokumentů jinak vyřazených z indexace (např. ze soukromých úložišť). - Pracovní prostory pro připojení a evidenci dalších informací (úkoly, poznámky). - Práce a spolupráce v off-line a on-line režimu Během stanovené periody pro vyhledávání bude systém nabízet pro klienta nástroje a sestavy pro získání analytických dat pro zjištění: - Určení aktuálnosti a využití jednotlivých dokumentů. - Informace pro optimalizaci úložišť. - Kvality a ergonomie přístupu na jednotlivá úložiště. - Názorů a spokojenosti uživatelů.
2. Fáze 3. Migrace - postup Na základě analýzy aktuálnosti a používanosti dokumentů z předchozí fáze se rozdělí dokumenty na vhodné pro přesun do „Dokumentového centra - DCC“ a soubory určené pro společné úložiště typu „Large object heap – LOH“. Do uložiště „LOH“, doporučíme nejspíše sobory velké, needitovatelné v nástrojích Microsoft SharePoint a nebo dokumenty neměnné (tedy bez nutnosti verzování) apod. Dále se na základě aktuálnosti a používanosti dokumentů, ale i kvality a ergonomie přístupu k úložištím, určí postup pro migraci jednotlivých úložišť. Pravděpodobně doporučovaný bude následující postup: 1. Dokumenty uživateli určené k migraci 2. Dokumenty nejvíce používané 3. Dokumenty úložišť bez možnosti přímého odkazu 4. Dokumenty z pomalých úložišť
VYPRACOVALA SPOLEČNOST EMRIS, SPOL. S R.O. BURIANOVA 956/6, PRAHA 4 – LIBUŠ, 142 00 E-MAIL:
[email protected]; WEB: WWW.EMRIS,CZ TEL.(GSM): +420 724 176 911
6
5. Běžně používané dokumenty 6. Dokumenty pro společné uložiště v souborovém systému Forma, sady nástrojů, metodika a rozhraní pro provedení migrace na úrovni systému nebo uživatele bude předmětem analýzy v rámci této fáze.
VII.
Časová a cenová kalkulace Fáze 1. Analýza
Doba odhadovaná pro provedení analýzy a vypracování implementační dokumentace odhadujme s přihlédnutím na potřebnou součinnost se zadavatelem do dvou měsíců. Vlastní analýzu předpokládáme v rozsahu 10 – 15 MD.
VIII.
Závěr
Tento dokument představuje příklad návrhu na provedení Fáze 1. - Analýzy pro zavedení vyhledávání v organizaci pomocí prostředků SharePointu. Výstupem Fáze 1. - Analýzy bude vypracování tzv. „Implementační dokumentace“ pro Fázi 2., spolu s naceněním prací pro tuto fázi. Vlastní realizace proběhne v těsné součinnosti s pracovníky klienta. Předpokládaná doba realizace je do dvou kalendářních měsíců.
VYPRACOVALA SPOLEČNOST EMRIS, SPOL. S R.O. BURIANOVA 956/6, PRAHA 4 – LIBUŠ, 142 00 E-MAIL:
[email protected]; WEB: WWW.EMRIS,CZ TEL.(GSM): +420 724 176 911
7