SciFinder a Reaxys – porovnání dvou nejdůležitějších chemických bází dat Jaroslav Šilhánek
Projekt ChemEIZ, OP VaVpI CZ.1.05/3.2.00/12.0231
Současná reálná situace • Z celooborového hlediska jsou nepochybně nejdůležitějším zdrojem chemických informací báze dat Chemical Abstracts – dnes nejefektivněji dostupné prostřednictvím programu SciFinder. • Z hlediska klasické chemie organické a anorganické jsou nezastupitelné báze dat Beilstein a Gmelin – dnes dostupné jako klíčová součást databázového systému Reaxys. Projekt ChemEIZ, OP VaVpI CZ.1.05/3.2.00/12.0231
V čem se liší? • Tištěné verze v tištěné podobě diskuse o rozdílech prakticky nepřicházela v úvahu, charakter obou zdrojů a práce s nimi byly evidentní.
• Elektronické verze elektronické verze rozdíly stírají a umožňují doplňovat informace, které v tištěných verzích nepřicházely v úvahu. Projekt ChemEIZ, OP VaVpI CZ.1.05/3.2.00/12.0231
Projekt ChemEIZ, OP VaVpI CZ.1.05/3.2.00/12.0231
Výchozí rozdíly obou zdrojů Chemical Abstracts
Beilstein, Gmelin
• Chemical Abstracts je od svého založení v r. 1907 typickým bibliografickým zdrojem se snahou zachytit co nejširší, v ideálním případě kompletní produkci chemických a příbuzných časopiseckých a patentových zdrojů. Od samého počátku ale registruje všechny chemické sloučeniny, které se v původní literatuře vyskytují.
• Díla Beilstein a Gmelin byla koncipována jako pokud možno úplný soupis známých organických a anorganických sloučenin od počátku vědecké chemie a průběžně doplňovaný vždy k určitému datu. Ve svých tištěných podobách nikdy nebyly chápány jako průběžně vydávané referátové zdroje.
Projekt ChemEIZ, OP VaVpI CZ.1.05/3.2.00/12.0231
Tyto principiální výchozí koncepce se promítají i do elektronických verzí jako chemických bází dat, ale jsou postupně modifikovány jak díky technologickým možnostem, tak konkurenčním tlakem, čímž dochází k duplicitě informací.
Vyvstává proto otázka, do jaké míry jsou oba zdroje duplicitní a zda je účelné využívat a hlavně investovat do obou hlavních chemických bází dat. Projekt ChemEIZ, OP VaVpI CZ.1.05/3.2.00/12.0231
Oblasti porovnávání: • Práce s textovými informacemi, bibliografických odkazů, využívání předmětových hesel, klíčových slov apod. „Explore References“, „Literature“. • Vyhledávání chemických sloučenin na základě grafické reprezentace, ale i nomenklatury – „Explore Substances“, „Substances“. • Vyhledávání přeměn chemických sloučenin – reakcí = „Reactions“, „Explore reactions“ Projekt ChemEIZ, OP VaVpI CZ.1.05/3.2.00/12.0231
Dotaz: Stereoselective hydrogenation with ruthenium catalysts nebo: stereoselective AND hydrogenation AND ruthenium AND catalysts* • CA = SciFinder • nejvyšší relevance = 29 odkazů • průměrná relevance = 1009 odkazů
• Beilstein, Gmelin = Reaxys • pouze jedna úroveň relevance = 34 odkazů.
Dotaz: Analysis of phenols in waste water nebo: analysis AND phenol* AND waste AND water* CA = SciFinder: střední relevance = 1512 odkazů
Reaxys jedna relevance = 934 odkazů
Projekt ChemEIZ, OP VaVpI CZ.1.05/3.2.00/12.0231
Pozor: Reaxys je propojen s řadou dalších chemických i nechemických zdrojů, které produkuje nakladatelství Elsevier, které ale většinou nebyly a i v současnosti nejsou zpracovávány do bází Beilstein nebo Gmelin. Takže ve výsledcích dotazu zadaného prostřednictvím předmětových hesel je velká většina odkazů na dokumenty, ze kterých nejsou do báze převzaty žádné sloučeniny ani reakce. Typickým příkladem je báze dat Scopus, dále např. Ullmann, HoubenWeyl a řada monografií a knižních řad typu „Advances in ...“, Progress of ...“ apod.
Projekt ChemEIZ, OP VaVpI CZ.1.05/3.2.00/12.0231
Proč jsou tak velké rozdíly? Záznam z díla Beilstein:
Do elektronické báze dat Beilstein (Reaxys) nemohly přejít žádné jiné textové informace, než jaké jsou uvedeny v záznamech u individuálních sloučenin.
Pro novější záznamy je k disposici abstrakt, který je naprosto stejný v obou bázích. A synthesis of (S)-N-acetylcolchinol I (R = H), a key intermediate in the synthesis of the pharmaceutically useful phosphate prodrug ZD 6126 I (R = PO3H2), via catalytic asym. hydrogenation of enamide II was developed. After screening a range of metal and ligand combinations it was found that (S,S)-iPr-FerroTANE Ru(methallyl)2 and [(S,S)-tBuFerroTANE Rh(COD)]BF4 gave both high enantioselectivity (>90% ee) and high catalyst utility (molar S/C = 1000). Projekt ChemEIZ, OP VaVpI CZ.1.05/3.2.00/12.0231
Záznam v bázích CA (SciFinder) Kromě abstraktu obsahuje obsáhlý popis předmětovými hesly:
Projekt ChemEIZ, OP VaVpI CZ.1.05/3.2.00/12.0231
Věcný (heslový) popis obsahu dokumentu CA - SciFinder
Reaxys (Beilstein, Gmelin)
• Každý záznam je vytvářen • Obdobným způsobem jsou vytvářeny záznamy pro báze na základě vytištěné kopie Beilstein a Gmelin jen pro článku nebo patentu vybraný okruh časopisů (cca zkušeným odborníkem se 400) a patentů (ale jen EP, WO a US od r. 1976 a třídy C07, A01N širokým spektrem znalostí a C09B). Výsledky dotazů a jak předmětová hesla, tak zahrnují i odkazy z dalších bází i jednotlivá klíčová slova a dat, které produkuje upřesnění role chemických nakladatelství Elsevier, např. sloučenin jsou tak Scopus. Ty ale nejsou „ručně“ indexovány odborníky. maximálně autentické.
Projekt ChemEIZ, OP VaVpI CZ.1.05/3.2.00/12.0231
Závěry testování předmětového vyhledávání informací • Program SciFinder pracuje s materiálem, který byl a stále je vytvářen jako bibliografická báze dat a záznamy jsou vytvářeny „ručně“ specialisty. Proto jsou výsledky dotazů formulovaných pomocí hesel výrazně relevantnější. • Systém Reaxys vychází z děl charakteru soupisu chemických sloučenin, a i když jsou tyto báze rozšiřovány a propojovány s dalšími bibliografickými bázemi dat zatím nemohou konkurovat v případě vyhledávání předmětovým popisem problému ke srovnatelným výsledkum jako SciFinder. Projekt ChemEIZ, OP VaVpI CZ.1.05/3.2.00/12.0231
Substances (Compounds) Search • Obě báze umožňují prakticky identické nástroje, sumární vzorce, názvy(-sloví), grafické zadání. • Obě báze pracují se stejnou koncepcí, z publikace jsou excerpovány všechny studované (použité) sloučeniny. • CA vždy zpracovávaly co nejširší okruh periodik a patentů, Beilstein a Gmelin jen výběrově. • Toto může být jediným důvodem pro rozdílné výsledky. Projekt ChemEIZ, OP VaVpI CZ.1.05/3.2.00/12.0231
Substances SciFinder
Reaxys
• 1H-benzimidazol = 9311 sloučenin, s vyloučením solí = 30 • hexakyanidoželezitan draselný jako jednoduchá sůl = 34 sloučenin • Mirtazepine, uzavřená struktura = 16 sloučenin • aminoferrocene = 4 sloučeniny. • Ag(NH3) = 603
• 1H-benzimidazol, s vyloučením solí = 18 • hexakyanidoželezitan draselný jako jednoduchá sůl = 17 sloučenin • Mirtazepine, uzavřená struktura = 12 sloučenin • aminoferrocene = 1 sloučenina • Ag(NH3) = 97
Projekt ChemEIZ, OP VaVpI CZ.1.05/3.2.00/12.0231
Tautomery: CH3
CH3 NH
N
N
NH
SciFinder = pouze jeden tautomer Reaxys = oba tautomery s rozdílnými vlastnostmi
Projekt ChemEIZ, OP VaVpI CZ.1.05/3.2.00/12.0231
Reakce (Explore Reaction, Reaction) Beilstein i Gmelin = pro každou sloučeninu jsou zaznamenány reakce její přípravy i přeměny formou věty !!!
Projekt ChemEIZ, OP VaVpI CZ.1.05/3.2.00/12.0231
Důležitý rozdíl: • Systém Reaxys (báze dat Beilstein a Gmelin) pokračuje ve zpracovávání se stejnou koncepcí a pokrývá tak období od 1771 do současnosti. • SciFinder zahrnuje báze CASREACT, jejíž budování bylo zahájeno koncem osmdesátých let a zatím je jen omezeně doplňována zpětně. • CASREACT je omezena jen na některé sekce organické a farmaceutické chemie, přírodní látky apod. • Reaxys zahrnuje organickou i anorganickou chemii, kterou CASREACT nemá. Projekt ChemEIZ, OP VaVpI CZ.1.05/3.2.00/12.0231
Ilustrace problematiky vícestupňových reakcí Publikace: Jiří Verner, Milan Potáček Criss-cross Cycloadditions on Ketazines Derived from Alicyclic Ketones.
Projekt ChemEIZ, OP VaVpI CZ.1.05/3.2.00/12.0231
Zpracování - SciFinder
Projekt ChemEIZ, OP VaVpI CZ.1.05/3.2.00/12.0231
Zpracování - Reaxys
Projekt ChemEIZ, OP VaVpI CZ.1.05/3.2.00/12.0231
Zpracování - Reaxys
Projekt ChemEIZ, OP VaVpI CZ.1.05/3.2.00/12.0231
Principy záznamů vícestupňových reakcí Popis experimentů v původní publikaci: Sloučenina 1 na sloučeninu 2, tedy 1 ----> 2 a dále 2 ----> 3, nebo 2 ----> 4 a za alternativních podmínek 4 ----> 5, celkem 4 reakce. SciFinder/CASREACT k těmto popsaným reakcím doplní dvě 2-stupňové reakce: 1 ----> 2 -----> 3, 1 -----> 2 ----> 4 a 2 ----> 4 ----> 5 a konečně jednu třístupňovou reakci: 1 ----> 2 ----> 4 ----> 5 celkem je tedy pro danou publikaci zaznamenáno v bázi SciFinder/CASREACT 8 reakcí !!! Báze Reaxys zaznamenává reakce podobným způsobem, zatím se zdá, že méně systematicky
Projekt ChemEIZ, OP VaVpI CZ.1.05/3.2.00/12.0231
Výše uvedená práce Verner,Potáček: Molecules
Počet reakcí popsaných v experimentální publikace Počet reakcí zaznamenaných v SciFinder/CASREACT Počet reakcí zaznamenaných v bázi Reaxys
Projekt ChemEIZ, OP VaVpI CZ.1.05/3.2.00/12.0231
12 21 16
Anorganické reakce: Výsledky hledání způsobů přípravy kyseliny tetrathionové v bázích SciFinder a Reaxys
CAS RN
SciFinder
Reaxys
Volná kyselina
13760-29-7
Žádná reakce
64 prep ze 71 reakcí
Její dianion
15536-54-6
1 prep z 8 reakcí
224 prep z 334 reakcí
Draselná sůl
13932-13-3 Žádná prep z 20 reakcí
Projekt ChemEIZ, OP VaVpI CZ.1.05/3.2.00/12.0231
21 prep ze 75 reakcí
Závěry: • Přes formální podobnost se jak při práci, tak i ve výsledcích projevují zásadní rozdíly výchozích tištěných zdrojů, na nichž jsou obě báze budovány. • SciFinder profituje z relativně bohatého věcného popisu dokumentů, který je navíc vytvářen z originálních článků. • Do jisté míry se projevují i důsledky rozdílné šíře záběru zpracovávaných dokumentů, v Reaxysu převažuje klasická organická a anorganické chemie. • Bezkonkurenční předností Reaxysu je bohatství faktografických údajů pro všechny sloučeniny v bázi. • Záznamy reakcí jsou srovnatelné vyjma neexistence anorganických reakcí v SciFinderu. • Chemické reakce jsou sice v bázi SciFinder zpracovány za kratší období, ale zatím evidentně systematičtěji. • Naproti tomu anorganické reakce zde chybějí, zatímco v Reaxysu jsou zaznamenány ve značném rozsahu. Projekt ChemEIZ, OP VaVpI CZ.1.05/3.2.00/12.0231
Celkový závěr: Je evidentní, že obě chemické báze dat se sice do určité míry překrývají, ale v daleko významnější míře se navzájem doplňují. Ještě podstatnější je skutečnost, že principiálně rozdílné koncepce vedou k rozdílné strategii rešeršních studií, což je opět mimořádně důležitý aspekt pro získání skutečně vyčerpávajících výsledků rešerší. Orientace na obě tyto nejdůležitější chemické báze dat je tak plně odůvodněná.
Projekt ChemEIZ, OP VaVpI CZ.1.05/3.2.00/12.0231