Informace v analytické chemii PřF UK, ZS 2016/2017
I. Úvod
Informace a jejich výměna v chemii ■
informace = veškeré údaje, kterými lze popsat věci, jevy či události, které se staly, dějí nebo nastanou
■
bit = nejmenší rozdíl, který znamená rozdíl (0 nebo 1)
■
je známo, že … = bylo publikováno nějakým autorem, někdy a někde, že...
■
nutná podmínka rozvoje exaktních věd – výměna informací
Chemické informační zdroje
Experiment a pracovní záznamy
Rešerše
zpětná vazba Publikace
Historie využití informací v chemii ■
kupelace: bible (Jer. 6, 29) ČSN EN ISO 11426 (2000)
Plavení, tavba a vážení kovů v Egyptě (asi 2500 př Kr.)
© Karel Nesměrák, 2016
1
Informace v analytické chemii PřF UK, ZS 2016/2017
I. Úvod
Historie využití informací v chemii ■
středověk – spis De diversis artibus (12. století)
■
knižní forma předávání nových informací převládá až do poloviny 19. století
■
17. století – první vědecké časopisy: Observationum chymico-physico-medicarum curiosarum mensibus singulis bono cum Deo continuandarum (Frankfurt a Lipsko, 1697)
■
1753 – první chemický časopis: Chemische Experimente einer Gesellschaft in dem Erzgebürge (Berlin)
Historie využití informací v chemii ■
1862 – první analytický časopis: Zeitschrift für analytische Chemie (vychází dodnes pod názvem Analytical and Bioanalytical Chemistry)
■
1828 – první česká chemická kniha: Lučba čili chemie zkusná
■
1869 – první český chemický časopis: Časopis chemiků českých
© Karel Nesměrák, 2016
2
Informace v analytické chemii PřF UK, ZS 2016/2017
I. Úvod
Historie využití informací v chemii ■
20. století ▪ 60. léta – počátky elektronických informačních zdrojů ▪ 90. léta – konstituce chemické informatiky (angl. chemoinformatics) chemická informatika – disciplína, která v sobě zahrnuje návrh, vytvoření, organizaci, ukládání, vyhledávání, analýzu, šíření, zviditelňování a využívání chemických informací, nejenom jako takových, ale také jako nástroj nebo index, který je zastupuje pro získávání jiných dat, informací a znalostí
chemický informační zdroj (dříve chemická literatura) – jakýkoliv dokument nebo jiný informační materiál, nějakým způsobem zveřejněný a dostupný, zachycující informace o chemii a umožňující tak jejich výměnu
Druhy chemických informačních zdrojů ■
primární zdroje
Archivace
časopisy, patenty, normy, diplomové a disertační práce, výzkumné zprávy, materiály odborných konferencí ■
sekundární zdroje
Sumarizace
monografie a kompendia, tabulky, atlasy, sbírky, literatura pro technickou praxi, učebnice, firemní literatura ■
referátové zdroje
© Karel Nesměrák, 2016
Vyhledávání
3
Informace v analytické chemii PřF UK, ZS 2016/2017
I. Úvod
Druhy chemických informačních zdrojů ■
vznik a studium chemických informačních zdrojů
znalosti
zobecnění
informace
kontext
měření, výpočty
data
Druhy chemických informačních zdrojů ■
„informační explose“ v chemii během 20./21. století ▪ Chemical Abstracts zahrnují více než 43 milionů abstraktů
1000
Počet prací abstrahovaných v CA za jeden rok
800 600
abstrakty [miliony]
práce [tisíce]
▪ Chemical Abstracts evidují více než 120 milionů látek (+ 66 mil. sekvencí)
25 20 15
400
10
200
5
0 1900
1920
1940
1960
1980
rok
© Karel Nesměrák, 2016
2000
Kumulativní počet abstraktů v CA
1900
1920
1940
1960
1980
rok
2000
4
Informace v analytické chemii PřF UK, ZS 2016/2017
I. Úvod
Formy informačních zdrojů ■
tištěné informační zdroje
■
fotografické formy informačních zdrojů ▪ mikrofilmy ▪ mikrofiše
Formy informačních zdrojů ■
elektronické informační zdroje ▪ elektronické soubory (*.txt, *.doc, *.xls, *.dfb, *.html) ▪ PDF (Portable Document Format) dokumenty ▪ rekonverze, scanování (OCR, Optical Character Recognition) ▪ CD-ROM, DVD, Internet ▪ problémy se stabilitou a kompatibilitou (Digital Dark Age)
© Karel Nesměrák, 2016
5
Informace v analytické chemii PřF UK, ZS 2016/2017
I. Úvod
Kódování informací ■
typy informačních údajů v chemii ▪ numerické ▪ alfanumerické ▪ topologické (chemické struktury) ▪ grafické (spektrální údaje) – převod ADC (analog-to-digital)
Kódování informací Klíčová slova ■
numerické a alfanumerické údaje ▪ názvy operací, technik, přístrojů ▪ jména autorů, institucí ▪ názvy sloučenin, slitin
■
klíčová slova ▪ nekontrolovaný slovník – tvořená ad hoc ▪ kontrolovaný slovník – rejstříky, thesaurus
■
problémy ▪ varianty pravopisu: sulphur × sulfur, Růžička × Ruzicka × Ruziczka ▪ synonyma
■
seznamy klíčových slov (rejstříky) – permutace, př. Butanamide, 2-(Acetylamino)-3-methyl, (S)-
© Karel Nesměrák, 2016
6
Informace v analytické chemii PřF UK, ZS 2016/2017
I. Úvod
Kódování informací Popis chemických struktur (topologické údaje) ■
chemické názvosloví ▪ triviální názvy ▪ názvosloví IUPAC ▪ cizojazyčné verse
propionic acid; adofeed; antischim b; carboxyethane; ethanecarboxylic acid; ethylformic acid; luprosil; metacetonic acid; methylacetic acid; monoprop; propcorn; propkorn; prozoin; pseudoacetic acid; toxi-check Šilhánek, J.: Chem. listy 91:4 (1997), 237–250.
Kódování informací ■
sumární vzorce ▪ Hillův systém 1. u sloučenin uhlíku se sumární vzorec píše v pořadí uhlík, vodík a ostatní prvky v abecedním pořadí 2. u neuhlíkatých sloučenin se sumární vzorec píše ve striktně abecedním pořadí prvků 3. posledním kritériem je počet jednotlivých prvků ▪ Richterův způsob zápisu sumárního vzorce: C, H, O, N, Cl, Br, I, F, S, P OH
Br
C2H5BrO × C2H5OBr
© Karel Nesměrák, 2016
7
Informace v analytické chemii PřF UK, ZS 2016/2017
I. Úvod
Kódování informací ■
CAS Registry Number ▪ unikátní číslo přiřazené každému chemickému individuu (směsi, sekvenci) od Chemical Abstracts Service ▪ široce užíváno v databázích Systematický název sloučeniny
CAS Registry Number
Copper(II) sulfate
[7758-98-7]
Copper(II) sulfate, pentahydrate
[7758-99-8]
1-Butanol
[71-36-3]
2-Butanol
[78-92-2]
(+/–)-2-Butanol
[15892-23-6]
R-(–)-2-Butanol
[14898-79-4]
S-(+)-2-Butanol
[4221-99-2]
Kódování informací ■
kódování chemických struktur ▪ převod grafické informace do alfanumerického formátu ▪ cílem zachování jedinečnosti informace za předpokladu možnosti vyhledávání ▪ fragmentační kódování (Wiswesserova lineární notace) zejména SMILES = Simplified Molecular Input Line Entry Specification, InChI = IUPAC International Chemical Identifier
4-Isopropyl-3-propyl-hept-1-ene C=CC(C(CCC)C(C)C)CCC
Weininger, D.: J. Chem. Inf. Comput. Sci. 28 (1988), 31–36.
© Karel Nesměrák, 2016
8
Informace v analytické chemii PřF UK, ZS 2016/2017
I. Úvod
Kódování informací ▪ maticové kódování (connection table), např. formát MDL Molfile
▪ řada dalších formátů, např. ChemDraw (*.cdx), Sketch Files (*.skc), HyperChem *.hin
Kódování informací Kombinace kódovaných informací v elektronických bázích dat ■
zkracování částí vyhledávaných termínů (angl. wild card) * = žádné nebo naopak neomezený počet písmen sulf* = sulfur, sulfate, sulfuric, sulfurous, sulfide ? = tolik písmen, kolikrát je ho použito mixe? = mixer, mixed
■
druhy zkracování (angl. truncation) ▪ pravostranné: pow* ▪ uvnitř slova: pow*er = power, powder
■
logické operátory: AND, OR, NOT
■
hierarchické kombinace logických operátorů: (analysis and copper) not titration
■
vždy nutno zkontrolovat zda je v dané bázi uplatnitelné
© Karel Nesměrák, 2016
9