VYSOKÁ ŠKOLA BÁŇSKÁ–TECHNICKÁ UNIVERZITA OSTRAVA Fakulta elektrotechniky a informatiky
Spolehlivost, diagnostika a kódování pro integrovanou výuku VUT a VŠB-TUO Garant předmětu: Jaroslav Zdrálek Autor textu: Jaroslav Zdrálek
Ostrava 2014
Vznik těchto skript byl podpořen projektem č. CZ.1.07/2.2.00/28.0062 Evropského sociálního fondu a státním rozpočtem České republiky.
Za odbornou náplň tohoto vydání odpovídá autor. Jaroslav Zdrálek je docentem na Fakultě elektrotechniky a informatiky VŠB-Technické univerzity v Ostravě, kde přednáší předmět Spolehlivost, diagnostika a kódování pro studenty navazujícího magisterského studia, kurz SaD je na fakultě nabízen ve studijním programu Informační a komunikační technologie. Vznik skript byl podpořen projektem č. CZ.1.07/2.2.00/28.0062 Evropského sociálního fondu a státním rozpočtem České republiky.
Tato publikace neprošla redakční ani jazykovou úpravou.
© Jaroslav Zdrálek, 2014, VŠB-Technická univerzita Ostrava
Autor:
Jaroslav Zdrálek
Katedra:
Katedra telekomunikační techniky
Název:
Spolehlivost, diagnostika a kódování pro integrovanou výuku VUT a VŠB-TUO
Místo,
Ostrava
rok, vydání:
2014, 1. vydání
Počet stran:
46
Vydala:
Vysoká škola báňská-Technická univerzita Ostrava
Náklad
CD-ROM, 10 ks
Neprodejné ISBN 978-80-248-3647-8
CD
Spolehlivost, diagnostika a kódování pro integrovanou výuku VUT a VŠB-TUO
Úvodem k formátu těchto skript, která vznikla na základě prezentace o integrovaných obvodech, které jsou určeny do náročných prostředí jako je armáda a vesmír. Obsahem je také řešení systému avioniky pro raketoplány. Tato skripta mnohých pasážích poukazují na nevhodné použití výsledků z teoretických výpočtů a to i přes upozornění v samotných dokumentech, podle kterých byl výpočet vykonán. Následně jsou prezentovány osobní názory autora na teoretické výpočty spolehlivostních parametrů podle sériového modelu a také teoretické výpočty předpovědi spolehlivostních parametrů. Autorova zkušenost s předpovědí je, že spolehlivost se chápe jako číslo, které je nutno překročit. Autor souhlasí se závěrem, že spolehlivost zařízení nelze kumulovat do jednoho čísla, ale spolehlivost jako obecnou vlastnost a jej ji nutno chápat jako kvalitu. O této skutečnosti svědčí i programy QPL a QML, které se uplatňují pro armádu a vesmír. Tyto skripta v první části obsahují základ informace o spolehlivosti, výpočet parametrů spolehlivosti na základě sériového modelu. Další část je věnována předpovědi proti poruchám, hlavně na základě handbooku MIL-HNBK-217. Třetí kapitola opouští teoretické výpočty parametrů spolehlivosti a hovoří o kvalitě integrovaných obvodů. Tato kapitola je zpracována na základě MIL-M-38510, QPL – Qualified Part List a na základě MIL-M-385353, QML – Quality Manufactured Listing. Poslední kapitola je věnována systémům odolných proti poruchám a představuje řešení systému avioniky v raketoplánech.
1
Spolehlivost, diagnostika a kódování pro integrovanou výuku VUT a VŠB-TUO
Spolehlivost je obecná vlastnost a proto se týká mnoha oborů. Pojem všeobecná vlastnost se mnohdy používá namísto obecná vlastnost. Proto bližší určení spolehlivosti se liší od oborů. Například problematika zdravotnických přístrojů, kdy přístroj nesmí mít jakýkoliv negativní vliv na člověka či pacienta. Potom s pojmem spolehlivost úzce souvisí pojem bezpečnost. V jiných oborech se pod pojmem spolehlivost skrývají finanční náklady a zajištění návratnosti investice v plánované době. Mnohdy je všeobecně přijatý názor, že systém je spolehlivý. Příkladem mohou být automobily, kdy některé modely se všeobecně považují za vydařené. Toto je názor uživatelů a odborníků, který byl získaný pozorováním, znalosti dané problematiky, nikoliv přesnými měřeními či statickým vyhodnocováním. Názory na spolehlivost systému jsou dnes mnohdy vytvářeny novinovými články a sociálními sítěmi. Výše uvedený pojem bezpečnost se týká problematiky bezpečného ukončení činnosti v případě poruchy, eliminace škod v důsledku špatného postupu obsluhy atd. Technické omezení pojmu spolehlivosti, jako všeobecné vlastnosti, se omezuje na technické vlastnosti, které lze vyhodnocovat. Jedná se o: • Bezporuchovost, kdy se vyžaduje trvalá provozuschopnost. • Udržitelnost, je nutno si uvědomit, že vše se pokazí a potom je nutné zařízení opravit či vyměnit. Otázka opravy či výměny je otázka ceny zařízení, novějších technologií v době poruchy. • Skladovatelnost, doprava zařízení. Ztráta spolehlivostních vlastností může být způsobena nevhodným skladováním, například v chemicky agresivním prostředí, nebo nevhodnou dopravou. Je známo, že elektronické zařízení přepravované po moři vyžadují speciální balení. 2
Spolehlivost, diagnostika a kódování pro integrovanou výuku VUT a VŠB-TUO
Technická praxe zavedla ukazatele pro hodnocení spolehlivosti. Nejdříve, systémy se dělí na obnovované a neobnovované systémy. Za obnovované systémy se považují systémy, které lze po vzniku poruchy opravit. Opětovné uvedení do provozu je jednak technologicky možné a samozřejmě finančně únosné. Opakem jsou neobnovované systémy. Oprava takovýchto systémů je ekonomicky nevýhodná a mnohdy technologicky nemožná. Příkladem neobnovovaných systémů je žárovka, integrovaný obvod, levné hodinky, některé poruchy notebooku, tabletu atd. Oprava vadného tranzistoru v integrovaném obvodu je technologicky nemožná. Oprava notebook nebo tablet může být je dražší než nákup nového. Základní ukazatel pro neobnovované systémy je intenzita poruch (t), která je závislá na čase. Od tohoto ukazatele se odvozují další ukazatele, opětovně závislé na čase. • Pravděpodobnost bezporuchového provozu R(t). Jedná se o klesající funkci, která se limitně v čase nekonečnu rovná nula. • Pravděpodobnost poruchy Q(t). Jedná se o neklesající funkce, která se limitně v čase nekonečno rovná jedné. Tento princip vyjadřuje základní myšlenku, že každý objekt se porouchá. • Střední doba do poruchy MTTF - Mean Time to Failure. Jedná se o velmi význačný a známý ukazatel. Limitní hodnoty pravděpodobnosti bezporuchového provozu a pravděpodobnosti poruchy vyjadřují skutečnost, že vše se jednou porouchá. Poznámka Velmi často se používá MTBF namísto MTTF. Ukazatel MTBF je střední doba mezi poruchami, který je definován u obnovovaných systémů.
3
Spolehlivost, diagnostika a kódování pro integrovanou výuku VUT a VŠB-TUO
Vzorce, které jsou uvedené na předcházejícím snímku lze považovat za korektní. Problémem je, že v technické praxi nejdou použít, protože intenzita poruch je závislá na čase. Proto je nutné nejdříve vyřešit otázku, jaký časový průběh má intenzita poruch. Část odborníku, v případě elektronických součástek, zařízení a systémů, hovoří o vanové křivce. Jedná se časový průběh intenzity poruch a tento průběh připomíná vanu. Tato křivka je spíše odpozorovaná z praxe než změřena a teoreticky dokázaná. Nižší hodnoty intenzity poruch jsou lepší. V této křivce se definují tři oblasti. • V první oblasti intenzita poruch klesá, spolehlivost se zvyšuje. Mnohé společnosti v praxi tuto oblast se snaží překlenout u svých výrobků principem zahořování. Nově sestavený výrobek se zprovozní a je umístěn do regálů na definovanou dobu. Po této době se opět kontroluje jeho funkčnost a až po tom je výrobek expedován. • Druhá oblast se vyznačuje konstantní intenzitou poruch. Je oblast, kdy se objekt používá a vyřešit integrál konstanty je jednoduché.
• Třetí oblast je za hranici životnosti objektu, kdy intenzita poruch stoupá. V tomto případě spolehlivost se zhoršuje. Objevují se názory, které zpochybňují vanou křivku a potom je nutno se vrátit k původní definici intenzity poruch jako časově závislé funkce. Jistým východiskem jsou matematická statistická rozložení. Potom úvaze, že intenzita poruch je konstantní odpovídá exponenciální rozložení.
4
Spolehlivost, diagnostika a kódování pro integrovanou výuku VUT a VŠB-TUO
V případě exponenciálního rozložení poruch je intenzita poruch konstantní a potom vyřešení integrálu pro intenzitu poruch je jednoduché. Integrál konstanty je konstanta. 𝑡 𝑑𝜏 0
= 𝑡.
Na základě tohoto řešení lze odvodit nové vzorce pro pravděpodobnost bezporuchového provozu a střední doby do poruchy. Z pohledu matematického se jedná exponenciální rozložení. Výsledné vzorce exponenciální rozložení jsou jednoduché, velmi dobře se s nimi pracuje a proto se s nimi velmi často setkáváme v praxi. Ve výše uvedených vzorcích je: • konstantní intenzita poruch. • R(t) je pravděpodobnost bezporuchového provozu, funkce času. Limitně, v čase nekonečno se pravděpodobnost bezporuchového provozu rovná nule. • Q(t) je pravděpodobnost poruchy, funkce času. Limitně, v čase nekonečno se pravděpodobnost poruchy rovná jedné. • MTTF je střední doba do poruchy. Limitní hodnoty v čase nekonečno pro pravděpodobnost bezporuchového provozu a poruchy vyjadřují jistotu, že vše jednou porouchá.
5
Spolehlivost, diagnostika a kódování pro integrovanou výuku VUT a VŠB-TUO
Normální a Weibulliho rozložení jsou další statistická rozložení, se kterými se setkáváme v praxi. Výsledné vzorce pro pravděpodobnost bezporuchového provozu a střední dobu do poruchy lze najít v literatuře nebo využít knihoven tabulkových procesorů (spreadsheets) nebo programů pro řešení matematických rovnic. • Normální rozložení je dáno známým průběhem hustoty rozložení f(t), která je derivací pravděpodobnosti bezporuchového provozu podle času. 𝑑𝑅(𝑡) 𝑑𝑡 Intenzita poruch u normálního rozložení je vzrůstající křivka. Výsledný časový průběh pravděpodobnosti bezporuchového provozu je klesající křivka, což odpovídá definici. 𝑓 𝑡 =
• Weibulliho rozložení. Toto rozložení používá parametr , který určuje průběhu intenzity poruch a tím i na časový průběh pravděpodobnosti bezporuchového provozu. Pravděpodobnost bezporuchového provozu je klesající funkce a splňuje základní definici. Jednou s vlastností Weibulliho rozložení je, že přechází do exponenciálního rozložení, v případě že parametr je roven jedné. Literatura: • Normal distribution; http://en.wikipedia.org/wiki/Normal_distribution • Weibull distribution; http://en.wikipedia.org/wiki/Weibull_distribution • Hlavička J., Racek S., Golan P. a Blažek T.: Číslicové systémy odolné proti poruchám; ČVUT Praha 1992, ISBN 80-01-00852-5
6
Spolehlivost, diagnostika a kódování pro integrovanou výuku VUT a VŠB-TUO
Obnovované systémy se vyznačují možnosti opravy a opětovného uvedení do provozu. Mezi základní ukazatele spolehlivosti pro obnovované systémy patří: • Střední doba mezi poruchami MTBF. Tato je definovaná jako celkový čas provozu děleno počet oprav. • Střední doba oprav, která je definovaná jako podíl celkového času oprav a počtu oprav. • Koeficient pohotovosti, udává pravděpodobnost, že systém bude provozuschopný. Koeficienty související s obnovovanými systémy jsou konstanty, a vyjadřují pravděpodobnost, že systém je v provozním stavu nebo v poruše. Praxe opět zavádí intenzity a to intenzitu poruch a intenzitu oprav. Obě intenzity vycházejí s exponenciálního rozložení, kdy jsou konstantní. Potom: • Intenzita poruch je převrácená hodnota střední doby mezi poruchami. • Intenzita oprav je převrácená hodnota střední doby oprav. Poznámky: • Koeficient pohotovosti je dobrým ukazatelem pro definici spolehlivosti či kvality dodávaného systému, 24 hodin, 7 dnů v týdnu. Hodnota koeficient pohotovosti KP = 0,9999 značí připustit 53 minut výpadku v průběhu jednoho roku. Takovýto parametr se dá lehce kontrolovat. • Pro obnovované systémy se definuje střední doba mezi poruchami - MTBF a pro neobnovované systémy střední doba do poruchy - MTTF. Praxe mnohdy tyto pojmy nerozlišuje. 7
Spolehlivost, diagnostika a kódování pro integrovanou výuku VUT a VŠB-TUO
Hodnoty intenzit poruch lze najít na Internetu čím dál méně, protože je obtížné je změřit, hlavně časově. Nutno si uvědomit, že pro oblast elektronických prvků je střední doba do poruchy v oblasti miliónu hodin. Například 200 roků je 1,752 miliónu hodin a tomu odpovídající hodnota intenzity poruch je = 0,570 * 10-6 poruch/h. V praxi je zaužívané, že hodnoty spolehlivosti se uvádějí v násobcích 10-6 a h-1. Správná jednotka intenzity poruch je poruch/hodina. Dost často se dá v literatuře setkat s vynecháním slova poruch. Pro ilustraci, dále jsou hodnoty intenzit poruch pro typické elektronické součástky. Údaje jsou ze starší literatury. Diody – 0,016 až 0,5 * 10-6 h-1 Tranzistory – 0,02 až 7,8 *10-6 h-1 Odpory – 0,02 až 0,05 * 10-6 h-1 Kondenzátory – 0,02 až 0,7 * 10-6 h-1 Spoj pájený ručně – 0,01 * 10-6 h-1 Spoje pájený vlnou – 0,001 2 až 0,1 10-6 h-1
Ovíjený spoje – 0,000 005 * 10-6 h-1 Literatura: • Hlavička J., Racek S., Golan P. a Blažek T.: Číslicové systémy odolné proti poruchám; ČVUT Praha 1992, ISBN 80-01-00852-5 • Husák M.: Spolehlivost systémů; http://www.micro.feld.cvut.cz/home/ x34ezs/prednasky/12%20Spolehlivost%20systemu.pdf 8
Spolehlivost, diagnostika a kódování pro integrovanou výuku VUT a VŠB-TUO
Jednou se zajímavých situací je způsob propojování spojů v elektronice. Jedná se pájení pinů do desky plošného spoje a propojení kabelů do konektoru. Jednotlivé možnosti jsou pájení ručně, pájení vlnou a ovíjené spoje. Osazené desky plošných spojů se dnes zásadně pájejí vlnou. Nejlepší hodnotu vykazuje ovíjený spoj. Tato technologie je stará a velmi málo známa. Tato technologie je založena na mechanickém (fyzikálním) svaru dvou kovů. Tento svar vzniká za vysokých tlaků. U ovíjeného spoje se dosahuje omotáváním drátu na hranatý trn. Na pravoúhlých rozích vzniká vysoký tlak, který zajistí fyzikální svar. K ovíjení se používají speciální pistole, které omotávají drát pravidelně a způsobují vysoký tlak na hranách trnu. Důsledek aplikace ovíjeného spoje lze spatřovat v moderním propojení kabelů a konektorů. Opět se jedná o vytvoření vysokého tlaku na hranách a tím vzniku fyzikálního svaru. Jako zajímavost lze uvést, že u některých zdrojů dochází k záměně pojmů ovíjený (wire-wrap connection) spoj s pojmem zkroucená pár (twisted pair). Pojem twisted pair je používán například u UTP kabelů pro rozvod Ethernetu. Literatura: • Wire wrap; http://en.wikipedia.org/wiki/Wire_wrap; on line 2014-04-06
9
Spolehlivost, diagnostika a kódování pro integrovanou výuku VUT a VŠB-TUO
Pro výpočet systémů, které se skládají z více objektů se požívají modely: • Sériový model, je nejpoužívanější model. Sériový model je definován situací, kdy porucha jakéhokoliv prvku systému způsobí nefunkčnost celého systému. Z jeho definice vyplývá, že se používá při výpočtu zařízení, které se skládají z mnoha prvků. Typicky se jedná o počítač, televizor, atd. • Paralelní model. Je definován situací, kdy poruchy všech objektů způsobí teprve poruchu systémů. Tato situace se využívá v zálohování a v systémech odolných proti poruchám. • Markovovy modely. Používají se v situacích, kdy systém se skládá z více subsystému a systém jako celek je plně funkční i v případě poruchy subsystému. K tomu lze i definovat podmínky oprav. Jedná se o systémy odolné proti poruchám (fault tolerant system). Základem aplikace Markovového modelu je konstantní intenzita poruch a jedna porucha nebo oprava v jednom čase. V případě aplikace studené nebo teplé zálohy, intenzita poruch nesplňuje podmínku konstanty, je nutno aplikovat teorii fázi, ve kterých je intenzita konstantní. Příkladem použití Markovova modelu je formulace: • Celkový systém se skládá z pěti systémů, pokud je v poruše jeden nebo dva systémy, systém je funkční. Pokud budou v poruše tři a více systémů, celkový systém není funkční. K tomu lze ještě přidat opravy, například je-li aspoň jeden systém z pěti funkční, lze systémy s poruchou opravit jeden po druhém. Obdobná formulace se může týkat paměti se samo-opravným kódem, a to: • Samo-oprava dokáže opravit až čtyři bity ze 9 bitů. Zjistěte časový průběh pravděpodobnosti bezporuchového provozu. A k tomu lze ještě přidat opravy paměti.
10
Spolehlivost, diagnostika a kódování pro integrovanou výuku VUT a VŠB-TUO
Nejpoužívanější model je sériový model, který skrývá v sobě záludnosti. Například, budova, ve které je provozováno 5 000 klasických žárovek a každá žárovka má střední dobu do poruchy MTTF = 5 000 hodin. Otázkou je, jak často dojde k poruše žárovky, která se bude muset vyměnit? Teď si pohrajeme trochu s elektrickými rozvody a zapojením tak, že 5 000 žárovek bude splňovat podmínku pro sériový model. Teoretický výpočet říká, že je nutno sečíst intenzity poruch všech 5 000 žárovek. A intenzita poruch jedné žárovky je převrácená hodnota střední doby do poruchy, to jedna lomeno 5 000. Po součtu obdržíme celkovou intenzitu poruch rovnou 1 h -1. Potom střední doba do poruchy celého sériového zapojení je převrácená hodnota intenzity poruch, to je 1 hodina. To značí, k poruše žárovky dojde přesně každou 1 hodinu. Zůstává úvaha, zda skutečně dochází každou hodinu (a to přesně) v budově k poruše jedné žárovky. Podle mého názoru, tento výpočet neodpovídá realitě a dovoluji si tento výsledek zpochybnit. K zpochybnění mne vedou i další situace uvedené později.
11
Spolehlivost, diagnostika a kódování pro integrovanou výuku VUT a VŠB-TUO
Předpověď spolehlivosti je prognózování parametrů spolehlivosti. Jedná se o různé modely, statistické výpočty založené na sběru údajů v minulosti. Určitou variantou jsou modely založené na zrychlených zkouškách spolehlivosti. Zásadní problém spolehlivosti je zajištění věrohodnosti předpovědi. Proto vznikly skupiny odborníků, kteří své názory publikovali formou doporučení či standardu. Potom aplikace těchto doporučení a standardů, hlavně mezinárodních, zajišťuje věrohodnost předpovědi spolehlivosti. Mezi nejznámější patří handbook MIL-HDBK-217 a doporučení IEEE1413. Na druhé straně existuje jiná skupina odborníků, kteří předpověď spolehlivosti neuznávají. Poukazují na nesrovnalosti mezi teoretickými výsledky a praktickým měřením. Dále poukazují na praxi, že výsledky předpovědi slouží ke klamání zákazníka a tím dochází k zneužití předpovědi. Zůstává otázka, zde je možno věřit výsledkům předpovědi spolehlivosti? Na tuto otázku si musí odpověď každý sám. Moje odpověď je ne a k tomu závěru mne vedou poznatky uvedené dále. Jedním z poznatků je, že pro americkou armádu je definovaný program kvality QML, viz později. Opět zůstává otázka, do jaké míry se předpověď spolehlivosti v americké armádě se lze jenom domnívat.
12
Spolehlivost, diagnostika a kódování pro integrovanou výuku VUT a VŠB-TUO
Nejznámější dokument v této oblasti je handbook americké armády pod názvem MIL-HNBK-217. První verze handbooku MIL-HDBK-217A byla publikována v roce 1965 a poslední verze F v roce 1991. Verze F notice 2 z roku 1995 již obsahuje zajímavou poznámku GUIDANCE ONLY - informativní pouze. Do jaké míry je dnes používán, se lze jenom domnívat. Původní handbook spatřuje svůj význam ve správném použití výsledků. Tento význam je uveden v kapitole 3.3 MIL-HDBK-217 ve všech verzích. • Předpověď spolehlivostních ukazatelů má sloužit pro návrhové účely, pro výběr spolehlivějšího řešení z několika možných. • Předpověď spolehlivostních ukazatelů je určena pro řízení spolehlivosti. Poslední věta odstavce jednoznačně hovoří o zneužití předpovědi spolehlivosti a to větou: • Ti, kteří chápou předpověď pouze jako číslo, které musí být překročeno, ti obyčejně najdou způsob dosáhnout jejich cíle bez jakéhokoliv účinku na systém. Tato věta vystihuje používání handbooku pro klamání zákazníka tím, že požadovaný parametr je splněn. Potom zdůraznění, že byl použit handbook americké armády je další klamání. Ve své praxi jsem se setkal jedině s tímto použitím a cílem zásadně bylo překročil požadované číslo. Literatura: • MIL-HDBK-217F; http://snebulos.mit.edu/projects/reference/MIL-STD/MILHDBK-217F-Notice2.pdf; on line 2014-11-11
13
Spolehlivost, diagnostika a kódování pro integrovanou výuku VUT a VŠB-TUO
Nejdříve se zaměříme co se událo za posledních 20 let v oblasti číslicových integrovaných obvodů. Pan Gordon Moore a Robert Noyce založili v roce společnost Intel Corporation. Ale již v roce 1965 pan Moore publikoval článek v časopise Electronics magazine "Cramming more components onto integrated circuits„, kde vyslovil domněnku: • Počet tranzistorů v integrovaných obvodech pro výpočetní techniku se zdvojnásobí přibližně každé dva roky. Tato věta byla odpozorována a realita ji již 50 let dokazuje. Proto se této domněnce říká zákon. Upozorňuji, že existuje několik modifikací této věty. Pro další úvahy jsou zajímavé čísla: • Rok 1995, počet tranzistorů v integrovaném obvodu je asi 5 000 000 tranzistorů, 5 miliónů tranzistorů. Představitelem z této doby je procesor Pentium Pro společnosti Intel. • Rok 2015, počet tranzistorů je asi 5 000 000 000 tranzistorů, 5 miliard tranzistorů. Představitelem jsou procesory se Sundy Bridge opět od společnosti Intel. • Uvedené údaje odpovídají Moore zákonu, a počet tranzistorů se za 20 let zvýšil 1 000 krát.
Literatura: • University of Wisconsin-Madison http://bonnerandpartners.com/can-this-49-year-oldlaw-lead-to-rapid-profits; on line 2014-11-11 • Moore, Gordon E. (1965). "Cramming more components onto integrated circuits" (PDF). Electronics Magazine. p. 4. Retrieved 2006-11-11. • Moore‘s law; http://en.wikipedia.org/wiki/Moore%27s_law; on line 2014-11-21
14
Spolehlivost, diagnostika a kódování pro integrovanou výuku VUT a VŠB-TUO
Základem MIL-HDBK-217 je výpočet intenzity poruch jednotlivých prvků. Potom intenzita poruch zařízení jako celku je dána součtem intenzit všech dílčích prvků. Intenzita poruch p pro CMOS integrované obvody je dána jedním ze vzorců, které jsou uvedeny výše. Vzorec nemá proměnou čas, jednoznačně je aplikována konstantní intenzita poruch. Stanovení hodnot jednotlivých koeficientů či faktorů je také problematické. Koeficienty C1 a C2 jsou pro CMOS číslicové obvody závisí od počtu hradel v integrovaném obvodu. Velmi problematická hodnota, problémy začínají u jednoduchého D klopného obvodu a končí u špičkových číslicových obvodů. Hradlové zapojení D klopného uživatel nemusí znát a je pro něj nepodstatná informace. Zůstává odhad. Špičkový procesor z let 1995 má 5 miliónů tranzistorů. Odpověď na otázku kolik je to hradel je pouze odhad. Následně, handbook má tabulky pouze do 60 000 hradel, pro vyšší počty hradel najednou přechází k ploše křemíkového čípu. Faktory je další skupina čísel, s obtížným způsobem stanovení jejich hodnoty. Například faktor prostředí E je v rozmezí 0,5 až 220 pro 14 různých prostředí. Je to veliký rozsah umožňující vhodné ovlivnění výsledku. Faktor učení, L, je dán délkou výroby daného typu. Pokud je obvod vyráběn v jedné továrně, problém zjistit, ale dnes, kdy obvod může být vyráběn ve více továrnách a dokonce jednotlivé výrobní kroky v různých výrobních továrnách. Co potom určuje jednu hodnotu tohoto faktoru. Obdobným způsobem se dá pokračovat i s dalšími faktory. Literatura: • MIL-HDBK-217F; http://everyspec.com/MIL-HDBK/MIL-HDBK-0200-0299/MILHDBK-217F_14591/; on line 2014-11-11
15
Spolehlivost, diagnostika a kódování pro integrovanou výuku VUT a VŠB-TUO
Všechny koeficienty a faktory aplikované v handbooku MIL-HDBK-217 mají problém se stanovení její hodnoty a tím vzniká nevěrohodnost. Současné číslicové obvody mají vlastnosti, které handbook jen obtížně zohledňuje. Jedná se o: • Technologický pokrok aplikací 22 nm technologie výroby (2015). Úvahy v handbooku končí na 800 nm.
• Počet tranzistorů v jednom obvodu. • Pouzdření integrovaných obvodů. Aplikace úplně nových typů pouzder až s 2 000 piny. Handbook v jednom vzorci neuvažuje s počty pinů kdežto v druhém ano. Ale i tak končí u 220 pinech. • Mezinárodní kooperace, na výrobě se podílejí výrobní podniky, které patří různým společnostem a jsou rozesety po celém světě. • Poslední poznámka se týká aplikace konstantní intenzita poruch a sériového modelu. Potom sériový model vede k rovnoměrnému rozložení poruch v čase. Literatura: • http://en.wikipedia.org/wiki/List_of_Intel_microprocessors • http://en.wikipedia.org/wiki/Semiconductor_device_fabrication • Source: University of Wisconsin-Madison http://bonnerandpartners.com/canthis-49-year-old-law-lead-to-rapid-profits • http://en.wikipedia.org/wiki/Pentium_Pro#mediaviewer/File:Pentiumpro_moshen. jpg • http://en.wikipedia.org/wiki/Sandy_Bridge#mediaviewer/File:Intel_CPU_Core_i7 _2600K_Sandy_Bridge_bottom.jpg
16
Spolehlivost, diagnostika a kódování pro integrovanou výuku VUT a VŠB-TUO
Novější materiál pro předpověď spolehlivosti je standard IEEE 1413, první verze je z roku 1994 a poslední z roku 2010. Standard má i doplňující příručku - guide IEEE1413.1, která obsahuje detailní informace o sběru údajů, jejich vyhodnocování a použití. Tento standard je méně známý než výše uvedený handbook MIL-HDBK217. Standard IEEE 1413 klade důraz na důvody, které vedou k předpovědi, a podle toho hodnotí i dosažené výsledky. Závěrečná zpráva z předpovědi musí obsahovat: • Důvody pro předpověď spolehlivosti. • Zamyšlené použití výsledku předpovědi spolehlivosti. • Upozornění jakým způsobem nelze použít výsledky. • Jaké jsou omezení pro výsledky. • Uvést použité metody Opět je zde vidět, že IEEE 1413 dbá na správnou interpretaci výsledku a omezení možnosti zneužití. Literatura: • Michael G. Pecht: Prognostics and Health Management of Electronics; September 2, 2008, ISBN-13: 978-0470278024 ISBN-10: 0470278021 • IEEE1413:2010, IEEE Standard Framework for Reliability and Prediction of Hardware • IEEE1413.1:2003, IEEE Guide for Selecting and Using Reliability Predictions Based on IEEE 1413™
17
Spolehlivost, diagnostika a kódování pro integrovanou výuku VUT a VŠB-TUO
Příručka IEEE1413.1 z kapitoly 5.5.1 obsahuje výše uvedený odstavec. Jeho překlad je: „MIL-HDBK-217 pojednávající o metodologie předpovědi spolehlivosti byl vyvinout v rámci připravované aktivity Rome Air Development Center (teď Rome Laboratory). Poslední verze této metodologie byla MIL-HDBK-217 Revision F Notice 2, která byla publikována 28. února 1995. Poslední vydání handbooku zakázalo používání handbooku jako požadavek. V roce 2001, úřad U.S. Secretary of Defense uvádí, že „… Defense Standards Improvement Council (DSIC) před několika roky udělal rozhodnutí nechat MIL-HDBK-217 ‚zemřít přirozenou smrtí.‘ Toto je stále současná pozice OSD, tj. nepodporovat jakékoliv update nebo revize MIL-HDBK217.“ (See Desiderio, George, “FW: 56/755/NP/ Proposed MIL Std 217 Replacement.”) „ Nejvyšší orgány se distancují od uplatňování požadavků na základě handbooku MILHDBK-217. Příručka IEEE 1413.1 také kritizuje konstantní intenzitu poruch v podání handbooku.
Literatura: • IEEE1413.1:2003, IEEE Guide for Selecting and Using Reliability Predictions Based on IEEE 1413™
18
Spolehlivost, diagnostika a kódování pro integrovanou výuku VUT a VŠB-TUO
Jiný příklad o spolehlivosti je z oblasti televizorů. Jedná se o pozorování počtu poruch u televizorů a způsoby jejich oprav. V Československu byl první televizor uveden na trh v roce 1953 a byl postaven na elektronkách. Nástup polovodičů do televizoru byl v 80. letech aplikací tranzistorů. Avšak základem zůstávaly elektronky, pouze některé moduly či obvody byly realizovány pomocí tranzistorů. Bylo běžné, že jako reklama se u modelu uváděl počet aplikovaných tranzistorů. Televizory dnešní doby jsou pouze polovodičové a realizovány pomocí obvodů vysoké integrace. Počet tranzistorů lze již pouze odhadovat na milióny či miliardy tranzistorů. A teď k počtu poruch a způsobu opravy: • Podle mých osobních vzpomínek, elektronkový televizor se porouchal minimálně jednou ročně. Oprava spočívala ve výměně elektronické součástky, například odpor. • V éře nástupu tranzistorů se čas mezi poruchami zvyšoval a oprava již spočívala ve výměně opět elektronické součástky, ale v některých případech se již měnil modul.
• Do dnes používaná televize ještě poruchu neměla, a je v provozu již několik let. V případě poruchy očekávám výměnu celé televize za novou. Jednoznačně lze konstatovat, že střední doba mezi poruchami se velmi významně prodloužila. Toto konstatování odpovídá teorii řízení spolehlivosti, kdy zvyšování integrace zlepšuje spolehlivost.
19
Spolehlivost, diagnostika a kódování pro integrovanou výuku VUT a VŠB-TUO
Oblasti, kde se kladou vysoké nároky na spolehlivost je armáda a vesmír, kde elektronické systémy pracují v náročných provozních podmínkách, které nelze srovnávat z klasickým prostředím kanceláří. Přičemž vesmír je náročnější prostředí jako armáda. Předpověď spolehlivosti podle MIL-HDBK-217 tyto podmínky nějakým způsobem zohledňuje, ale pořád se jedná o chápaní spolehlivosti jako spolehlivost s konstantní intenzitou poruch a střední doba do/mezi poruchami. Dnes, výrobci elektronických součástek chápou spolehlivost jako všeobecnou vlastnost a od pojmu spolehlivost ustoupili a používají pojem kvalita. Základní téze je, že spolehlivost nelze kumulovat do jednoho čísla, převážně do intenzity poruch. Při uvážení, jak se stanovují hodnoty v řádech miliónů hodin se nelze divit tomuto názoru. Spolehlivost je všeobecnější pojem, a proto je nahrazena pojmem kvalita. Kvalita je také rozsáhlý pojem, ale v případě kvality lze hovořit o kvalitě návrhu, kvalitě výroby, kvalitě použité technologie, kvalitě součástky atd. Kvalita se dá kontrolovat, je to dodržování technologické kázně, vytváření kontrolních obrazců, testy jednotlivých kroků výroby, testy výsledné součástky atd. Výsledkem jsou elektronické součástky, které jsou schopné obstát v armádě a ve vesmíru. Konkrétně, výsledkem jsou programy, QPL - Qualified Part List a QML – Qualified Manufacturer Listing. Dnes se používá program QML, který lze považovat za nástupcem QPL. Literatura: • MIL-PRF-38535K; http://www.dscc.dla.mil/Programs/MilSpec/listdocs.aspx? BasicDoc=MIL-PRF-38535; on line 2014-11-11
20
Spolehlivost, diagnostika a kódování pro integrovanou výuku VUT a VŠB-TUO
Již v 60. a 70. letech se objevovaly názory, že spolehlivost elektronických součástek nelze kumulovat do jedno čísla, intenzity poruch. Spolehlivost je všeobecná vlastnost a u elektronických součástek se na ní podílí více aspektů výroby. Význačný výrobce polovodičů, společnost Texas Instruments, vyrábí obvod SN5400 od 60. let minulého století do dnes. Za toto 50-leté období mohla společnost získat spolehlivostní ukazatele z reálných zkoušek spolehlivosti. Ale, společnost uváděla intenzitu poruch ve starých katalozích ze 60. a částečně 70. let minulého století. V novějších katalozích tento údaj již uváděn není. Obdobné je to i u dalších společností, které vyrábějí integrované obvody. Dnešní katalogy integrovaných obvodů již intenzitu poruch zásadně neuvádějí. Důvodem je, že výrobci opustili ukazatele spolehlivosti a přešli ke kvalitě. O tomto svědčí fakt, že již v roce 1975 je publikován dokument MIL-M-0038510 známy jako QPL - Qualified Part List pro mikroelektronické obvody. Zdroj: • SN5400, SN54LS00, SN54S00, SN7400, SN74LS00, SN74S00, Quadruplle 2-inputs positive NAND gates; SDLS025B – firemní literatura společnosti TI; http://www.ti.com/lit/ds/symlink/sn5400.pdf; on line 2014-10-06 • MIL-M-38510; http://www.landandmaritime.dla.mil/programs/milspec/ListDocs.aspx?BasicDo c=MIL-M-38510; on line 2014-11-11 • MIL-PRF-38535K; http://www.dscc.dla.mil/Programs/MilSpec/listdocs.aspx?BasicDoc=MIL-PRF38535; on line 2014-11-11 21
Spolehlivost, diagnostika a kódování pro integrovanou výuku VUT a VŠB-TUO
Základem QPL jsou screeningové testy a poznatek, že integrované obvody se vyrábějí ve várkách. Z vyrobené várky se odebral vzorek integrovaných obvodů, které se podrobily screeningovým testům. Soupis všech možných screeningových testů je dán standardem MIL-STD-883J, který jednak definuje tyto testy, definuje podmínky jejich vykonání a způsob vyhodnocení. To vše označuje pojmem procedura, zkratkou TM. U QPL se screeningové testy prováděly vždy na každé výrobní várce. Ale u novějšího QML programu se provádění screeningových testů řídí jejich úspěšnosti. Například, byl-li screeningový test 100% úspěšný na dané várce, je možné jej u dalších n-várek vynechat a opět uskutečnit až na (n+1)-várce. Tento princip má zajistit snížení finanční náročnosti výroby. Každá testovací procedura má definováno, kolik vzorek se jí podrobí a kolik vzorek musí být úspěšných. • Mezi procedurami jsou i kontrola fyzikálních rozměrů, kterou musí projít všechny vzorky s 100% úspěšnosti. • Mezi procedurami jsou i elektrické testy za normálních klimatických podmínek, kde se vyžaduje také 100% úspěšnost. • Mezi procedurami jsou i také, které mohou způsobit poškození obvodu, jeho destrukci. I tyto procedury mají definovaný počet vstupních vzorek a počet obvodů, které musí testem úspěšně projít. Literatura: MIL-STD-883J; http://www.landandmaritime.dla.mil/ programs/milspec/ListDocs.aspx?BasicDoc=MIL-STD-883; on line 2014-11-20 22
Spolehlivost, diagnostika a kódování pro integrovanou výuku VUT a VŠB-TUO
Samostatnými testy jsou testy radiace a citlivosti na elektrostatický náboj. Tyto testy jsou destruktivní a v průběhu může dojít k nevratným změnám. Tyto vlastnosti mají samostatné značení a nejsou vázány označením třídy. V případě radiace jsou známy tři základní testy a to RHA, ELDRS a Neutronové ozáření.
• RHA obsahuje všechny činnosti, které mají zajistit, že elektronika a materiály budou vykonávat navrhnuté funkce i když budou vystaveny ionizujícímu záření. Jedná se hlavně o simulaci záření ve vesmíru. • Literatura popisuje ELDRS efekt, který se týká hlavně vesmíru, kde součástky jsou trvale vystaveny nízkému ionizujícímu záření v důsledku čehož degradují. • Neutronová radiace je proces, kdy neutronové záření způsobuje radioaktivitu materiálů. Další samostatnou skupinou je odolnost proti elektrostatickému náboji. Tato odolnost se zkouší podle procedury TM3015, MIL-STD-883J. Literatura:
• Christian Poivey; Radiation Hardness Assurance (RHA) for Space Systems; http://radhome.gsfc.nasa.gov/radhome/papers/NSREC02_SC_pres.pdf; on line 2014-11-13 • The ELDRS effects; http://eldrs.net/index.php?link=the_ELDRS_effects; on line 2014-11-11 • Neutron radiation; http://en.wikipedia.org/wiki/Neutron_radiation; on line 2014-11-13 23
Spolehlivost, diagnostika a kódování pro integrovanou výuku VUT a VŠB-TUO
Odolnost proti radiaci má své značení a vůbec nesouvisí s třídami, které jsou definovány programy QPL a QML. Pro RHA jsou definovány úrovně radiace, nejnižší úroveň je M a odpovídá 3 000 Rad(Si) až po nejvyšší úroveň H, která odpovídá 1 miliónu Rad(Si). ELDRS je další samostatné značení, které nesouvisí s třídami. Pro představu o velikosti Rad(Si) uvádím poznatek z wikipedie, že 25 Rad(Si) způsobuje klinicky pozorovatelné změny v krvi. Mezi další testy je náchylnost na elektrostatický elektřinu či náboj, který může poškodit integrované obvody. Existuje více tříd odolnosti proti elektrostatickému napěti, a tyto úrovně jsou definovány rozsahem napětí, například 250 V až 499 V. Potom obvod se zkouší 250 V se závěrem, že obvod snese elektrostatické napětí vyšší než 250 V. Odolnost na elektrostatické napětí má své samostatné značení, kde základem je trojúhelník. Například dva trojúhelníky - ∆∆ je třída, která definuje, že pin obvodu snese elektrostatické napětí vyšší než 2 000 V. Pro zajímavost, maximální třída je ∆∆∆B a značí odolnost proti elektrostatickému napětí většímu než 8 000V. Literatura: • MIL-PRF-38535K; http://www.dscc.dla.mil/Programs/MilSpec/listdocs.aspx?BasicDoc=MIL-PRF38535; on line 2014-11-11 • Rad (unit); http://en.wikipedia.org/wiki/Rad_(unit); on line 2014-11-10
24
Spolehlivost, diagnostika a kódování pro integrovanou výuku VUT a VŠB-TUO
QPL a QML zařazuje integrované obvody do tříd. Problémem je, že třídy v obou standardech nemají stejné označení a proto dále uvádím třídy podle QML, MILPRF-38535. QML definuje 5 nových tříd, a to M, N, Q, V a Y. Z důvodu zachování návaznosti na předcházející program QPL definuje 3 třídy, které splňují podmínky QPL podle MILM-38510. Jedná se o třídy B, S a T. Význačné třídy jsou M, Q jako nástupce třídy B, třída V jako nástupce třídy S. Výrobce tříd Q a V musí být certifikován administrátorem DSCC a mít radu TRB. Naproti tomu, výrobce třídy M se sám sebe certifikuje a DSCC může program QPL verifikovat. Odpozorováním z další literatury se třída M, Q a B (Q=B) uplatňuje v armádě a třída V a S se uplatňuje pro vesmír. Program QML definuje podmínky, které musí být v každé třídě splněny. Nikde není uvedeno, že třída je vhodná pro nějakou oblast použití. Čili, každý zadavatel si musí vybrat třídu, ve které chce mít zařízení zhotoveno. Výběr třídy nám garantuje určitou kvalitu a také testy, ve kterých by součástky obstály.
Literatura: • MIL-PRF-38535K; http://www.dscc.dla.mil/Programs/MilSpec/listdocs.aspx?BasicDoc=MIL-PRF38535; on line 2014-11-11 • MIL System Overview EEE Parts; http://biancaweb.cnes.fr/Standard_CNES_public/en/MIL_system_overview.pdf; on line 2014-11-13 25
Spolehlivost, diagnostika a kódování pro integrovanou výuku VUT a VŠB-TUO
MIL-PRF-38535 - QML definuje třídy a také screeningové testy pro každou třídu. Z vyrobené várky obvodů se vybere vzorek obvodů, které se podrobí screeningovým testům. Na základě úspěšného zvládnutí těchto testů se o zbylé várce prohlásí, že splňuje podmínky třídy. Snímek prezentuje soupis screeningových testů pro třídy Q, V a Y. Za zmínku stojí testy: • Screeningový test 6, vizuální kontrola, který musí být 100% úspěšný. • Screeningový test 4, teplotní cykly. Jedná se o test, kdy integrovaný obvod je umístěn v definované záporné teplotě (např. -65°C) a skokově je přemístěn do definované kladné teploty (např. +175°C). Perioda těchto teplotních změn je 10 minut. • Screeningový test 10, zahořovací test. Integrovaný obvod je umístěn na předepsanou dobu (třída V má 240 hodin) do kladné teploty (např. +125°C). Potom je kontrolována funkčnost. Literatura: MIL-PRF-38535K; http://www.dscc.dla.mil/Programs/MilSpec/listdocs.aspx?BasicDoc=MIL-PRF38535; on line 2014-11-11 MIL-STD-883J; http://www.landandmaritime.dla.mil/ programs/milspec/ListDocs.aspx?BasicDoc=MIL-STD-883; on line 2014-11-20
26
Spolehlivost, diagnostika a kódování pro integrovanou výuku VUT a VŠB-TUO
Další zajímavé testy: • Screeningový test 15. Jedná se o testování statických elektrických parametrů integrovaného obvodu, dále o dynamický či funkční test, dále o přepínací test číslicových integrovaných obvodů. Všechny testy se provádějí při pokojové teplotě 25°C a v krajních teplotních mezích, -55°C, minus teplota a +125°C, plus teplota. • Screeningový test 16. V pouzdrech mohou být dutiny, a tento test zkouší jejich těsnost. • Screeningový test 18. Tento test prověřuje řemeslné provedení obalu hermeticky zapouzdřených zařízení. Zároveň ověřuje možnost zničení během manipulace, montáže, testování. Literatura: MIL-PRF-38535K; http://www.dscc.dla.mil/Programs/MilSpec/listdocs.aspx?BasicDoc=MIL-PRF38535; on line 2014-11-11 MIL-STD-883J; http://www.landandmaritime.dla.mil/ programs/milspec/ListDocs.aspx?BasicDoc=MIL-STD-883; on line 2014-11-20
27
Spolehlivost, diagnostika a kódování pro integrovanou výuku VUT a VŠB-TUO
QPL - Qualified Part List je první program kvality, který byl uplatněn na integrované obvody pro armádu a vesmír. Základem programu QPL byly screeningové testy. Počátky QPL sahají do 70.let minulého století. Tato norma byla nahrazena MIL-PRF38535, QML - Qualified Manufacturer Listing v roce 1990. Důvody náhrady jsou: • Neustále se zvyšující kvalita integrovaných obvodů pro komerční elektroniku.
• Vysoké náklady spojené se screeningovými testy u QPL. Screeningové testy se prováděly vždy a na každé várce, i když byly vždy 100% úspěšné. Proto QML definuje podmínky, že screeningové testy se nemusí provádět na každé várce. Je zde definována perioda u 100% úspěšných screeningových testů. • Mezinárodní spolupráce a globalizace ekonomik. QPL definovalo, že integrovaný obvod QPL se musel vyvíjet, vyrábět a pouzdřit na území USA. QML od této podmínky ustupuje a definuje podmínky mezinárodní spolupráce. • Kontrola kvality se u QPL prováděla na konci výroby formou screeningových testů. To je, kvalita byla soustředěna do jednoho testu. Naopak QML chápe kvalitu průběžně a výrobce musí definovat kvalitu na každý výrobní krok. • QML definuje, že výrobce musí radu, která se zabývá kvalitou a vytváří program kvality u výrobce. Literatura: • MIL-PRF-38535K; http://www.dscc.dla.mil/Programs/MilSpec/listdocs.aspx?BasicDoc=MIL-PRF38535; on line 2014-11-11
28
Spolehlivost, diagnostika a kódování pro integrovanou výuku VUT a VŠB-TUO
Integrované obvody vyráběny podle QML mají specifické označení předepsané MILPRF-38535. Na pouzdru musí být řetězec čísel, znaků, který začíná prefixem 5962. Jak uvádí snímek každá pozice má definovaný význam. Jedná se o: • 5962 povinný prefix. • Úroveň RHA radiace, definovaná tabulkou.
• Rok výroby, jako dvojčíslí se speciálním 3 místním kódem. • Odolnost ELDRS. • Třída kvality. • Typ pouzdra. • Povrchová úprava vývodů. MIL-PRF-38535 uvádí možné povrchové úpravy vývodů jako je aplikace cínu, olova, zlata, paládia a další kovy. Literatura: MIL-PRF-38535K; http://www.dscc.dla.mil/Programs/MilSpec/listdocs.aspx?BasicDoc=MIL-PRF38535; on line 2014-11-11
29
Spolehlivost, diagnostika a kódování pro integrovanou výuku VUT a VŠB-TUO
Tento snímek prezentuje jednoho z významných výrobců elektronických obvodů pro vesmír. Jedná se o společnost Texas Instrument, která popřela intenzitu poruch integrovaných obvodů a již v 70. letech začala uplatňovat program QPL. Uvedený obvod LMP2012 původně vyráběla společnost National Semiconductros, která je dnes součástí Texas Instrument. Dále snímek představuje, že obvody z programu QML se dají na trhu koupit. Snímek zároveň uvádí cenové porovnání jednoho obvodu LMP2012 pro komerční použití a obvodu třídy V z programu QML. Jak je vidět, obvod vhodný do vesmíru, třída V, je asi 200 krát dražší než obvod pro komerční použití. Za snímku je také vidět, že označení programu QML proniká i firemního značení obvodu. Literatura: • TI Space Products; http://www.ti.com/lit/sg/slyt532/slyt532.pdf; on line 201411-30 • Enhanced Low Dose Rate Sensitivity (ELDRS); http://www.ti.com/lit/an/snaa192/snaa192.pdf; on line 2014-11-30
30
Spolehlivost, diagnostika a kódování pro integrovanou výuku VUT a VŠB-TUO
Společnost Microsemi Corporation je dlouholetý výrobce elektronických prvků pro armádu, bezpečnost, lékařství, atd. Hlavní elektronické prvky vyráběné Microsemi jsou analogové prvky, analogovo-číslicové a RF integrované obvody, zákaznické systémy na čipu (cSoC), FPGA a kompletní subsystémy. Společnost je dlouholetým účastníkem amerických vesmírných programů počínaje počátkem před 50-ti lety, kdy byla vypuštěna první raketa ATLAS. Několik výrobků Microsemi z programu vesmír bylo použito v programu prvního vozítka na Marsu, Mars Curiosity Rover, které přistálo na Marsu v roce 2012. Výrobky společnosti Microsemi se podílely na systému startu, dále systémech avioniky, telemetrie, navigace, řízení motorů, na počítač mise, na systému kamer a dalších systémech. Produkty společnosti Microsemi se podílely i na kritických fázích mise. Za kritické fáze se považují start a přistání na Marsu. Let k Marsu není považován za kritickou fázi. Snímek zároveň ukazuje cenovou relaci FPGA obvodů pro komerční použití a armádu, třída M a B. Připomínám, výrobce třídy M není registrován a certifikován u DSCC, výrobce se sám sebe certifikuje. DSCC může vykonat ověření. Třída B značí, že výrobce je registrován a certifikován přímo DSCC. Důsledek, třída B je přibližně dvakrát dražší než třída M. Literatura: • Microsemi; http://en.wikipedia.org/wiki/Microsemi; on line 2014-11-24 • MIL System Overview EEE Parts; http://biancaweb.cnes.fr/Standard_CNES_public/en/MIL_system_overview.pdf; on line 2014-11-13 31
Spolehlivost, diagnostika a kódování pro integrovanou výuku VUT a VŠB-TUO
Další společnosti, která proniká do vesmíru je společnost Xilinx. Tato společnost ve svém časopise uvádí svůj podíl na vozítkách určených na Mars, Mars Exploration Rover. Společnost měla své FPGA obvody aplikované ve fázi přistání na Marsu a také v samotném vozítku, kde FPGA obvody řídí elektromotory. Dvě vozítka Mars Exploration Rover úspěšně v lednu 2004 přistály na Marsu a uskutečnili geologický průzkum s cílem dokázat existenci vody na Marsu. Společnost vyrábí své obvody v řadách, kde každá řada má svůj název a číslo. Toto číslo odpovídá zdokonalení technologie výroby. Řada Spartan se chápe jako optimálně vyvážená řada s nízkým rizikem, nízkým cenou a nízkým výkonem a je vhodná pro cenové citlivé aplikace. Nejvýkonnější řada FPGA obvodů je Vitex, která je hlavně určena pro špičkové aplikací v sítích s přenosovou rychlostí 400GB/s a výše, rozsáhlé emulace, pro výpočty, kde je kladen vysoký nárok na výkonnost a podobně. Zajímavou řadou je Zynq-7000, jedná se obvody principu SoC - System on Chip. Obvody řady Zynq v sobě kombinují ARM procesor, FPGA obvod, ADC převodník, Ethernet adapter a další podporné bloky. Na snímku je výčet řad, které společnost Xilinx vyrábí ve třídách V a Q. Řady třídy V, Virtex4QV a Virtex5QV nepatří do nejšpičkovější kategorie obvodů. Použití řad Virtex4 a Virtex5 pro vesmír je určitě také dáno, že kvalita je také dána zaběhnutou a ověřenou výrobu.
Literatura: • Spartan-6 FPGA Family; http://www.xilinx.com/products/silicon-devices/fpga/spartan-6.html; on line 2014-11-21 • Virtex UltraScale; http://www.xilinx.com/products/silicon-devices/fpga/virtex-ultrascale.html; on line 2014-11-15 • Zynq-7000 All Programmable SoC; http://www.xilinx.com/products/silicon-devices/soc/zynq7000.html; on line 2014-11-14
32
Spolehlivost, diagnostika a kódování pro integrovanou výuku VUT a VŠB-TUO
Snímek představuje desku jako výsledek vědecké studie pro vesmírné lety. Na obrázku jsou vidět FPGA obvody společnosti Actel, dnes součást společnosti Microsemi. Určitě se na definici programů QPL a jeho nástupce QML podíleli americká armáda a NASA. V Evropě podle prezentace MIL System Overview EEE Parts se program QML uplatňuje ve francouzské národní kosmické agentuře CNES - Centre National d'Études Spatiales. Dále také v evropských kosmických projektech. Jaké pravidla platí pro českou armádu a český kosmický program, nevím. Zůstává mi pouze nedůvěryhodná poznámka, kterou pronesl jeden z účastníků školení ohledně MIL-HDBK-217, QPL a QML a systémů odolných proti poruchám. „Integrované obvody do kosmického prostoru byly kupované v krámku přes ulici.“ Otázkou zůstává, v které to bylo době. Literatura: • MIL System Overview EEE Parts; http://biancaweb.cnes.fr/Standard_CNES_public/en/MIL_system_overview.pdf; on line 2014-11-13
33
Spolehlivost, diagnostika a kódování pro integrovanou výuku VUT a VŠB-TUO
Raketoplány lze považovat za jednu z technologických špiček. My se zaměříme na instalovaný systém avioniky a řízení raketoplánu. Tento systém byl navržen jako systém odolný proti poruchám a nebyl příčinou havárie raketoplánu. Systémy odolné proti poruchám – Fault Tolerant System jsou systémy určené pro aplikace, kde se vyžaduje stále bezporuchový stav. V systému může vzniknout porucha i přesto výsledek musí být správný. Toto se dosahuje speciálními návrhy vycházející z principů zálohování a redundance systémů. Nasazení systémů odolných proti poruchám lze očekávat v oblastech jako: • Letectví a atomové elektrárny. V obou odvětvích se v případě havárie jedná o život lidí životní prostředí. • Zdravotnictví. Jakýkoliv chybný krok ohrožuje zdraví pacienta. • Armáda a vesmír, jedná se o oblasti související s životy lidí a obranou státu. • Banky a ukládání dat. Jedná se o manipulaci z peněžními prostředky na bankovních účtech. Je známo, že cenu informací lidí pochopí v okamžiku, kdy o ně přijdou. Typicky se jedná o poruchu disku v počítači a tím pádem problematika zálohování dat. Jiný případ je znám z burzy, která je dnes vybavena počítači. Zde si jeden počítač umanul a půjčil si od banky miliardy dolarů. Byznysmeni si toho ihned všimli a půjčku ihned vrátili. Celá akce byla způsobena blíže nespecifikovanou poruchou, možno algoritmem programu. Celá tato akce stála společnost milióny dolarů na úrocích. Banka totiž neváhala a vystavila účet za naběhnuté úroky, i když půjčka trvala několik minut. 34
Spolehlivost, diagnostika a kódování pro integrovanou výuku VUT a VŠB-TUO
Systémy odolné proti poruchám – Fault Tolerant System, se definují pouze třemi větami. První dva body jsou jednoznačné, ale u třetího bodu si nutno uvědomit pojem v přepsané době. Předepsaná doba v atomové elektrárně, v letectví je určitě velmi krátká než u lokomotivy, která v důsledku poruchy zastaví v poli. Pokud by lokomotiva obsahovala systém odolný proti poruchám, který by v důsledku poruchy bezpečně zastavil vlak. Potom by bylo možné vykonat manuální testování s následnou výměnou vadného modulu a pak opětovně pokračovat v jízdě. Výsledkem je jenom zpoždění, což je vlastně předepsaná doba, která nezpůsobuje havárii. Všechny tři výše uvedené body nemusí být vždy splněny v plném rozsahu, potom lze systém považovat za částečně odolný proti poruchám, ale v žádném případě nesmí způsobit havárii či újmu na zdraví lidí. Základní způsoby realizace systému odolného proti poruchám jsou: • Hardwarový způsob. Tento způsob mnoho lidí chápe jako jediný a nepřipouštějí si chyby například programů. • Softwarový způsob. I programy lze psát tak, aby eliminovali chyby.
• Informační způsob. Jedná se hlavně o kódy, které detekující chybu dat a samoopravné kódy. • Časový způsob. Odolnost proti poruchám lze spatřovat v potvrzování přenosu dat, jedná se o známý princip ACK – acknowledge.
35
Spolehlivost, diagnostika a kódování pro integrovanou výuku VUT a VŠB-TUO
Základním způsobem hardwarového a softwarového řešení systémů odolných proti poruchám je redundance. Základ tvoří duální systém, kde jsou aplikovány dva paralelní systémy. Vstup je napojen na každý systém, oba systémy S1 a S2 zpracovávají stejná data paralelně. Výstup je dán výstupním multiplexerem, který vybírá na výstup správný výsledek. Z důvodu určení správnosti výsledku musí oba systémy S1 a S2 v sobě obsahovat online testování, na základě kterého systém vyhodnocuje správnost svého výsledku. Systém musí být schopen vyhlásit, že jeho výsledek je správný nebo špatný. Příkladem takovéhoto systému je systém RAID1, který je více známy pod pojmem zrcadlení - mirroring. Aplikované disky patří k zařízením, které jsou schopny vyhlásit, že čtené data jsou chybná. Každý disk totiž zapisuje informace spolu kontrolními součty nebo bezpečnostními kódy. Na základě těchto kódů toho jsou disky schopny vyhlásit, zda čtená data jsou bez chyby nebo ne. Jedná o informační řešení odolnosti proti poruchám.
Jiný způsob on-line testování je aplikace dvou dvojic, kdy každá dvojice je doplněny komparátorem. Tento komparátor vyhodnocuje, zda dvojice pracuje správně. Pokud komparátor zjistí neshodu výsledků, například u dvojice S1, výstupní multiplexer se přepne na dvojici, která má správný výsledek, v tomto případě na dvojici S2. Grafy pravděpodobnost bezporuchového provozu neuvádím, protože: • by byly založeny na konstantní intenzitě poruch. • dílčí systémy s poruchou se dají opravovat a tím se mění chápaní pravděpodobnosti bezporuchového provozu. Na výpočet je nutno aplikovat Markovovy modely. 36
Spolehlivost, diagnostika a kódování pro integrovanou výuku VUT a VŠB-TUO
Jiné řešení redundance je aplikace většího počtu systémů, jejichž výstup je napojen na majoritní člen, který rozhoduje o správnosti výsledku. Majoritní člen pracuje na principu hlasování, kdy většina stejných výsledků z předcházejících dílčích systémů je považována za výsledek bez chyby. Tento princip řeší problematiku on-line testování a rozhoduje o poruše systému.
Základ takovéhoto systému je systém TMR – Triple Modular Redundant. Jedná se o systém, kdy tři systémy pracují paralelně a zpracovávají stejné vstupní data. Výstup každého systému je předáván majoritnímu členu, který vyhodnocuje správnost výsledku principem většina má pravdu. Systém TMR je schopen maskovat jeden porouchaný systém. V případě nasazení většího počtu systémů se zároveň zvyšuje odolnost proti poruchám. Potom se tento systém nazývá NMR – N Modular Redundant. Například při počtu 7 systémů, je systém NMR schopen maskovat 3 porouchané systémy. V případě raketoplánu se NASA rozhodla pro redundanci se čtyřmi počítači. NASA měla k dispozici výpočty, které hovořili o ztrátě raketoplánu v důsledku poruch počítačů. V případě 3 systémů byla vypočtena možnost ztráty raketoplánu 3 krát při jednom miliónů startů. Při nasazení 4 počítačů byla možnost ztráty raketoplánu 4 krát při desítkách miliónech startů. Literatura: • How Many Computers? http://www.hq.nasa.gov/office/pao/History/computers/Ch4-4.html; on line 2014-11-25 37
Spolehlivost, diagnostika a kódování pro integrovanou výuku VUT a VŠB-TUO
Systému avioniky amerických raketoplánů tvořilo 5 všeobecných počítačů GPC. Každá GPC počítač se skládal za dvou bloků, CPU a IOP – Input Output Procesor. Propojení těchto počítačů je na obrázku a jedná s o soustavu sběrnic. Toto počítače byly konfigurovány do celků tak, aby zajistili požadavky na bezpečnost a energetické nároky podle fázi mise. Jednotlivé konfigurace byly: • Fáze start, je považována za kritickou fázi, proto 4 počítače (1 až 4 GPC) pracovaly paralelně a řídily start. Pátý počítač pracoval jako uložiště dat, o startu. • Fáze průběh mise na oběžné dráze. Sestava se rekonfigurovala tak, že redundantní soubor tvořily pouze dva počítače (1 a 2 GPC), třetí byl určen pro systémovou správu. Zbývající dva počítače byly vypnuty. • Sestupná fáze je považována za kritickou fázi, proto čtyři počítače tvořily redundantní soubor a řídili sestup. Pátý opět pracoval jako uložiště dat o sestupu. Skutečné řešení systému odolného proti poruchám bylo kombinací hardwaru a softwaru a počítače byly vzájemně synchronizované pomocí 40 ms synchronizační smyčky.
Literatura: • Computers in the Space Shuttle Avionics System; http://www.hq.nasa.gov/ office/pao/History/computers/Ch4-1.html; on line 2014-11-25
38
Spolehlivost, diagnostika a kódování pro integrovanou výuku VUT a VŠB-TUO
Jako CPU procesor byl vybrán počítač AP-101 společnosti IBM, který byl doplněn o IOP (Input Output Procesor) procesor podle zadání raketoplánu. Počítač AP-101 již měl za sebou nasazení v letectví a to ve strategických bombardérech B52 a B-1B. Čili pro raketoplán byl vybrán počítač, který již prokázal svoje vlastnosti v náročných podmínkách. Počítač umožňoval fixed point a floating point výpočty na slovech 16, 32 a 64 bitů. Z dnešního pohledu měl velice malý výkon a to 480 tisíc instrukcí za sekundu. Pro porovnání je uveden výkon počítače kosmické lodě Gemini, který měl pouze výkon 7 ooo instrukcí za sekundu. Gemini byla kosmická loď pro lety s lidskou posádkou, kterou NASA používala v 60. letech minulého století. Předchůdcem byly kosmické lodě Mercury a následníkem byly kosmické lodě Apollo. Počítač AP-101 byl odvozen redukcí od sálového počítač System360. Určitou zajímavostí je z dnešního pohledu aplikace feritové operační paměti. Základ feritové paměti tvoří feritové toroidy o průměru 1 až 2 mm. Každý jeden bit paměti byl jeden toroid a hodnota bitu byla určena směrem magnetizace, doprava nebo doleva. Potom směru magnetizace odpovídala hodnota bitu 1 nebo 0. Každým toroidem byly provlečeny minimálně tři vodiče. Dva adresné vodiče, řádkový a sloupcový, které sloužili k adresaci toroidu. Třetí vodič byl určen ke čtení informace z toroidu nebo k zápisu hodnoty bitu. Základním problémem feritové paměti bylo, že při čtení se překlopil směr magnetizace. Proto po každém čtení musela být původní informace opětovně zapsána. Literatura: General-Purpose Computers; http://www.hq.nasa.gov/office/ pao/History/computers/Ch4-3.html; on line 2014-11-25 39
Spolehlivost, diagnostika a kódování pro integrovanou výuku VUT a VŠB-TUO
Počítač byl realizován za použití obvod TTL logiky na úrovni MSI - Medium-Scale Integration a LSI - Large-Scale Integration. Jedna deska plošných spojů potom tvořila vyměnitelný modul. Každý počítač se skládal ze dvou stavebních bloků a to CPU – Central Processor Unit a IOP – Input/Output Processor, který zajišťoval komunikaci se sousedními počítači, čidly a dalšími systémy raketoplánu. IOP procesor v původním počítači nebyl a pro potřeby raketoplánu byl do sestavy doplněn. Konstrukčně byl každý procesor samostatný konstrukční box o rozměrech 19,55 palců délky, 7,62 palců výšky a 10,2 palců šířky. Po přepočtení na objem, byl objem každého boxu 25 dm kubický, pro představu, to je 25 litrů. Váha každé boxu byla 54 pounds, celková váha jednoho počítače byla 114 pounds což je 51,7 kg. Potřebný elektrický příkon GPC počítačů byl 650 W. Literatura: General-Purpose Computers; http://spaceflight.nasa.gov/shuttle/reference/shutref/orbiter/avionics/dps/gpc.ht ml; on line 2014-11-25
General-Purpose Computers; http://www.hq.nasa.gov/office/pao/History/computers/Ch4-3.html; on line 201411-25
40
Spolehlivost, diagnostika a kódování pro integrovanou výuku VUT a VŠB-TUO
Použitá technologická úroveň v počítači AP 101 představovala ověřenou kvalitu. Nutno si uvědomit, že technologický pokrok v 70. a 80. letech minulého století představoval nástup mikroprocesorů a polovodičových pamětí. NASA připustila vývoj nového GPC na nových technologiích až v roce 1984, což bylo téměř po 10 úspěšných startech raketoplánu. I tak, modernizovaný počítač byl použit v raketoplánech až v roce 1994. Zde je krásně vidět konzervativnost v spolehlivosti, která se dá vyjádřit větou, „Neměň to co funguje“. Modernizovaný počítač AP-101S již byl umístěn do jednoho boxu namísto 2 boxů u svého předchůdce. Důsledkem bylo snížení celkové váhy na 5 x 29 kg = 145 kg namísto původních 260 kg, snížení objemu na polovinu, tj. na 125 dm kubických, snížení příkonu na 550 W v porovnání se svým předchůdcem. Literatura: General-Purpose Computers; http://spaceflight.nasa.gov/shuttle/reference/shutref/orbiter/avionics/dps/gpc.ht ml; on line 2014-11-25 General-Purpose Computers; http://www.hq.nasa.gov/office/pao/History/computers/Ch4-3.html; on line 201411-25
41
Spolehlivost, diagnostika a kódování pro integrovanou výuku VUT a VŠB-TUO
Původní zobrazovací jednotky byly CRT displeje ze zeleným luminoforem. Úhlopříčka displeje byla 8,6 palců, což je 21,8 cm. Tomu odpovídá rozměr 12,7 x 17,8 cm při poměru stran 4 : 3. V raketoplánu byly 4 displeje, z nichž 3 displeje byly umístěny v kabině a pátý byl na zádí v nákladovém prostoru. Aplikace zeleného luminoforu na obrazovce bylo začátkem 70. let považováno za technologickou špičku, a zelený luminofor minimalizuje únavu obsluhy. Klávesnice byly pouze hexadecimální a doplněná funkčními tlačítky. Nejednalo se klasickou klávesnici známou z dnešní doby. Umístění v raketoplánu bylo obdobné jako u displejů.
42
Spolehlivost, diagnostika a kódování pro integrovanou výuku VUT a VŠB-TUO
Zajímavým způsobem byla řešena vnější paměť, což byla magnetopásková jednotka s kapacitou 8M 16 bitových slov. Jednalo se pásku, která byla spojena do smyčky a tím tvořila nekonečnou pásku. Na každé páskové jednotce byly umístěny 3 kopie každého programového vybavení, které raketoplán používal. Z dnešního pohledu, pro mnohé z nás se jednalo o nepředstavitelnou techniku. Je nutno si uvědomit, že hovoříme o počítačových systémech 60. a 70. let minulého století. Dále si nutno uvědomit fakt, že první nepilotovaný let raketoplánu Enterprise byl v roce 1977. Významné historické milníky, které ovlivňovaly výběr počítačů do raketoplány jsou: • První 4-bitový CPU procesor v jednom pouzdře byl Intel 4004 a byl uveden na trh v roce 1971. • První obvod pro polovodičovou dynamickou RAM paměť byl Intel 1103. Paměť měla kapacitu 1 kibi bitů při organizaci 1 024 x 1 bit. • Pevné disky v roku 1970 existovaly a měly kapacitu desítky Megabytů. Byly citlivé na třesy a proto je nebylo možné použít pro raketoplán. Literatura: • Mass Memory Unit: A Late Addition; http://www.hq.nasa.gov/office/pao/History/computers/Ch4-3.html; on line 2014-10-25 • Intel 4004; http://en.wikipedia.org/wiki/Intel_4004; on line 2014-11-11 • Intel 1103; http://en.wikipedia.org/wiki/Intel_1103; on line 2014-11-11
43
Spolehlivost, diagnostika a kódování pro integrovanou výuku VUT a VŠB-TUO
Vývoj programového vybavení byl specifický úkol, a jeho zadání bylo jednoduché, řídit raketoplán. Nebyly známy všechny detaily zadaní a proto se musely v průběhu tvorby programového vybavení vyhledávat nejasnosti a definovat správné reakce. Základem bylo, že vývoj programového vybavení byl svěřen dvěma odděleným týmům. Oboje vytvořené programové vybavení se porovnávalo na simulátoru a vyhledávaly se odchylky. Nalezení odchylky značilo nalezení akce či situace, které nebyly jasně definována. Následně, tato situace byla diskutována a na základě závěrů z diskuze byla definována akce, která je správná.
44
Spolehlivost, diagnostika a kódování pro integrovanou výuku VUT a VŠB-TUO
Americký program Space Shuttle Program oficiálně začal v roce 1972. Základní úkol programu je dán větou „Konstrukce a dodávka ISS, nasazení, vyhledávání a oprava satelitů; dostupnost na LEO“, zdroj wikipedia. V uvedené větě jednotlivé zkratky značí ISS - International Space Station, mezinárodní vesmírná stanice a LEO je Low Earth Orbit. LEO jsou oběžné dráhy země s výškou 160 km až 2 000 km s časem oběhu od asi 88 minut do 127 minut. Je vidět, že základní úkol se časem měnil a je vyjádřen jednoduchou větou. Mezi významné milníky v programu raketoplánu patří první start raketoplánu Enterprise bez posádky v roce 1977. Těmto časovým údajům odpovídá i výběr počítače pro řízení raketoplánu. Určitě při výběru sehrálo roli, že vybraný počítač IBM AP-101 byl úspěšně nasazen ve strategických bombardérech B-52 a B1-B, a určitě i v mnoha dalších oblastech. NASA připustila modernizaci počítače až v polovině 80. let, kdy byl nahrazen novým modelem AP-101S. Nový model se dostal na oběžnou dráhu až začátkem 90. let. První let s lidskou posádkou se uskutečnil v roce 1981, raketoplán Columbia. Literatura:
Space Shuttle program; http://en.wikipedia.org/wiki/Space_Shuttle_program, on line 2014-11-20
45
Spolehlivost, diagnostika a kódování pro integrovanou výuku VUT a VŠB-TUO
Kritické názory na MIL–HDBK-217 lze najít v těchto odkazech: • Luthra, P.: “MIL-HDBK 217: What is Wrong with it?,” IEEE Transactions on Reliability, Vol. 39, pp. 518, 1990. • O’Connor P. D. T.: Reliability prediction: Help or Hoax?, Solid State Technology, 1990
• Way Kuo, Wei-Ting Kary Chien, Taeho Kim; Reliability, Yield, and Stress Burn-In: A Unified Approach for Microelectronics Systems Manufacturing and Software Development; Kluwer Academic Publishers; ISBN 0-7923-8107-6 • Patrick O'Connor, Andre Kleyner: Practical Reliability Engineering, Fifth edition; Wiley 2012; ISBN 9780470979822, 9780470979815, ePDF - 9781119961277, eBook 9781119961260, ePub 9781119964094, Mobi 9781119964100 • Michael Pecht, Wen-Chang Kang: A Critique of Mil-Hdbk-217E Reliability Prediction Methods; IEEE TRANSACTIONS ON RELIABILITY, VOL. 37, NO. 5,1988 DECEMBER, p. 453; • Michael Pecht: Why the traditional reliability prediction models do not work – is there an alternative?; Electronics Cooling, January 1996; http://www.electronics-cooling.com/1996/01/why-the-traditional-reliabilityprediction-models-do-not-work-is-there-an-alternative/; on line 2014-12-10 • Jim McLeish, Nathan Blattau: White Paper, Enhancing MIL‐HDBK‐217 Reliability Predictions with Physics of Failure Methods; DfR Solutation; http://www.dfrsolutions.com/uploads/newsletter%20links/201003/Enhancing%20MIL-HDBK217%20Reliability%20Predictions%20with%20POF.pdf; on line 2014-12-10 46