Systeemarchitecturen en opslag van gegevens
Dr. Wilfried Lemahieu
[email protected]
Overzicht van de cursus • Factoren die de eigenschappen van opslagsystemen beïnvloeden • Bestandstypes (tekst, beeld, geluid, video, ...) en compressietechnieken • Ongestructureerde gegevens, gestructureerde gegevens en metagegevens • Karakteristieken van apparaten voor persistente gegevensopslag: magneetband, magneetschijf en optische gegevensdragers • Technologieën met betrekking tot opslagomgevingen: RAID, SCSI, Storage Area Networks, ... • Organisatiemethodes voor gestructureerde gegevens: recordorganisatie, bestandsorganisatie en database-organisatie • Zoekalgoritmen voor gestructureerde gegevens • Zoektechnieken voor semi-gestructureerde en ongestructureerde gegevens • Data-organisatie en zoektechnieken voor het Web
1
Recente evoluties • • • • • • •
Data mining en data warehouses Multimedia Ongestructureerde gegevens (Web !) Van data retrieval naar information retrieval Nieuwe opslagtechnologieën E-business Systeemintegratie en gegevensdistributie
Deel I: Factoren die de gegevensopslag beïnvloeden
2
Functies van een informatiesysteem
• Data collection • Data storage • Data processing & communication
Data collection function Informatiemodel
Intern
Logisch
Extern
Databasemodel
Databasemodel
Databasemodel
Fysieke programmagegevensonafhankelijkheid
Logische programmagegevensonafhankelijkheid
3
Informatiemodel Modelleren van de "real world": v1
Vaknummer: D295 Vaknaam: Systeemarchitecturen en opslag van gegevens Aantal studiepunten: 3 v2
p1
Vaknummer: D237 Vaknaam: Database management I Aantal studiepunten: 5
Personeelsnummer: 03197 Naam: Jacques Vandenbulcke Werkadres: Naamsestraat 69, 3000 Leuven
Entity-relationship diagramma Persnr.
Vaknr.
Naam Vak
Vaknaam
(0..n)
(1..1)
Gedoceerd_door
Docent Werkadr.
Aantal studiep.
4
Informatiemodel: terminologie • Entiteittype • Attribuuttype – Enkelvoudig / samengesteld – Eénwaardig / meerwaardig
• Associatietype – – – –
Graad: unair, binair, ternair, … Minimum cardinaliteit: 0 of 1 (partieel of totaal) Maximum cardinaliteit: 1 of n Cardinaliteitsratio: (0..1), (1..1), (0..n), (1..n)
Logisch databasemodel • "Modelbeschrijving van een database zodat alle relevante informatie er direct in onderkend kan worden, zonder enige vertekening door de wijze van fysieke opslag (cfr. intern databasemodel) of door de wijze van verwerking van de gegevens (cfr. extern databasemodel)" • De transformatieregels voor omzetting van informatiemodel naar logisch databasemodel verschillen naargelang de databasemodelleringsmogelijkheden van de gebruikte databasesoftware. • Bijvoorbeeld: transformatie van het informatiemodel naar een logisch relationeel databasemodel
5
Logisch databasemodel voor relationeel databasesysteem Tabeldefinities: Docenten (Personeelsnr., Voornaam, Familienaam, Werkadres) Vakken (Vaknr, Vaknaam, Aantal_studiepunten, Docent)
Voorbeelden van rijen in de tabellen: Docenten: (03197, "Jacques", "Vandenbulcke", "Naamsestraat 69, 3000 Leuven") (06286, "Wilfried", "Lemahieu", "Naamsestraat 69, 3000 Leuven") Vakken: ("D237", "Database management I", 5, 03197) ("D295", "Systeemarchitecturen en opslag van gegevens", 3, 06286)
Logisch databasemodel: terminologie Informatiemodel
Logisch databasemodel (algemeen)
Logisch databasemodel (relationeel)
Entity types
Entity record types
Relaties (tabellen)
Entities (instances)
Entity records
Rijen (tupels)
Attribute types
Attribuutnamen en attribuutwaarden
Kolomnamen en kolomwaarden
Association types
Logical data structures
Vreemde sleutels
6
Intern databasemodel • Vertaling van logisch databasemodel naar fysieke opslagspecificaties • Modelbeschrijving van een database die aanduidt hoe de gegevens fysisch zullen worden opgeslagen op computergeheugenmedia en hoe de toegang tot die gegevens desgewenst kan verlopen
Intern databasemodel: terminologie Logisch databasemodel
Intern databasemodel
Set of entity record types
Physical database
Entity record type
Physical file (data set)
Entity record
Stored record
Attribuutnaam en attribuutwaarde
Data item
Logical data structures
Physical data structures (storage structures)
7
Elementen van fysieke gegevensopslag • Data item: verzameling van "bits" of "characters" die de voorstelling vormen van een gegeven op computermedia • Stored record: Verzameling van data items (die tesamen één entiteit beschrijven) • Stored file (physical file, data set, data store): verzameling van stored records (die tesamen één entiteittype beschrijven) • Stored database (physical database, database): geïntegreerde verzameling van stored files (die tesamen meerdere entiteittypen beschrijven)
Storage structures (physical structures) • Structuurmogelijkheden die bij gebruik van computergeheugenmedia worden aangewend voor het leggen van verbanden tussen gegevens • Mogelijkheden: – Adres-sequentiële connecties:
X Current element
X+L Successor
– Pointer-sequentiële connecties:
L X Current element
Y
Y Successor
X – Data-directe connecties:
Data X
– Data-indirectie connecties:
Z
Z Data
8
Mogelijke opslagstructuren: X
•
Adres-sequentieel data-direct:
X + L1
Element 1 L1
•
•
•
Element 1
Pointer-sequentieel data-direct:
X + L1 + L2
Element 2
Element 3
L2
Z Element 3
Y Y Element 2
Z
Adres-sequentieel data-indirect: Element 2
Element 1
Element 3
Element 1
Element 2
Element 3
Pointer-sequentieel data-indirect:
Informatiemodel Levnr
AODatum Leverancier
(1..1)
(0..n)
Aankooporder AOnr
Levnaam Levadres
Logisch databasemodel Leverancier (Levnr, Levnaam, Levadres) Aankooporder (Aonr, AODatum, Levnr)
Lev 1 Lev 3 Lev 5 …
Intern databasemodel Leverancier 1
AO 05 AO 06 AO 13
Leverancier 5
AO 02 AO 03 AO 20
Leverancier 3
AO 01 AO 14
9
Extern databasemodel • Modelbeschrijving van de deelverzameling van gegevens uit het logisch databasemodel die nodig is in het kader van de uitvoering van een bepaald programma • Toegespitst op bepaalde gebruikersgroepen en/of applicaties • Voorbeeld: – Extern databasemodel 1: Leverancier_adres (Levnr, Levnaam, Levadres) – Extern databasemodel 2: Leverancier_aankooporders (Levnr, Levnaam, Aonr, AODatum) – …
Data collection function: samenvatting Het voorwerp van organisatie van opslag (intern databasemodel) bestaat uit data items, stored records, stored files en stored databases. Deze zijn fysieke implementaties van gegevens uit een logisch databasemodel, waarop gebruikers (programma's) verschillende invalshoeken kunnen hebben (externe databasemodellen).
10
Data storage function
• • • •
Data representations Storage hierarchies Characteristics of storage devices Storage device structures
Data representations • Numerieke gegevens: binaire vorm • Alfanumerieke gegevens: "character representation codes" zoals ASCII, ANSI, EBCDIC en Unicode • Stilstaand beeld en video: bitmap graphics, vector graphics • Geluid: waveform, MIDI • Compressie !!!
11
Alfanumerieke gegevens • ASCII (American Standard Code for Information Interchange): 7-bit code, 27 = 128 verschillende tekens • ANSI (American National Standards Institute): 8-bit code, 28 = 256 verschillende tekens • EBCDIC (Extended Binary Coded Decimal Interchange Code): 8-bit code, 28 = 256 verschillende tekens • Unicode: 16-bit code, 216 = 65536 verschillende tekens (genoeg voor alle karakters uit eender welke taal) • Familie van Huffman codes: variabel aantal bits voor een karakter, cfr. compressie
Multimedia datatypes: stilstaand beeld (graphics) • Bitmap graphics: beschrijven van elke individuele "pixel" Aantal bits = 2 log(aantal kleuren) x resolutie van beeld Bijvoorbeeld voor een foto met een resolutie van 640x480 pixels: - Een monochrome versie vereist 1 x 640 x 480 bits = 38.400 bytes - Een 256-kleuren versie vereist 8 x 640 x 480 bits = 307.200 bytes
• Vector graphics: bestaan uit instructies die wiskundige figuren (lijnen, cirkels, …) beschrijven De benodigde opslagcapaciteit hangt af van de "complexiteit" van het beeld.
12
Multimedia datatypes: bewegend beeld (video) • Bestaat uit een opeenvolging van stilstaande "frames" • Elk frame is op zichzelf vastgelegd als een bitmap • De benodigde opslagcapaciteit is afhankelijk van de kwaliteit van de aparte frames en van de frame rate • Bijvoorbeeld: – Aantal kleuren: 256 – Frame size: 640 x 480 pixels – Frame rate: 30 fps (frames per second) De benodigde opslagcapaciteit voor 1 uur video is dan: 8 x 640 x 480 x 30 x 3600 bits = 30,9 GB Compressie is noodzakelijk !
Multimedia datatypes: geluid (sound) •
Waveform: digitale voorstelling van "samples" van de geluidsstroom – Sample rate (1 KHz = 1000 samples per seconde): • Telefoonkwaliteit: 8 KHz • AM-radiokwaliteit: 11 KHz • FM-radiokwaliteit: 22 KHz • CD-kwaliteit: 44,1 KHz – Een sample beslaat 16 bits. Een uur geluid van CD-kwaliteit vraagt dus: 44100 x 16 x 3600 bits = 302,8 MB
•
MIDI (Music Instrument Digital Interface): een muziekstuk bestaat uit een aantal "tracks", die simultaan worden afgespeeld. Aan elk track kan een bepaald muziekinstrument worden toegewezen. Per track worden de te spelen muzieknoten vastgelegd, die dan door een synthesizer worden gegenereerd, waarbij het timbre van het betrokken instrument wordt gesimuleerd. De benodigde opslagcapaciteit hangt af van het aantal tracks en de complexiteit van elke track, maar is beduidend lager dan voor gesampled geluid.
13
Compressie • Terminologie: – Compressieratio:
grootte van originele bestand grootte van gecomprimeerde bestand
– Lossless compression versus lossy compression – Symmetrisch versus asymmetrisch – CODEC (COmpression DECompression): algoritme dat een bepaalde vorm van compressie formaliseert
• Doel: – Besparen op opslagcapaciteit – Besparen op bandbreedte
Compressie: technieken • Algemene technieken: – Adaptive pattern substitution: zxy…zxy…zxy wordt k…k…k, (k = zxy) – Run length encoding: xxxxxxxx wordt 8*x – Pointers: --zxy---zxy--zxy--- wordt --zxy---3--3---
• Technieken voor stilstaand beeld: – Run length encoding – JPEG (Joint Photographic Expert Group): maakt gebruik van DCT (Discrete Cosine Transformation), waarbij "redundante" visuele gegevens worden weggelaten. Lossy !
• Technieken voor bewegend beeld: – Motion JPEG, M-JPEG: JPEG toegepast op elk apart frame. Lossy ! – MPEG (Moving Pictures Expert Group): maakt gebruik van DCT en interframe coding, waarbij enkel het "verschil" tussen twee frames wordt opgeslagen. Lossy !
• Technieken voor geluid: – MPEG layer 3 (MP3): weglaten van geluiden die nauwelijks kunnen waargenomen worden. Lossy !
14
Gestructureerde gegevens en metadata • Gestructureerde gegevens: de gegevens vertonen een bepaalde regelmaat, die op een abstract niveau kan beschreven worden in de vorm van een logisch datamodel met entity record types en attributen. De gegevens zelf vormen instanties van deze types. Voorbeelden: relationele tabellen, bestanden met records, objecten in een objectgeoriënteerde database,… • Ongestructureerde gegevens: vertonen dergelijke structuur niet. Voorbeelden: videobestanden, geluidsbestanden, tekstdocumenten,… • Metadata: zijn gestructureerde gegevens die op hun beurt een beschrijving vormen van andere (al dan niet gestructureerde) gegevens.
Document metadata • Beschrijft eigenschappen van het fysieke bestand/document waarin de gegevens vervat zijn: naam van het bestand, auteur, datum van aanmaak, toegangsrechten… • Geeft informatie over een bestand of document in zijn geheel • Is descriptief • Toepasbaar op alle soorten gegevens • Kan gebruikt worden voor het opzoeken van gehele bestanden
15
Semantic metadata • Beschrijft eigenschappen van de concepten uit de werkelijkheid die in/door het bestand worden voorgesteld • Geeft informatie over een bestand of document in zijn geheel • Is descriptief • Toepasbaar op alle soorten gegevens • Kan gebruikt worden voor het opzoeken van gehele bestanden
Structural metadata • Beschrijft eigenschappen van concepten uit de werkelijkheid zoals die in de structuur van het bestand moeten worden weerspiegeld • Geeft informatie over de onderdelen van een bestand of document • Is descriptief én prescriptief • Enkel toepasbaar op gestructureerde gegevens • Kan gebruikt worden voor het opzoeken van onderdelen van bestanden/documenten
16
Soorten metadata: een voorbeeld Document metadata
Auteur: W. Lemahieu Aangemaakt op: 21/3/2000
Titel
Boek Auteur
Boek-titel: File organisation Auteur: J. Vandenbulcke
Korte inhoud
Semantic metadata Korte inhoud: ...
Structural metadata
Storage hierarchies In het ideale geval: één-niveau monolytisch geheugen, gebaseerd op één type van technologie, zodat eender welk gegeven aan dezelfde hoge snelheid toegankelijk is. Maar: er is geen enkele technologie die hoge snelheid van toegang tot de gegevens combineert met grote opslagcapaciteiten aan lage kosten. Over het algemeen geldt: hoe groter de toegangssnelheid tot de gegevens, hoe hoger ook de opslagkost per eenheid van gegeven, waardoor het economisch verantwoord wordt om de snellere gegevensdragers slechts in beperkte capaciteiten te gebruiken.
17
Storage hierarchies • Gezien het feit dat niet alle opgeslagen gegevens even snel toegankelijk hoeven te zijn, maakt men in de praktijk gebruik van storage hierarchies: – Top van de piramide: zeer snelle toegang, hoge kost, beperkte capaciteit – Bodem van de piramide: minder snelle toegang, lagere kost, ruimere capaciteit
• Voor elke technologie voor gegevensopslag bestuderen we: – De kenmerken – De hieraan verbonden kosten – De daardoor beperkte capaciteiten
Enkele rekeneenheden Opslagcapaciteit: • • • • •
Byte: Kilobyte (KB): Megabyte (MB): Gigabyte (GB): Terabyte (TB):
8 bits 1.024 bytes 1.048.576 bytes 1.073.741.824 bytes 1.099.511.627.776 bytes
Tijd: • • • •
Milliseconde: Microseconde: Nanoseconde: Picoseconde:
10-3 seconde 10-6 seconde 10-9 seconde 10-12 seconde
18
Architectuur van opslaghiërarchieën Upper-level storage hierarchy
CPU HSB Central storage Expanded storage
I/O boundary
DASD cache Lower-level storage hierarchy
DASD TAPE / CD / DVD
Upper level storage hierarchy CPU 0
CPU 1
CPU 2
HSB
HSB
HSB
System control element
Expanded storage
Central storage
Channels
19
Lower level storage hierarchy Channels
Control unit
Control unit
Cache
Cache
DASD
…
DASD
DASD
…
DASD
Tape / CD / DVD
Characteristics of storage devices • • • •
Tape storage devices Magnetic disk storage devices CD-ROM, CD-R, CD-RW DVD-ROM, DVD-RAM
20
Algemene kenmerken van tape storage devices • Vroeger: het meest gebruikte medium voor de massale opslag van gegevens • Goedkoop en compact • Het medium: een dunne, plastic film, bedekt met een laagje magneet-oxide • De drive: sequentiële toegang, gegevens kunnen enkel serieel worden gelezen/geschreven
Soorten en eigenschappen van tape-systemen • Er bestaan 2 methoden van opslag van gegevens op tape: linear recordings en helical recordings • Linear tape:
Track
Block
Interblock gap
• Blocking factor: aantal records in één block
21
Soorten en eigenschappen van tape-systemen (vervolg) • Rekeneenheden: – 1 inch = 2,54 cm – 1 foot = 30,48 cm
• Enkele cijfers: – Tape density: typisch 800, 1600 of 6250 bpi (bytes per inch). Recent tot 38.000 bpi – Tape length: typisch 300, 2400 tot 3600 feet – Tape speed: typisch 25, 75, 100 tot 200 ips (inch per second)
• Tape reel versus tape cartridge
Schatten van de benodigde tape-lengte b = block size = fysieke lengte van data-block g = lengte van interblock-gap n = aantal data-blocks Benodigde opslagspace s = n*(b+g) Voorbeeld: file met 1 miljoen 100-byte records opslaan op een 6250 bpi tape met een interblock gap van 0,3 inch • Stel: blocking factor = 1
b = (100 bytes) / (6250 bpi) = 0.016 inch s = 1.000.000 x (0,016+0,3) inch = 316.000 inch = 26.333 feet
• Stel: blocking factor = 50
b = (50 x 100 bytes) / (6250 bpi) = 0.8 inch s = (1.000.000 / 50) x (0,8+0,3) inch = 22.000 inch = 1.834 feet Past op 2400-foot tape
22
Effectieve versus nominale recording density • Effective recording density =
Aantal bytes per block aantal inches nodig voor één block
• Voorbeeld: – Nominaal: 6250 bpi – Effectief met BF = 1: 100 bytes / (0,016 + 0,3) inches = 316,4 bpi
– Effectief met BF = 50: 5000 bytes / (0,8 + 0,3) inches = 4545,4 bpi
Schatten van de benodigde transfer time • Nominal transfer time: nominal tape density x tape speed • Effective transfer time: effective recording density x tape speed • Voorbeeld: Nominaal: 6250 bpi x 200 ips = 1250 KB/sec Effectief met BF = 1: 316,4 bpi x 200 ips = 63,3 KB/sec Effectief met BF = 50: 4545,4 bpi x 200 ips = 909,1 KB/sec
23
Evaluatie van tape • Blijft belangrijk voor archivering en back-up • Veel goedkoper dan magnetische "disk" en zeer makkelijk streamen van grote bestanden tussen tape en disk • Minder zinvol voor rechtstreekse gegevenstoegang wegens de trage sequentiële toegang
Magnetic disks / DASD's
• • • • •
Soorten disks Eigenschappen van DASD's DASD I/O overwegingen Formatteren van disks Voor- en nadelen van DASD's
24
Soorten disks
• Floppy disks • Hard disks • Large hard disks
Floppy disks – 5,25 inch of 3,5 inch diskettes – Polyester film met een magnetische laag eroverheen – Vooral gebruikt op PC's – Access time: 100 ms (milliseconds) – Opslagcapaciteit van een 3,5 inch diskette: • • • •
Een floppy bestaat uit 80 tracks Een track bestaat uit 18 sectors Een sector biedt 512 bytes opslagcapaciteit Dubbelzijdig gebruikt Totale opslagcapaciteit: 512 bytes x 18 x 80 x 2 = 1,44 MB
– Ook nog: ZIP disk (tot 250 MB)
25
Hard disks – Bestaat uit meerdere "platters", die met een magnetische coating zijn bedekt – Toegangsarm met read/write heads – Vast gemonteerd in een drive – Typische opslagcapaciteit: enkele tientallen GB – Access time: 10 – 25 ms
26
Architectuur van hard disks Spindle
Platter
Actuator
Track Read/Write head
Sector Arm
Cylinder
Disk rotation
Actuator movement
Verdere opdeling van hard disks en large hard disks • Naar portabiliteit: – Removable hard disks – Non-removable hard disks
• Naar "head motion" mogelijkheden – Fixed head hard disk – Movable head hard disk
27
Het formatteren van schijven • Een schijf moet format-informatie bezitten, zodat de lokaties waar gegevens op geregistreerd staan, kunnen worden geïdentificeerd. • Sector-mode: tracks zijn opgedeeld in sectors van vaste lengte. • Free block-mode: tracks zijn opgedeeld in gehele aantallen user-defined blocks. Deze kunnen zowel een vaste als een variabele lengte hebben, bepaald door de file designer.
Het formatteren van schijven: sector mode 2
Interleaved (vroegere schijven):
6 3
5
7
1 8
3
Non-interleaved (recente schijven):
4 4
2
5
1
6 8
7
28
De FAT (File Allocation Table) •
•
Een cluster bestaat uit een vast aantal (logisch) aaneengesloten sectors. Eens een cluster gelocaliseerd, kunnen al zijn sectors zonder bijkomende seek gelezen worden. De system administrator bepaalt het aantal sectors in een cluster. Een file bestaat uit een reeks clusters. De File Allocation Table bevat een lijst van alle clusters in een file, geordend volgens de logische volgorde van de sectors die ze bevatten. Er wordt een verwijzing naar de fysieke locatie van elke cluster bijgehouden. FAT-uittreksel voor file X Cluster #
Locatie
1 2 3
Het formatteren van schijven: free block mode • Probleem van sector mode indien de grootte van een sector geen veelvoud is van de grootte van een record: – Ofwel interne fragmentatie – Ofwel records die twee sectors overspannen
• Daarom: free block mode: een track is opgedeeld in blocks van variabele of vaste grootte, gescheiden door interblock gaps. De grootte van de blocks kan door de file designer gekozen worden, zodat een block steeds een geheel aantal records omvat (cfr. blocking factor).
29
Het formatteren van schijven: free block mode Count data block Count subblock Interblock gap
Data subblock
Intersubblock gap
Count key data block Count subblock Interblock gap
Key subblock
Key-intersubblock gap
Data subblock
Intersubblock gap
Nondata overhead • Sector-addressable disks: preformatting overhead, opgeslagen aan het begin van elke sector – Sector adres – Track adres – Conditie: usable/defective
• Block-addressable disks: – Count subblocks: fysieke adres van block en aantal bytes in data (en key-) subblock – Key subblock: primaire sleutel van laatste record in data subblock – Interblock gaps en intersubblock gaps – Hoe groter de block size hoe lager de overhead, maar: risico op interne fragmentatie op niveau van tracks !
30
Physical device structures • • • •
Block, sector of cluster (aantal stored records) Track (aantal clusters, sectors of blocks) Cylinder (aantal tracks) Drive (aantal cylinders)
Allocatie van stored data naar physical device structures: • Low level mapping: stored record block, sector of cluster • Upper level mapping: physical file drive
Physical allocation of stored data to physical device structures Medium model
Intern model
Drive
Physical file
Cylinder
Track
Block
Blocking factor
Stored record
Data item
31
DASD I/O overwegingen Belangrijkste maat voor performantie van DASD's: Response time
Service time
+
Queuing time
Seek time
Channel busy wait
Rotational delay
DASD control unit busy
DASD transfer time
DASD busy wait
Service time • Seek time (access motion time): tijd die nodig is om access arm te positioneren op de gewenste cylinder – – – –
Min. seek time Max. seek time Seek time = f(n cylinders) Read-write head selection
• Rotational delay: tijd die nodig is tot het block met de vereiste gegevens onder de read-write head komt • Transfer time: tijd die nodig is voor het kopiëren van een block – f(rotational speed, density of recorded data, block size)
32
Vergelijkingen in verband met disk service time • SBA: sequential block access: blocks worden gelezen in dezelfde aaneengesloten volgorde als waarin ze zijn opgeslagen (fysiek sequentieel) • RBA: random block access: blocks worden gelezen in een volgorde die volledig onafhankelijk is van de volgorde van opslag • Definities: – – – –
ROT = full rotation time (msec) BKS = Block size (bytes) TR = Transfer rate (KB/sec) Seek(NCYL): Verwachte seek time
• TSBA = ROT/2 + BKS/TR • TRBA = Seek(NCYL) + ROT/2 + BKS/TR
Specificaties van een typische disk drive (Seagate Cheetah 9) • • • • • • • • • • •
Capacity Minimum seek time Average seek time Maximum seek time Spindle speed Average rotational delay Max. transfer rate Bytes per sector Sectors per track Tracks per cylinder Cylinders
9 GB 0,78 msec 8 msec 19 msec 10.000 rpm 3 msec 14.506 bytes/msec 512 170 16 6582
33
Voorbeeld van benodigde opslagcapaciteit • Gegeven: een file met 50.000 fixed-length records van elk 256 bytes wordt opgeslagen op een Seagate Cheetah 9 drive • Benodigde opslagcapaciteit: – 2 records per sector, dus in totaal zijn 25.000 sectors benodigd – Aantal sectors per cylinder = 170 x 16 = 2720 – Aantal cylinders = 25.000/2720 = 10 cylinders
Voorbeeld van transfertijden • De tijd benodigd om een block van 4096 bytes af te halen van een Seagate Cheetah 9 drive is: • TSBA = 3 msec + 4096 bytes/(14.506 bytes/msec) = 3,28 msec • TRBA = 8 msec + 3 msec + 4096 bytes/(14.506 bytes/msec) = 11,28 msec
34
Invloed van blocking op transfertijd en benodigde opslagruimte • Vermindert het aantal data transfer-opdrachten voor het kopiëren van een bestand van schijfgeheugen naar centraal geheugen. Deze opdrachten zijn tijdrovend omwille van seek time en rotational delay. Vb.: om een unblocked file van 1000 records te transfereren zijn er 1000 data transfers nodig. Met een blocking factor 10 zijn het er nog 100. • Reduceert het aantal interblock gaps. Vb.: in bovengenoemd geval zijn er 999 gaps wanneer de records niet geblokt zijn. Met een blocking factor 10 zijn het er slechts 99. • MAAR: … !
Disk versus tape • Disk: – – – –
Biedt direct access Updates op bestand zelf Recente verbeteringen op gebied van snelheid en opslagcapaciteit Enige optie voor real-time systemen
• Tape: – – – –
Nog steeds veel goedkoper dan disk Enkel sequentiële access Ondersteunt slechts één proces tegelijk Nuttig voor batch-verwerking, backup en archivering
35
Optische schijven Optische schijven maken gebruik van lasertechnologie voor het lezen (en eventueel schrijven) van gegevens. De laser tast het oppervlak van de schijf af. De wijze waarop het laserlicht wordt weerkaatst door "spots" op het schijfoppervlak bepaalt of een bit 1 of 0 is.
Soorten optische schijven Er bestaan drie basissoorten, afhankelijk van de schrijf- en herschrijfmogelijkheden: •
•
•
Read-only optical disk: zoals bij audio-CD's zijn de gegevens vooraf geregistreerd. Ze kunnen enkel gelezen worden en dus niet gewijzigd. Voorbeelden: CD-ROM, DVD-ROM. WORM (Write Once Read Many) optical disk: Je kan zelf gegevens schrijven op de schijf, maar je kan dit slechts éénmaal. Nadien "gedraagt" de WORM-disk zich zoals een read-only disk. Voorbeelden: CD-R, DVD-R Erasable optical disk: deze optische schijf kan worden gewist, zodat er achteraf nieuwe gegevens op kunnen worden opgenomen. Voorbeelden: CD-RW, DVD-RW, DVD+RW, DVD-RAM
36
CD-ROM • Plastic schijf met een diameter van 120 mm, waarin minuscule "pits" de bits voorstellen. • Opslag in opeenvolgende sectors van 2 KB die één enkel, spiraalvormig track vormen overheen de gehele CD, beginnend vanuit het centrum. • Sector-addressering: gebaseerd op audio-CD standaard – – – –
Elke seconde afspeeltijd is opgedeeld in 75 sectors Elke sector bevat 2 KB data Standaard afspeeltijd = 74 minuten Totale opslagcapaciteit: (74 x 60) sec x (75 x 2) KB/sec = 650 MB
• Transfersnelheid: – Constant linear velocity (CLV) – Constant angular velocity (CAV)
37
Transfersnelheid van CD-ROMs: constant linear velocity (CLV) • Definitie: De lineaire snelheid (en dus ook de transfer rate) blijft constant. De rotatiesnelheid wordt lager en lager naarmate men de buitenkant van de schijf bereikt. • Voor een single-speed CD-ROM (cfr. Audio-CD): – Constante lineaire snelheid van 1,3 m/sec – Constante transfer rate van 150 KBps – Rotatiesnelheid varieert van 500 rpm (binnenste "tracks") tot 200 rpm (buitenste "tracks") – Gevolg: hogere rotational delay naarmate een sector verder naar buiten gelegen is
• X speed CD-ROM: X * 150 KBps
Transfersnelheid van CD-ROMs: constant angular velocity (CAV) • Definitie: de rotatiesnelheid blijft constant. De lineaire snelheid (en dus ook transfer rate) zal variëren afhankelijk van welke sector men leest: hoe verder naar de buitenzijde van de CD, hoe hoger de snelheid. • Voordelen tegenover CLV: – Lagere access time bij random toegang aangezien geen abrupte snelheidswisselingen meer nodig zijn – Lagere rotational delay en hogere transfer rates voor de buitense sectors
• Voorbeeld voor een 48-speed CAV CD-ROM drive: – Constante rotatiesnelheid: 12000 rpm – Data tranfer rate (op de buitenste sectors): 7,2 MBps
38
Evaluatie van CD-ROMs • Voordelen: – – – –
"Grote" opslagcapaciteit Het medium is goedkoop en zeer duurzaam Verwisselbare schijven ! Zeer eenvoudig te repliceren
• Nadelen: – Hogere toegangstijden (70 - 200 msec), lagere rotational speeds, lagere transfer rates dan hard disks – Read-only (vroeger !)
CD-R • Formaat en werking: cfr. gewone CD-ROM. • Een CD-R is een voorbeeld van een phase-change WORM: een bit wordt voorgesteld door een materiaal dat een fase-verandering kan ondergaan, waarbij het overgaat van kristallijne naar amorfe toestand. • Net als bij een gewone CD-ROM wordt het oppervlak van de CD afgetast door een laser. In kristallijne toestand vormt het materiaal een goede lichtreflector, in amorfe toestand niet. • De toestandsverandering is onomkeerbaar: een CD-R kans dus éénmaal beschreven worden en daarna onbeperkt gelezen. • Een CD-R kan in elke CD-ROM speler gelezen worden en wordt beschreven in een speciale CD-writer.
39
CD-RW • Een CD-RW is een erasable optical disk. • Zelfde principe als CD-R, maar de toestandverandering is nu wel omkeerbaar. Daardoor kan een CD-RW quasionbeperkt beschreven, gelezen en weer overschreven worden. • Een CD-RW kan in alle recentere CD-ROM spelers gelezen worden en wordt beschreven in een speciale CDwriter.
DVD (Digital Versatile Disk) • Zelfde uitzicht als CD: een ronde schijf met een diameter van 120 mm • Oorspronkelijk: opslagmedium én bestandsformaat voor digitale video • Het medium kan echter ook gebruikt worden voor algemene data storage • Grotere opslagcapaciteit dan CD: – Grotere dichtheid: 4,7 GB per layer – Dubbelzijdig – 2 layers per zijde
• Capaciteit: – Single layer: 4,7 of 9,4 MB – Double layer: 8,5 of 17 MB
• Date transfer rate voor 1-Speed DVD-ROM: 1250 KBps
40
DVD-R, DVD-RAM, DVD-RW en DVD+RW • 4,7 GB opslagcapaciteit op single-sided disk • DVD-R: Zelfde principe als CD-R • DVD-RAM, DVD-RW en DVD+RW: zelfde principe als CD-RW Momenteel: het grootste probleem is compatibiliteit !!!
Overige opslagtechnologieën • Flash memory: niet-volatiel halfgeleidergeheugen dat kan beschreven, gewist en opnieuw beschreven worden • Magneto-optical disks • Toekomst: holographic optical storage ???
41
Besluit i.v.m. storage devices • On-line systemen: in de toekomst misschien ook optische technologieën of systemen gebaseerd op niet-volatiel halfgeleidergeheugen, maar voor de komende jaren: magnetische schijven. • Archivering: tape, nu meer en meer ook CD-R, eventueel in de toekomst DVD-R
Storage device structures
• Recente ontwikkelingen: DASD's als bottleneck • Disk arrays en RAID • Enterprise storage subsystems: – Technologieën: SCSI, Fibre Channel, Ethernet,… – Architecturen: DAS, SAN, NAS, … – Functionaliteit
42
Recente ontwikkelingen op gebied van DASD-technologie • Schijventechnologie evolueert voortdurend: – Schijvencapaciteiten van top-schijven verdubbelen om de 18 maanden. – Het magische cijfer 1 MB kost $ 1 komt binnen bereik.
• Ondanks alle vooruitgang op het vlak van schijventechnologie blijft het zo dat, wanneer de huidige trends zich doorzetten, de "performance gap" tussen processoren en schijven groter dreigt te worden.
DASD's als bottleneck • DASD's zijn traag in vergelijking met halfgeleidergeheugen, CPU en high-speed netwerk. • Een proces is disk-bound wanneer CPU of netwerk moeten wachten op disk I/O. De uitvoeringstijd van het proces is "gebonden" aan disk toegang. • Mogelijke oplossingen: – – – –
Multi-tasking: de CPU "switcht" tussen verschillende processen Command reordering Disk caching Disk arrays en parallellisme: gebruik van meerdere disks voor verschillende delen van een bestand disk striping, RAID – Opslagnetwerken (SAN, NAS, …)
43
Disk arrays Disk arrays organiseren meerdere onafhankelijke schijven in één zeer grote en erg performante logische schijf. – Ze verdelen de gegevens over meerdere schijven, waarop naderhand de gegevens in parallel kunnen worden teruggezocht, wat tot een sterk verbeterde performantie leidt. – Daar tegenover staat echter dat disk arrays met vele schijven veel kwetsbaarder zijn voor het optreden van allerlei stoornissen. Vandaar het idee om bepaalde redundantie (in de vorm van error correcting codes) in te bouwen zodat een hoge performantie toch kan worden gekoppeld aan een hoge betrouwbaarheid.
Disk arrays (vervolg) • Enkele afkortingen: – SLED: Single Large Expensive Disk – JBOD: Just a Bunch Of Disks – RAID: Redundant Array of Independend Disks
• Technieken: – Data striping: onderdelen ("strips") van een bestand worden overheen meerdere disks verdeeld (bit level, block level), zodat deze in parallel kunnen gelezen of geschreven worden. Met n disks, gaat bit/block i van een bestand naar disk (i mod n) + 1. – Redundancy: "overtollige" gegevens worden bijgehouden om de betrouwbaarheid te verhogen. – Disk mirroring: elke disk heeft een dubbel, een "mirror" met exact dezelfde data.
44
RAID • "Redundant arrays of independent disks". • Technologie die groepen standaard hard drives linkt aan een gespecialiseerde microcontroller. Deze coördineert de drives zodat ze overkomen als één enkele logische drive. • Deze technologie gebruikt twee concepten: – Data striping: voor het verbeteren van de performantie – Redundancy: voor het verhogen van de betrouwbaarheid
• Er bestaat 7 RAID levels, die elk een specifieke combinatie van performantie en betrouwbaarheid aanbieden.
RAID Level
Beschrijving
Fault tolerance
Performantie
0
Data striping, blockoriented
Geen foutcorrectie
Betere lees- en schrijf-performantie dankzij overlaps
1
Disk mirroring
Foutcorrectie dankzij duplicatie
Betere lees-performantie: alternatieve drive aanspreken als eerste bezet is
2
Data striping, bitinterleaved, met aparte checksum disk
Foutcorrectie dankzij checksum
Snel lezen dankzij parallellisme Traag schrijven: berekenen van checksum + checksum drive moet aangesproken worden voor elke write
3
Data striping, bitinterleaved, met pariteitsbit op aparte parity disk
Foutcorrectie dankzij pariteitsbit
Snel lezen dankzij parallellisme Traag schrijven: minder overhead dan RAID 2, maar simultane writes concurreren voor parity disk. Goede performantie bij grote, aaneensluitende transfers.
4
Data striping, blockinterleaved, met pariteitsbit op aparte parity disk
Foutcorrectie dankzij pariteitsbit
Trager lezen wegens gebrek aan bytelevel parallellisme, maar: onafhankelijkheid van drives ! Traag schrijven: zie RAID3.
5
Data striping, blockinterleaved, met distributed parity
Foutcorrectie dankzij pariteit
Lezen: zie RAID 4 Minder traag schrijven: geen parity drive als bottleneck.
45
Illustratie van RAID levels RAID 0 Striping D H L P
B F J N
C G K O
A B C D
E F G H
A0 B0 C0 D0
A1 B1 C1 D1
A2 B2 C2 D2
A3 B3 C3 D3
A par B par C par D par
A0 A1 A2 A3 4 par
B0 B1 B2 3 par B4
C0 C1 2 par C3 C4
D0 1 par D2 D3 D4
0 par E1 E2 E3 E4
A E I M RAID 1 Mirroring A B C D
=
=
RAID 3 Striping (separate parity disk)
RAID 5 Striping (parity mixed with data) Parity generation
E F G H Parity generation
De RAID-controller • "Dedicated" stuk hardware met als taken: – – – –
Genereren en controleren van pariteitsbits Uitvoeren van striping Caching Drive management
• Bestaat uit combinatie van general-purpose microprocessors en application-specific integrated circuits (ASICs)
46
RAID: garanderen van beschikbaarheid door redundantie • Redundantie: – – – – – – – –
Data Power supplies Fans Cache modules Battery backup modules Controllers Adapters Cabling
• Hot swapping • Hot fixing • Dynamic sparing
Enterprise storage subsystems • Vereisten voor opslagsystemen • Definities • Criteria voor classificatie van storage subsystems – Connectiviteit: direct attach vs network attach – Medium: Ethernet, Fibre Channel, SCSI, … – I/O protocol: SCSI, NFS, CIFS, …
• Benaderingen: DAS, SAN, NAS, … • Resource management • Storage Service Providers (SSP)
47
Vereisten voor opslagsystemen • Performantie • Schaalbaarheid – Gegevensvolume – Gebruikersvolume
• • • •
Distributie en locatietransparantie Interoperabiliteit van heterogene systemen Continue beschikbaarheid Beveiliging – Tegen faling van hard- of software – Tegen malafide gebruikers
• Beheersbaarheid
Enterprise storage subsystems • Definitie: een storage subsystem is een onafhankelijk, extern geheel met een zekere mate van "onboard" intelligentie, dat twee of meer opslagdevices omvat. • De systemen zijn meestal via hoge-snelheidsconnecties verbonden aan high-end servers of mainframes, die grote opslagcapaciteit koppelen aan voorzieningen voor snelle data transfer, gewaarborgde beschikbaarheid, bescherming tegen data loss en gesofisticeerde beheerstools. • De systemen zijn modulair uitbreidbaar. • In plaats dat elke host of server zijn eigen storage devices rechtstreeks beheert, biedt een storage subsysteem meer mogelijkheden, zonder bijkomende overhead aan het hostsysteem op te leggen.
48
Enterprise storage subsystems (vervolg) • Deze bijkomende mogelijkheden kunnen zijn: – – – –
Verschillende fysieke devices als één logisch device voorstellen High-availability features, gebaseerd op RAID-technologie Data interchange Het transparant aanbieden van een hiërarchische opslagomgeving
Criteria voor classificatie van storage subsystems • Connectiviteit: hoe processor en opslagdevices fysisch geconnecteerd zijn • Medium: het type bekabeling en bijbehorend (low-level) protocol die in deze connectie voorzien • I/O protocol: hoe I/O requests overheen dit medium gecommuniceerd worden
49
Connectiviteit • Direct attach: een welbepaald opslagdevice is geconnecteerd aan een welbepaalde host. NT server
UNIX server Attached device
Attached device
• Network attach: één of meer hosts zijn verbonden met één of meer opslagdevices. NT server
UNIX server
Mainframe
Shared devices
Medium • SCSI (Small Computer Systems Interface): standaard om randapparaten aan een host te connecteren ("parallel SCSI") én om I/O commando's te specificeren (zie later). Oorspronkelijk vrij traag, een tiental MBps. Recent tot 160 MBps. Nadeel: beperkt in afstand (maximum 25 m). • Ethernet: oorspronkelijk ontwikkeld als medium en protocol voor Local Area Networks (LAN's). Typische bandbreedtes: 1 MBps, 10 MBps, recent tot 100 MBps. • Fibre Channel (FC): vrij recente technologie, ontwikkeld om servers en storage systems met elkaar te connecteren. Oorspronkelijk gebaseerd op glasvezel optische kabel, tegenwoordig ook over koperdraad. Bandbreedte: 100-400 MBps. • Toekomst: Infiniband ???
50
Fibre Channel topologieën • Point-to-point: – bv.: een FC disk array die rechtstreeks verbonden is aan een host.
• Fibre Channel Arbitrated Loop (FC-AL): – Elk knooppunt functioneert als een repeater voor alle knooppunten verderop in de loop. – Nadeel: als één knooppunt uitvalt, valt de gehele loop uit. Oplossing: automatische port-bypass functie van de hub. Vrij moeilijk schaalbaar: bandbreedte wordt door alle devices gedeeld. – Indien volledige redundantie vereist is, worden twee volledig onafhankelijke loops gebruikt. Alle devices zijn op elk van beide aangesloten.
• Switched Fibre Channel ("Switched Fabric") – Aantal devices: theoretisch gezien miljoenen – Tussen elke server en elk storage device kan nu een connectie overheen de gehele bandbreedte opgezet worden. – Nadeel: FC switches zijn (op dit ogenblik nog) erg duur.
I/O procotol • SCSI (Small Computer Systems Interface): meest gebruikte protocol voor midrange systemen. SCSI is een block-level protocol (block I/O): de commando's zijn gedefinieerd op het niveau van individuele blocks of sectors. Oorspronkelijk konden SCSI I/O commando's enkel via parallel SCSI worden doorgestuurd, maar nu kunnen ook andere media gebruikt worden, zoals Fibre Channel en Ethernet. • NFS (Network File System): is een file-level protocol (file I/O) voor het aanspreken en sharen van data. Het protocol is deviceonafhankelijk, aangezien het werkt op bestandsniveau, eerder dan op block-niveau: de locatie van de gegevens op het device hoeft niet gekend te zijn. • CIFS (Common Internet File System): gelijkaardige eigenschappen als NFS. CIFS vindt echter zijn oorsprong in Windows NT, NFS in UNIX.
51
Enterprise storage subsystems: mogelijke architecturen • • • • •
DAS (Directly Attached Storage) SAN (Storage Area Network) NAS (Network Attached Storage) NAS gateway iSCSI / Storage over IP (SoIP)
DAS (Directly Attached Storage) • De opslagdevices (disk of tape) zijn rechtstreeks verbonden met een bepaalde server of host. I/O requests spreken rechtstreeks deze devices aan. • Eender welk medium kan gebruikt worden: – SCSI – (point-to-point) Fibre Channel – Ethernet
• Het I/O protocol is SCSI • Meestal is het opslagdevice slechts aan één server gekoppeld (soms aan twee servers, met het oog op failover).
52
DAS
Network
Network
File server
File server
Users and application servers
Disk
Disk
Disk
DAS
Disk
Disk
DAS
DAS: evaluatie
• Eenvoudig en goedkoop • Geen mogelijkheid tot het "sharen" van ongebruikte diskcapaciteit • Geen centraal beheer mogelijk • Kwetsbaar voor hardware falingen
53
SAN (Storage Area Network) • Gegevensopslag verloopt in een "dedicated" netwerk. • Ook hier spreken I/O requests rechtstreeks de devices aan. Er is nu echter een any-to-any connectie tussen processors en opslagdevices in het netwerk. • Het meest gebruikte medium is Fibre Channel (FC-AL of switched fabric), maar Ethernet-gebaseerde SAN's maken momenteel opgang. • Het I/O protocol is SCSI.
SAN Disk
Network
Fibre channel
File system
Users and application servers
Server
Disk
Disk
Disk
Disk
SAN
54
SAN: evaluatie • Toegang: – Grotere afstand tussen hosts en storage kan overbrugd worden – Grotere beschikbaarheid: meerdere toegangspaden tot de gegevens – Verhoogde performantie (de LAN wordt niet meer belast met I/O, FC is sneller dan de meeste LAN-media) – Een groter aantal (heterogene) hosts kan met hetzelfde storage device gekoppeld worden
• Consolidatie: – Disk en tape pooling – Grote schaalbaarheid – Gecentraliseerd beheer
• Beveiliging: – LAN-free backups – Server-free backups
• Data sharing: – Minder kopieën van bestanden, verbeterde toegankelijkheid van meest recente data, minder kopieeroperaties tussen servers in het netwerk
NAS (Network Attached Storage) • Een NAS device (ook "NAS appliance" genoemd), is een gespecialiseerd device voor file storage en vormt meestal een geïntegreerde combinatie van een processor, een operating systeem en een aantal hard disk drives. • Een NAS device wordt "ingeplugd" in een TCP/IP-gebaseerde LAN of WAN. • De toegang verloopt via een bestandensysteem: het device wordt aangesproken door middel van file-level protocols zoals CIFS of NFS voor file access en file sharing. • File requests worden door de interne processor vertaald naar SCSI block-I/O requests om het juiste device aan te spreken. Dit laaste is enkel zichtbaar voor het NAS-product zelf. • Het device biedt eventueel ook redundante opslagruimte voor recovery en automatische backup. • Vanuit het standpunt van de gebruiker werkt een NAS device exact op dezelfde wijze als een "general-purpose" file server.
55
NAS
Network
Network
File system
File system
Disk
Disk
NAS
NAS
Users and application servers
NAS: evaluatie • Flexibele en vrij goedkope vorm van opslag. • Zeer eenvoudige installatie. • Wanneer een bestaande file-server bijna tot de maximale capaciteit gevuld is, kan een NAS zeer snel geïnstalleerd worden zonder de beschikbaarheid te onderbreken ("plug & play"). • Een NAS device kan als "primary" storage device dienen op een LAN, maar ook als ge-shared backup device. • NAS devices kunnen een "brug" vormen tussen verschillende OSomgevingen: ze bedienen vaak zowel Windows-, Macintosh-, UNIXals Linux clients: "cross platform file sharing". • Ondersteuning voor RAID, backup, error notification, remote administration, …
56
NAS gateway • Een NAS gateway kan men beschouwen als een NAS device zonder de opslageenheden (m.a.w. enkel de processor en het operating systeem). Het NAS device is verbonden met externe opslageenheden, ofwel via DAS ofwel via een SAN. Op dit laatste punt heeft men dus de keuze. • De gateway ontvangt file I/O requests (via een NFS of CIFS protocol) en vertaalt deze naar SCSI block I/O requests om de externe opslageenheden aan te spreken. • Net als een gewoon NAS device wordt een NAS gateway gekoppeld aan een TCP/IP-gebaseerde LAN of WAN.
NAS gateway
Users and application servers
Disk
Network
Network
File system
File system
NAS
NAS
Disk Fibre channel
Disk
Disk
Disk
57
NAS gateway: evaluatie De voordelen van de NAS-benadering worden gecombineerd met: – Grotere keuze aan disk types – Grotere schaalbaarheid – Mogelijkheid om file sharing aan te bieden overheen reeds bestaande disk arrays – Mogelijkheid om file level I/O en block level I/O te combineren in één en dezelfde disk array – Mogelijkheid van hybride NAS/SAN systemen, waarin opslagcapaciteit dynamisch kan gealloceerd worden voor toegang via de NAS gateway of rechtstreeks
iSCSI (IP over SCSI) • Ook wel Storage over IP (SoIP) genoemd. • iSCSI wordt voorgesteld als industrie-standaard om SCSI I/O commando's te versturen over het netwerk met behulp van het TCP/IP protocol. • SCSI I/O commando's worden "verpakt" zodat ze over TCP/IP kunnen doorgestuurd worden. • Kan lopen over Gigabit Ethernet. • iSCSI kan zowel directly attached als network attached worden gebruikt (dus DAS of SAN).
58
Evaluatie van iSCSI •
iSCSI vult een "gat in de markt" door block I/O over TCP/IP aan te bieden: – Net zoals NAS is iSCSI ethernet-gebaseerd. iSCSI biedt echter block-oriented toegang tot de schijven, NAS biedt file-oriented toegang. – Net zoals SAN biedt iSCSI de mogelijkheid tot block-oriented schijventoegang. iSCSI maakt echter gebruik van de reeds wijdverspreide TCP/IP-technologie, in plaats van Fibre Channel.
• • •
IP netwerken zijn gebaseerd op een welbekende technologie: geen risico op incompatibiliteiten, kinderziektes,… iSCSI is goedkoper dan FC SAN omwille van de goedkopere netwerkhardware (en eventueel het hergebruik van reeds aanwezige componenten). iSCSI kan een grotere afstand overbruggen dan een FC-gebaseerde SAN. Nadeel is dan weer dat, bij gelijke bandbreedte, Ethernet (licht) trager is dan Fibre Channel.
Opslag in het netwerk: algemene kenmerken • Uitgangsprincipe: Het opslagsysteem wordt ontkoppeld van het gegevensverwerkende systeem. • De opslag wordt toegankelijk via een (al dan niet apart) netwerk. Opslagdevices zijn niet meer gekoppeld aan één bepaalde server, maar alle servers kunnen beroep doen op het opslagnetwerk, dat fungeert als een "black box". • Doelstellingen: – – – – –
Schaalbare opslagcapaciteit Performantie Duidelijk onderscheid tussen aankoopbeslissingen van servers en opslag Data sharing Mogelijkheid om verschillende soorten gebruikers in verschillende soorten omgevingen te bedienen – High availability
59
Opslag in het netwerk: classificatie Fibre Channel
IP-based media (Ethernet)
Block I/O
FC SAN
iSCSI SAN
File I/O
Niet rechtstreeks voorzien (enkel met behulp van speciale software).
CIFS of NFS via NAS of NAS gateway
DAS, SAN, NAS, NAS gateway en iSCSI: een overzicht Connection
Network
Media
I/O protocol
Bandwith
Capacity sharing
Data sharing
DAS
No
Parallel SCSI, FC, (Ethernet)
SCSI
40–160 MBps, depending on media
Manual or no
No
SAN
Yes
FC (or Ethernet, see iSCSI)
SCSI
100–200 MBps
Yes
Requires specialised software
NAS
Yes
Ethernet
NFS, CIFS
10-100 MBps
Yes
Yes
NAS gateway
Yes
Ethernet
NFS, CIFS
10-100 MBps
Yes
Requires specialised software
iSCSI
Yes
Ethernet
SCSI
10-100 MBps
Yes
Requires specialised software
60
SAN versus NAS •
•
• • •
SAN producten Gebruiken een "dedicated" highspeed netwerk om storage devices met servers te verbinden. Zijn toegankelijk via een blocklevel protocol. Het eigenlijke filesysteem bevindt zich op de applicatieserver. Individuele clients spreken de data op de SAN dan aan via de applicatieserver. Sharing van data blocks en volumes. Komt (voorlopig) best tot zijn recht in homogene OS-omgevingen. Ideaal bij OLTP-toepassingen met een hoog aantal I/O-opdrachten, waarbij een korte antwoordtijd vaak kritisch is.
•
NAS producten Connecteren aan het gewone LANnetwerk.
•
Zijn toegankelijk via een filesysteem.
•
Sharing van files.
•
Komt net vooral tot zijn recht in heterogene OS-omgevingen. Ideaal voor file sharing en om gemeenschappelijke data-toegang mogelijk te maken vanuit verschillende OS-platformen.
•
Software voor het beheer van opslagnetwerken: drie niveaus • Device managers: aansturen van individuele devices • Storage management software: hogere-niveau diensten aanbieden, waarvan zowel andere diensten als storage application software kunnen gebruik maken • Storage application software: gebruiksvriendelijke toepassingen waarmee de opslag- (en eventueel netwerk-) beheerders interageren
61
Storage management software • • • • • • • • •
Monitoring services Locking services Data replication services Failover mechanismen Vertalen van protocollen Afdwingen van toegangsrechten Volumemanagement Hierarchical storage management Management Information Base (MIB)
Storage application software • Applicaties voor netwerkbeheer – Overzicht van netwerktopologie – (Netwerk-)capaciteitsbeheer – Failover management
• Applicaties voor zuiver opslagbeheer – Volumebeheer: • Vastleggen van fysieke schijven die deel uitmaken van een volume • Vastleggen van RAID-configuratie • Toewijzen van volumes aan applicaties en toekennen van toegangsrechten
– Backup en recovery: • • • •
Frequentie en tijdstip Gebruikte opslagmedia Type backup (full backup, incremental backup, …) Bepalen wie backup initieert en coördineert: server of intelligent device ("serverless backup")
– "Dagelijks" onderhoud, in de mate van het mogelijke: autotuning ! • • • •
Data migration en data copy Analysis Load balancing Failover
62
Wat brengt de toekomst ? • Snellere media: 200 MBps FC en snellere Ethernet • "Open" SAN's met gestandaardiseerde beheerssoftware • Integratie en uitbreiding van software-ondersteuning: – – – – – – –
Definitie van service-levels om Quality of Service (QoS) te garanderen Billing Autotuning Advanced problem solving Proactief opslagbeheer Integratie met DBMS-en Ondersteuning voor meerdere besturingssystemen
• Intelligente devices, bv. voor server-less backup • Convergentie van NAS, SAN en iSCSI: – NAS devices op "storage-dedicated" LAN's – NAS gateways verhullen back-end Fibre Channel SAN's – SAN's over Ethernet (net zoals NAS), dankzij iSCSI
• Outsourcing van opslagbeheer: E-storage
Data processing & communication function Model van de karakteristieken volgens dewelke opgeslagen gegevens gebruikt zullen worden: – Groepsgewijze sequentiële verwerking (batch processing) versus on-line interactieve verwerking (transaction processing) – Verwachte aard van de toegangspaden tot de gegevens en (relatieve) frequentie van gebruik van deze toegangspaden – Verwachte verhouding tussen raadplegen van de gegevens en updaten van die gegevens – Indicaties of gegevens vaak in samenhang zullen worden opgevraagd
63
Data processing & communication function (vervolg) – Relatieve frequenties van gebruik van de gegevens in een gedefinieerde verzameling gegevens – De verwachte intensiteit waarmee nieuwe gegevens zullen worden toegevoegd en bestaande gegevens zullen worden geschrapt – De verwachte expansiegraag van de bestanden – De stabiliteit in verband met de aanwezigheid van gegevens in structuurverbanden – De hoeveelheid gegevens (bv. cardinaliteit van tabellen) – De frequentie van voorkomen van waarden (bv. cardinaliteit van kolomwaarden)
Batch processing • Transacties worden gegroepeerd in batches, om te worden verwerkt op een ogenblik dat het computersysteem niet te zwaar belast is. • Er is geen rechtstreekse tussenkomst van de gebruiker. • Master file: semi-permanente set van records. • Transaction file: bevat alle uit te voeren aanpassingen aan de master file: – Toevoegingen (nieuwe master records) – Verwijderingen (transacties waarin master records verwijderd worden) – Wijzigingen (bepaalde attribuutwaarden van bestaande records worden gewijzigd)
• De master file wordt periodiek up-to-date gebracht met de aanpassingen uit de transaction file. Als resultaat wordt een nieuwe master file aangemaakt. • Voordat de transaction file wordt toegepast op de master file, worden alle transacties gesorteerd volgens oplopende primaire sleutel.
64
Transaction processing • Transacties worden in random volgorde doorgevoerd, d.w.z. in de volgorde waarin ze zich aandienen. • De updates gebeuren in real-time, wanneer ze zich aandienen. Dit kan snel genoeg gebeuren om onmiddellijk op het zelfde (gewijzigde) bestand te kunnen werken. • Kan enkel met behulp van DASD opslag. • Voordeel: steeds onmiddellijke toegang tot up-to-date data.
65