vSphere Healthcheck Gabrie van Zanten – Open Line GabesVirtualWorld.com
OPEN LINE • Gestart in 2002 • 70 Medewerkers • Consultancy: – Architectuur – Ontwerp en implementatie vanuit projectaanpak • Managed Services – Explotatie en beheer – Remote outtasking en housing – Full outsourcing – Op maat dienstverlening volgens Service Level Agreement (SLA) • Twee datacenters
DIENSTEN • Cloud Services – ISP – ICT domein monitoring – Storage on Demand – Backup as a Service met EMC Avamar (Remote Backup)
vSphere Healthcheck Waarom? - Stabiele omgeving - Vroegtijdig signaleren mogelijke problemen - Makkelijker troubleshooten
Hoe houd ik een “healthy” omgeving? • • • •
Ga uit van de defaults DO-CU-MEN-TEER !!!! Beschrijf afwijkingen en het waarom Nieuwe vSphere update? Review je design / afwijkingen. • Geautomatiseerde checks • Maandelijkse healthcheck • Leg resultaten vast, vergelijk met vorige maand
Wat ligt er in Gabes koffer? • • • •
Verzameling PowerShell scripts RVtools van Rob de Veij ( www.robware.net ) VMware Health analyzer appliance (Partners) PowerShell Healtcheck PowerPack – Subset VMware Community PowerPack – Eigen Aanvullingen • Verschillende versies vSphere Client als ThinApp • VMware Resource Guide & Performance Guide • Template Healthcheck doc met theorie
PowerGUI Health Check PowerPack • Download PowerGUI http://powergui.org/ • PowerGUI VMware Libraries – Installeer VMware PowerCLI 4.x – Installeer VMware vSphere Client • Download en importeer PowerPack
PowerGUI Health Check PowerPack • Check op updates • Wijzig PS_TYPE bij aanpassingen • Eigen PowerPack maken
PowerGUI Health Check PowerPack • Verbinding maken met vCenter Server • Clear credentials bij inlog problemen
Check list • • • • • •
CPU Memory Storage VMs Hosts / Network Cluster
CPU checks • %Ready afgelopen uur – VM wacht op CPU toewijzing • 0-4% per vCPU = ok • 5-9% per vCPU = opletten • 10+% per vCPU = onderzoeken • (CPU summation value / (
* 1000)) * 100 = CPU ready %
– Verder onderzoeken via bijv ESXTOP: • %CSTP > 3 vSMP – “Excessive usage of vSMP. Decrease amount of vCPUs for this particular VM. This should lead to increased scheduling opportunities.”
CPU checks • Reservations / Shares / Limits – Veel voorkomend misbruik • Reservation • Shares • Limits – Oorzaken: • Handmatige aanpassingen • Template / Clone • vCenter upgrades
SWAP !!!! LIMIT
Reservation Assigned
CPU checks – Resource Pools !!! • GEEN VM placeholders
CPU checks – Lees: • VMware vSphere 4.1 HA and DRS • VMware vSphere 5 Clustering • Duncan Epping / Frank Denneman
CPU checks • Checks: – vCPU * 1000 = normal CPU shares – GB RAM * 10 = normal RAM shares – CPU / Memory reservation op 0 – CPU / Memory limit op unlimited • Documenteer afwijkingen • In “action pane” correctie scripts
CPU checks • Verschil PowerShell en VI Client !
CPU checks CPU Affinity settings - Gemaakte fout bij Citrix XenApp op vSphere - XenApp: - geen CPU overcommit (1 vCPU = 1 LCPU) - Geen CPU affinity Aantal vCPUs per host • Rule of thumb: – 6 vCPUs per core (Server VM) – 10 vCPUs per core (VDI VM)
Memory checks • Ballooning en Swapping – Ballooning eerste waarschuwing – Active swapfile – Check host RAM usage & VM limits • Memory overcomit en Memory overcomit – Artikel op GabesVirtualWorld: • “Memory overcommit in production? YES YES YES”
– Geen reboot maar shutdown om swap te clearen
Storage checks • Datastore info – Check op vrije ruimte – Alarm % vrije ruimte onbruikbaar • 10% vrij van 2TB = 205GB • 10% vrij van 500GB = 50GB – GB beter werkbaar – Datastores in folders – Per folder ander alarm %
Storage checks • Orphaned VMDK files – Verborgen storage vreters – Negeer CTK files (Changed Block Tracking) – Dubbel check voor verwijdering (VMSD) – Opletten VMs niet binnen vCenter • Bijv: apart Oracle cluster, CBT files
Storage checks • Waste finder geeft inzicht verloren diskruimte in VMs • Alleen Powered ON & Windows – Capacity datastore / FreeSpaceMB datastore – Capacity per VMDK / FreeSpace per VMDK – Reclaim = Cap – (Used / .8 ) – The script is based off the formulas in Quest vOptimizer. The reclaim value of .8 is stating that if I recover storage or resize disk, I still want 20% free space for growth. This value in the report states how much you can reclaim and still maintain 20% free.
Storage checks • Actieve Snapshots – Achtergebleven van VMDK backups • Consolidated helper snapshot • Kan VSS issue zijn bij backup – Flinke performance impact • Op high I/O systemen soms 50% verlies – Vollopen datastore en freeze van de VM • Enorme groei door defragtools –Change Block Tracking invloed – Opletten met verwijderen grote snapshots
Storage checks • Tip: Dagelijks Snapshot script schedulen – Mail overzicht – Afspraken maken • Max 3 dagen actief • AdminID / UserID in snapshot naam • Reden in omschrijving, vermeld klant contact
Storage checks • Datastore blocksizes • Kopieren langzaam verschillende blocksizes • Na VMFS3 naar VMFS5 upgrade: – blocksize van 2,4,8MB op VMFS5 ipv 1MB – Blijft 64K subblock. Block Size
VMFS2
VMFS3
VMFS5
1MB
456GB
256GB
2TB-512B
2MB
912GB
512GB
2TB-512B *
4MB
1.78TB
1TB
2TB-512B *
8MB
2TB
2TB – 512B
2TB-512B *
16MB
2TB
Invalid
Invalid
Upgrade VMFS3 naar VMFS5 • Upgrade naar VMFS 5 kan met draaiende VMs • Overeenkomst upgrade & Clean format – 64TB datastore limiet – 64TB passthrough RDM – Max VMDK size 2TB – 512B
• Verschil clean format vs upgrade – Oude blocksize blijft (1,2,4,8MB), geen VAAI tussen verschillende blocksizes – Blijft 64K subblock ipv 8K – Limiet 30.720 files ipv >100.000 – Alignment blijft op sector 128 ipv 2048
Virtual Machine checks • Quick-wins – Connected CD-roms • VMotion warnings – Connected floppy drives • VMs met out of date tools • VMs met oude Virtual Hardware Levels – Nieuwe functies – Hoger, verder, sneller – Bij upgrade denk aan vmupgradehelper.exe • Nic settings en Mac changes
Virtual Machine checks • VMs inconsistente foldernaam – Vooral tijdens troubleshooten • VM time sync – Wel / Niet via VMware Tools? – Alle VMs op zelfde wijze – Voorkom time-sync loop: –ESXi krijgt tijd van DC (PDC Emulator) –DC zonder externe source –DC pakt tijd van ESXi bij boot (BIOS tijd) –Per host tijd verschil –Active Directory problemen
Host checks • NTP settings – Zelfde NTP servers – Zelfde time zone • Bij log troubleshooting denk aan tijdverschil !!! – Check op current time
Host checks • Check op vrije poorten per vSwitch – Schatting max VM-nics per vSwitch – Na VMotion disconnect – Aanpassing vereist reboot
Host checks • Security check – SSH disabled (ook duidelijk in GUI) – TechSupport mode disabled – Root password reset / renew • Check of complexity hoog genoeg is • Is root login disabled (handmatig) – En natuurlijk gelijke build nummers
Host checks • ESXi specifieke settings – Logfile locatie • Advies om remote syslog te gebruiken • grep vmkernel messages – Dump file locatie (handmatige controle) • Zie: GabesVirtualWorld “Setting logfile location, swap file, SNMP and vmkcore partition in ESXi”
– Scratch file locatie • Configured- & CurrentScratchLocation • Reboot nodig
Host checks • Path policies – Check VMware HCL voor storagetype – Storage Array Type Plugin (SATP) – Path Selection Plug-in (PSP) • MRU • Fixed Path • Round Robin – DOCUMENTEER! – Bij MRU check vooral na reconnect van path – esxcli nmp satp setdefaultpsp –psp VMW_PSP_RR –satp VMW_SATP_SYMM (voorbeeld)
vCenter checks • vCenter logging level – Default 1, veel gebruikt 2 – Level 3 en 4 vooral voor troubleshooting – Vaak ook vergeten na troubleshooting • Number of DRS migrations last x days – Unbalanced cluster – Te veel kan duiden op resource te kort – Moeilijk te moven VMs – Zuinig met VM affinity rules
VMware HA • Check VMware HA settings – Host failure =1 of 25% ? • VM blocks, vaak ongunstig – Isolation Response • Shutdown, nothing, Leave Powered On • Documenteer beslissing! – Redundant Service console portgroup – vSphere 4: • das.isolationaddress & das.isolationaddress2 • das.failuredetectiontime setting to >20000ms
VMware DRS • Where is Waldo? (vCenter VM) • vCenter DRS host affinity rule – vCenter / SQL / 1 DC op eerste host in cluster – “Should run” rule! • Metro Cluster host affinity rule – Hou VMs bij dichtstbijzijnde storage • “obvious” DRS rules – DC’s uit elkaar
Handmatige checks • Disk aligment van VMs • vDisk Informer – virtualizeplanet.com by Ricky El-Qasem • UBERalign appliance – Nickapedia.com by Nicholas Weaver – BACKUP !!!! Eigen risico !!!
Alles OK?
vSphere Healthcheck Gabrie van Zanten – Open Line GabesVirtualWorld.com