Jeg er ved at have skudt tom for ideer, i forbindelse med fejlfinding på en af vores servere, og vil derfor spørge ind til gode råd fra HoL panelet!
Jeg har et domæne, hvori der indgår flere fysiske servere, men én server driller mig og har gjort det længe. Fik endelig tiden til at dykke ned i problemet og starte en fejlsøgning, da serveren igennem længere tid har kørt "langsom" og følt sluggish, når man arbejdede på de virtuelle instanser.
Den specifikke model er en ældre en af slagsen: HPE Proliant DL360 Gen 9, som er opsat i RAID 6.
Har andre lignende modeller, som kører med de samme virtuelle instanser, næsten en-til-en, grundet produktions behovet, de kører perfekt.
Nå, startede med at se status fra iLo'en, alt grønt og meldte ingen fejl. Fik opdateret bios til den nyeste og kørt nyeste SSP på, stadig ingen forbedringer.
Sad så og sammenlignede data fra Perfmon fra de servere der drillede vs andre identiske, som kørte som de burde, og der slog det mig, at på de servere som kørte ok, lå Disk Queue Length på 0,05 til 0,16 under brug, men den langsomme server fra ~10,0 og helt op til 50-70,0.
Efter dette blev konstateret, har jeg bl.a prøvet at skifte raid controller + smart batteri, hjælp ikke. Prøvede siden hen at skifte diske over i en anden, fungerende server, stadig uden succes, omend den kører bedre end før.
Ingen visuelle lamper blinker med fejl på disk bay's, iLO melder grøn hele vejen på diskene og raid'et fremstår sundt og uden fejl.
Så... Hvad har i af gode råd og ting jeg evt. kan afprøve? Sidste option jeg har, er at skifte alle diske efter der er taget backup, opbygge raid'et på ny og kører serveren op fra bunden, ville bare se om der var andre muligheder før dette prøves.
Håber der sidder er par erfarne personer, som kan byde ind med lidt råd og vejledning. :)
Mange hilsner!
--
Sidst redigeret 14-10-2022 10:05