En möjligt förklaring till de omfattande hårddiskkrascherna hos Polismyndigheten och Västra Götalandsregionen finns nu. Det visar sig att SSD-hårddiskar i HPE:s server- och lagringssystem kraschar efter 2^15 timmar.
Regionens hus i Göteborg. |
En anonym källa uppger till Computer Sweden att detta är den sannolika förklaringen till de ungefär samtidiga diskfelen på datorer från HP hos Västra Götalandsregionen. Även Polismyndigheten har drabbats av omfattande och ganska samtidiga hårddiskkrascher. Polisen ska ha 2500 kraschade datorer och Västra Götalandsregionen 4000. Hur många andra myndigheter och kommuner som i mindre omfattning drabbats (än) är oklart, men HP är rätt vanligt i det offentliga.
Om datorn står på dygnet runt inträffar felet efter ungefär tre år och nio månader.
HPE har gått ut med en firmwaruppdatering och skriver att om kunden inte kör uppdateringen så accepterar kunden risken för kommande fel, i en form av negativ avtalsbildning som inte är laglig kontra åtminstone privatpersoner.
Det förelåg alltså ingen form av cyberangrepp, annat än lagen om offentlig upphandling, där tydligen HP eller någon återförsäljare av HP-produkter prisat in sig som billigast, kombinerat med att någon ägnat ordnat en bugg relaterat till en unsigned integer för er som är kunniga inom lågnivåprogrammering. Man får det man betalar för.
Källor
Computer Sweden computersweden.idg.se/2.2683/1.727160/hpe-serverdiskar-krasch
21 kommentarer
En kort förklaring var siffran 2^15 kommer från: När man lagrar tal avsätter man en viss mängd minne för detta. Vanliga storlekar är multiplar av 8 bitar. En numera ganska liten sådan storlek är 16 bitar. Varje bit kan hålla antingen 1 eller 0, således kan ett 16 bitars tal representera 2^16 olika värden. Vidare kan man då välja om man bara vill ha positiva tal eller både negativa och positiva. Om du väljer det förstnämnda så kan du alltså representera alla tal från 0 till 2^16-1 (unsigned integer). Om du istället väljer det senare så blir skalan från -2^15 till 2^15-1 (signed integer). Om du har en räknare som räknar uppåt, t.ex antalet timmar disken varit i drift så kommer den alltså efter 2^15-1 timmar att anta sitt högsta värde. När du sedan lägger till ett till räknaren så slår den istället runt och disken har nu till synes varit i drift i -2^15 timmar. Gissningsvis får detta någon diagnostisk del av diskens mjukvara att få spel och disken fungerar inte som den ska.
Nu beror det ju helt på vad det är för SSD diskar och vad leverantören har lovat. Mig veterligen finns det diverse kvalitetssteg som gör att tillverkaren kan garantera lite olika livslängd på dem. Det används även olika typer av minnesteknologier. För havererar, det gör även SSD efter ett tag.
Läsvärt:
https://www.backblaze.com/blog/how-reliable-are-ssds/
short, inte int, word!
Nörd.
Ännu mer nörderi så hade Intel samma problem som upptäcktes i september, deras ssd dog efter 1700 h.
https://www.intel.com/content/www/us/en/support/articles/000038720/memory-and-storage/data-center-ssds.html
Eftersom diskar leveras samtidigt så dör hela arrayer på en gång. Säkert många som fått testa sina backuprutiner i det tysta.
Så därför bör man alltid vänta på minst gen 2 i kritiska system för den här typen av buggar t.ex flight avionics som har sitt os på en "säker" ssd…
Boing 787 startas om var 248 dag pga ett liknade mjukvarufel.
https://www.engadget.com/amp/2015/05/01/boeing-787-dreamliner-software-bug/
Ännu mer nörderi: ordlängden är olika för olika system. Det kan vara fel eller rätt att kalla det för ord.
Enligt standarden SMART så lagras tiden i 6 bytes varav 2 används för timmar. Så felet är inte att de använder 2 bytes utan hur det wraparound/omslaget hanteras i deras mjukvara.
Samma sak gäller stort int förstås.
Tur att garantitiden går ut efter 2 år, annars kunde HP fått lite dåligt rykte…
"
HPE har gått ut med en firmwaruppdatering och skriver att om kunden inte kör uppdateringen så accepterar kunden risken för kommande fel, i en form av negativ avtalsbildning som inte är laglig kontra åtminstone privatpersoner"
Det beror ju på hur ursprungliga avtalet ser ut. Kan mycket väl finnas en klausul som ställer krav på kunden.
Jäntemot privatperson funkar det alltså också. Det finns ju inget krav på reklamationsrätt efter 3 år. Tillverkaren kan alltså välja om man vill erbjuda det och även välja villkoren för det.
Datorer och servrar för företag säljs ofta med 4-5 års garanti, och vid en garanti så gäller ju de garantivillkor som köparen accepterat vid köp.
Disktillverkaren verkar för övrigt vara Samsung, sedan är frågan om HPE gjort egen firmware till dessa.
Ursäkta en novis, men startar räkneverket om varje gång datorn stängs av? Eller fortsätter man där man var, om man säger.
Det räknar upp hela tiden sedan kan man filosofera vad drifttid är för ssd jmf snurrdisk.
Driftstid brukar säga ganska lite för mekaniska diskar såväl som SSD eftersom driftsfallen kan vara så olika.
På varenda kontor jag besöker ser jag HP, HP, HP. De har gjort ett gediget jobb att sälja in sig som företaget att ha att göra med när företag ska handla hårdvara. All användarerfarenhet jag har av dem är att de är skit avseende alla kvalitetsfaktorer, supporten skit och ickeexisterande, mycket hårdvaruproblem, uppdateringar som kan bricka din utrustning, höga priser. Sämst på ta mig fan allt. Ändå är varenda IT-upphandlare stenkåta på HP, antagligen för att de serverar allt på ett fat så man kan sitta och såsa.
Nja jag är en vanlig användare och jag tycker HP är pålitligt. Jag jobbar en del med översättningar och andra jobb men jag måste säga att jag är väldigt nöjd med HP. Jag är nu inne på min tredje HP men min andra hade en gammaldags hårddisk som kraschade och den gick inte att laga. Jag är rätt så noga med att undvika alla onödiga program och olika erbjudanden som kommer. Jag stör mig på att AVAST är förinstallerat dock. Förvirrande med utskriftsrutinerna som kan förvirra den mest coola personen. Men jag tror det är samma med andra märken.
På mitt jobb är det Dell Dell och Dell.
Om man vill ha en stabil hemdator i 7-8 år ska man undvika SSD eller är det ett ickeproblem då min disk är avstängd mycket av tiden?
"Det förelåg alltså ingen form av cyberangrepp, annat än lagen om offentlig upphandling"
Bwahahahahaha! Årets formulering! 🙂
Påminner mig om "5200-hour"-buggen mitt Crucial m4 SSD drabbades av 2012.