När man slänger sig med statistik (eller egentligen data) och ofta kan konstatera att världen och värden är någorlunda normalfördelad kring ett värde, dvs uppvisar en viss symmetrisk klockformad kurva, så är det bra att sluta titta på kartan och även ta hänsyn till verkligheten.
För det första så finns det andra naturligt förekommande fördelningar än normalfördelningen (t ex Poisson-fördelningen som dock är en diskret tidsfördelning). För det andra så finns det inte några negativa värden inom exempelvis priser, löner, befolkning mm, som t ex kan användas för att få fram saker politiskt eller i media. Exempelvis kan man inte ha negativ lön om -5000 i månadslön (eller tja, det kanske finns någon som accepterar att jobba för negativ lön, många egenföretagare gör förvisso detta när de äter upp företagets kapital när man går med förlust). Ett hus kan inte kosta -100 000 kronor. Befolkningen på en ort, kommun, län eller land kan inte vara -10 000 personer.
Fiktiv illustration över medel vs median
tillsammans med en lång svans |
Så även om man har en klockformad kurva runt ett värde, så störs den av att enskilda mätpunkter inte kan vara negativa. Däremot kan de vara väldigt stora. Man får långa svansar på den positiva sidan. Exempelvis kanske en kurva över villapriser för enskilda villor toppar på ett pris om 1 775 000:- SEK och faller sedan i takt med att priset närmar sig noll, med billigaste villan på säg 125 000:- kronor. Men samtidigt kostar den dyraste villan 80 000 000:-.
Dessa långa svansar gör att medelvärden i princip alltid är högre än medianen. Och normalläget är faktiskt medianen och inte medelvärdet.
Detta är det enda man behöver veta när man skall manipulera statistik för att presentera sin egen bild. Är det i ditt egenintresse att visa på så höga värden som möjligt väljer man medelvärdet. Är det i ditt intresse att visa på så låga värden som möjligt väljer man medianen.
Det ger som resultat att Mäklarstatistik inte redovisar median, utan medelvärden på bostadspriser för att ge ett sken av att en villa inte normalt kostar 1 775 000:- (median – siffra från Swedbank) utan kostar 2 139 000:- (medel – siffra från SCB – Mäklarstatistik själva säger 2 276 000:-). Men när Swedbank vill visa hur bra svenskarna har råd med dagens bostadspriser (=hur de har råd med lånen hos Swedbank), så väljer man medianvärdet (i konsekvensens namn använder man korrekt medianinkomsten också).
Exemplen kan göra mer omfattande. När någon vill påskina att svenskarna har höga löner väljer man medelvärdet (dessutom gärna omräknat till heltidslöner även om inte alla jobbar heltid) istället för medianen, se t ex hur skillnaden blir för Stockholm där medelinkomst för alla kommuner alltid är högre än medianen just pga långa svansar.
Man kan tänka sig att facket ser till medianlönen för en yrkesgrupp eller företag, medan arbetsgivarna tittar på medellönen när man skall förhandla om löner, eller för den delen locka till sig personal. VD:ns lön drar ju upp medellönen en del…
Oftast ser man bara medelvärden, då de allra flesta i vårt samhälle tjänar på att överdriva det verkliga priset eller den verkliga lönen etc.
Iaf normalt skall en villa kosta 1 775 000 kronor i Sverige och inte 2 139 000. Det högre värdet beror på långa svansar med priser som inte är relevanta för normala människor.
Detta är även relaterat till svarta svanar, om man t ex använder medianen för att skatta en risk (sannolikhet multiplicerat med skadan), men ignorerar att i den långa svansen kan det finnas ovanliga händelser med enorma konsekvenser. Jämför Fukushima och kärnkraft där förstås förespråkarna beräknar risk utifrån medianskadan och inte medelskadan.
Härmed är denna enkla lektion avslutad. Finns fortsättningskurser för intresserade.
Tillägg: Ett kort exempel på ett histogram över villor till salu i Danderyds kommun. Begärt medianpris är 8 286 kSEK, medelpriset är 10526 kSEK. Av 41 villor till salu är det bara 13 st som är dyrare än medelpriset. Detta säger inget om medelslutpriser för Danderyd, då man kan förmoda att villor för 37 500 kSEK inte säljs lika ofta som billigare villor.
Den feta klumpen i botten (egentligen obebyggda tomter?) lyckas inte dra ner medlet till mediannivå.
50 kommentarer
Med statistik kan man visa mycket. Här är två av mina favoriter:
1. Man har undersökt barn i olika åldrar, och funnit en kraftigt positiv korrelation mellan fotstorlek och läsförmåga.
2. På 70-talet märkte man att vänsterhänta hade en väsentligt lägre medellivslängd än högerhänta.
Något att tänka på.
Och i punkt 1 har vi nästa detalj att uppmärksamma: Korrelation är inte detsamma som orsakssamband. Det finns t ex hyggligt stark korrelation mellan glasskonsumption och antalet drunkningsolyckor, men knappast något orsakssamband
En av mina favoriter är att Sverige skulle vara glesbefolkat. Tittar man på beboeliga områden är det tätbefolkat men genom att ta med Fjällvärlden får man ner medel ganska rejält.
Används när vi pratar vargtäthet i Sverige. I halva landet får det inte finnas varg, men när man pratar om hur många/få vargar det finns i landet envisas vargförespråkare att ta hela landets yta och inte bara de områden där det faktiskt finns eller får finnas varg.
Punkt 1 kan jämföras lite med korrelationen mellan längd och lön. Orsakssambandet kan troligast förklaras med att en grupp korta människor har blivit korta som konsekvens av att de varit allvarligt sjuka under uppväxten. Dessa har även då haft problem med utbildning och övriga uppväxtrelaterade saker. Denna grupp lär sedan när de kommer upp i vuxen ålder dra ner lönen rejält då det finns en del om inte ens kommer ut på arbetsmarknaden. Detta betyder dock inte att den som har varit fullt frisk men ändå är något kort har sämre lön.
Liknande problem med skolgång kan kanske finnas inom gruppen med mindre fötter.
Ville, svaret är enklare. Yngre barn har mindre fötter och har förstås sämre läsförmåga än äldre barn, som också har större fötter. Men korrelationen är med antal år i skolan, inte med storleken på fötterna.
Korrelationen är väl med både storleken på fötterna och även antal år i skolan, medan kausaliteten är med antal år i skolan.
Bara ifall punkt 2 inte är uppenbar: Vid förra sekelskiftet tvingades barn att bli högerhänta i skolan. Så de som dog som vänsterhänta på 70-talet var inte gamla nog att ha upplevt den hårda skolan. Effekten har naturligtvis klingat av vid det här laget.
14:15
Befolkningen kan 5x dubblas i Svealand och Götaland innan det når Tysklands befolkningstäthet. Livsvillkoren är likartade.
Lika ohållbart här som där alltså.
09:56
Med livsvillkor så menar jag klimat, jordmån och tillgång till sötvatten. Befolkningen i Svealand och Götaland kan alltså bli 5 gånger större än idag utan att befolkningstätheten blir större än i Das Vaterland.
Verstehst du?
Nu har jag ju inte statistik-undervisningen i helt färskt minne, men vad heter det värde som normalfördelningen fördelar sig kring? Medianvärdet borde rimligtvis vara högre än detta, eftersom som du säger, verklighetens utfall kan inte vara negativt. I en perfekt modell så är det naturligtvis samma som medianvärdet.
väntevärde
väntevärdet är det teoretiska värde som kan "förvänta" dig att få i medel om du gör många dragningar ur en valfri fördelning. i många texter skrivs det synonymt med medelvärdet för en fördelning, även om detta egentligen inte är helt sant (ty väntevärdet är en teoretisk konstruktion som du i verkligheten oftast inte känner men kan skatta med medelvärdet av ett antal observationer av fördelningen).
det en del hakar upp sig på är att i en symmetrisk fördelning, såsom normalfördelning, rektangelfördelning osv, sammanfaller median och medelvärde. eftersom de flesta implicit gör antagandet att fördelningen för den data de studerar är symmetrisk (t.om. normalfördelad), rätt eller fel, gör att de kanske inte fäster tillräcklig vikt vid andra mått såsom medianen.
för övrigt (allmän kommentar) är det direkt obegåvat att redovisa data som ska fungera som beslutsunderlag (bostadspriser, löner osv) med ett så trubbigt mått som medelvärde och median då de säger absolut ingenting om datans spridning. fram för lite redovisning av fler mått som varians, skevhet osv!
Tack 14:10, du vet vad du skriver om.
14:10, Ännu hellre att helt enkelt visa den skattade täthetsfunktionen grafiskt, det tror jag de flesta kan få ut något av. För att kunna tolka varians, och framförallt skevhet och kurtos behöver man lite mer statistikkunskaper i bakfickan än jag tror gemene man besitter.
@ 14:25, sant.. ibland är det bra att ta av sig fackglasögonen och se de enklare lösningarna 🙂
När det gäller värden så är det inte helt omöjligt med negativt värde. Bortser man från exemplet med egenföretagare som arbetar för negativ lön så kan tillgångar vilka medför vissa skyldigheter som t.ex. fastigheter få negativt värde.
Sen är det ju klart att vissa förväxlar korrelation med orsakssammanhang (direkt eller indirekt). Så även om påståendena är korrekta (ettan inser man ju är korrekt) så är det ju inte bara att dra slutsats hur som helst av detta.
Ja, underhålls- och renoveringsbehovet av ett hus kan vara större än priset för huset. Men det är ju knappast så att någon drar bort ackumulerat renoveringsbehov när de redovisar medelpriser för bostäder.
Jag föreställer mig att när man köper en fastighet där man har ett renoveringsbehov innan man kan använda den som man tänkt sig tar med det i beräkningen. Om huset måste rivas och man behöver bygga ett nytt så har ju den fastigheten mindre värde än en tom tomt.
Sen kan man ju bortsett från fastigsskatt ha åttaganden i form av servitut och saneringsbehov vilket kan göra att kostnaderna för ägandet av fastigheten överstiger den nytta man kan ha av den. Detta gör att det inte förefaller otänkbart att om någon dumpar över det ansvaret på en ny ägare kan behöva betala pengar till nya ägaren för att han skall ta över fastigheten. Sådana fastigheter förmedlas nog inte av vanliga mäklare som tar procent på priset som arvode:)
Förändrar inte poängen i sak. Antalet fastigheter som säljaren är beredd att betala köparen för att ta över lär vara lätt räknade. Samtidigt kan man räkna ihop väldigt många villor till salu till priser på över dubbla medelpriset vilket visar på den assymetriska fördelningen och den långa svansen.
För övrigt så finns det inget som säger att det behöver vara ett visst förhållande mellan medelvärde och median. Det finns ju fördelningar där medelvärdet är högre än medianen, livslängden hos människor skulle kunna vara sådan – det finns extremfall av folk som inte alls blir gammla och drar ner medlet, men motsvarande finns inte bland de som blir så mycket äldre än medellivslängden.
Sen när det gäller bostadspriserna ser jag ingen anledning till att dessa skall ha någon speciell fördelning – isht inte normalfördelad.
Medelvärde är medelvärde och median är median. Vad består "manipulationen" i??
I valet av vilken siffra man presenterar.
Lite starkt att kalla det manipulation. Aningen tendentiöst kanske, och i så fall lite svårt att förstå upprördheten, med tanke på hur pass tendentiös hela bloggen själv är.
Manipulationen är i regel inte av rådata i sig utan ligger snarare i hur data presenteras. Om man bara väljer att visa det data som ter sig fördelaktigt för ens egen hypotes eller ståndpunkt så är man inte objektiv.
Förutsätt att 100 personer alla arbetar. 99 av dessa tjänar 10kr i månaden. 1 person tjänar 1000 kr i månaden. Medelvärdet som i princip alltid visas i statistiska sammanhang och också är det som de flesta väljer att räkna vidare med, blir i det här fallet 19,9:-. I själva verket tjänar ingen av dessa 100 personer 19,9:-/månad, och endast en person tjänar mer än detta – detta till trots så kommer de flesta slå sig för bröstet att medellönerna minsann är just 19,9:-/månad. Medianlönen däremot, är 10:-/månad, och Mode är likaså 10:-/månad (majoriteten av frekvenser).
Vad man kan säga är att fördelningskurvan i detta exempel har grov positiv skevhet, när de allra flesta av statistiska analyser och beräkningar antar att datat är normalfördelat (Medelvärde=Median=Mode). Detta blir problematiskt eftersom slutsatserna blir helt felaktiga.
Statistik över bostadspriserna är ett praktexempel på data ingen i regel har koll på. SCB med flera ger inte hela den objektiva bilden när de visar endast ett medelvärde. Om några väldigt dyra objekt säljs över ett kvartal så kommer medelvärdet att gå upp, trots att det kanske bara rör sig om några få procent av det stora antalet objekt. Om ett större antal dyra objekt säljs under ett kvartal drar dessa alltså upp medelvärdet. Medelvärdet går dessutom även om dessa dyra objekt säljs för ett lägre pris än begärt pris. Även om majoriteten av bostäderna sjunkit i värde och sålts för lägre än utgångspris så hjälper dessa dyrare objekt upp statistiken så att det inte ser så farligt ut.
Därav manipulation. Jag anser det själv vara att manipulera inte data, men budskap och analys av statistik som inte visar hela bilden.
"Om man bara väljer att visa det data som ter sig fördelaktigt för ens egen hypotes eller ståndpunkt så är man inte objektiv."
Då är knappast den här bloggen objektiv i alla fall.
I serien 1,4,5 är medelvärdet lägre än medianen så här har Cornu fel.
Mycket märkligt uttalande om kärnkraft och medianskada. Kan du ge ett konkret exempel på hur förespråkare påtalat medianskadan? (Medianskadan av alla allvarliga kärnolyckor innan Fukushima är … Tjernobyl. Medlet är … också Tjernobyl.)
I LCA-er (livscykelanalyser) så blir det med nödvändighet medelskadan man pratar om eftersom skadan uttrycks i kostnad eller förlorade livsår per TWh.
Något jag har funderat på är om de sista 3 % av löneskillnaden mellan män och kvinnor (när arbetsuppgifter och ålder korrigerats för) beror på kollektivavtalen. Variansen hos män brukar vara större i de flesta undersökningarna (IQ, lön o.s.v). Men med kollektivavtalen så införs endast en minimumgräns för lönen vilket gör att gruppen med högst varians per automatik bör få ett högre medelvärde.
Ett bra exempel på hur mäktig just variansen är kommer från matematikdelen på de Amerikanska SAT testen. Det var ingen större skillnad på väntevärdet (liten fördel män) men om man antog att endast top 10, 5 eller 1 % av populationen (kommer inte ihåg vilken) var lämpliga för högre matematiska studier så skulle mindre än 30 % av alla forskare inom matematik utgöras av kvinnor.
Om man studerar ojämlikhet brukar man tala om 10 delar av befolkningen och sen jämföra hur dessa grupper utvecklats mellan åren samt studera hur grupperna utvecklats i förhållande till andra grupper. Här begås ett annat fel. Då tar man ingen hänsyn till att gruppernas innehåll ändras mellan åren-där studenter är det mest tydliga exemplet.
Liknande misstag lär man få om man tittar på huspriser utifrån dem som är till salu-men inte sålda! Det är ingen som vill köpa rucklet i Danderyd för 90 miljoner ändå finns den med år efter år!
Mycket trevlig läsning. Även om jag matematiskt visste om begreppen så blir man ju ändå lurad i vardagen när det gäller sådant du tar upp. Mycket intressant och liknande inlägg uppskattas.
Bra med en påminnelse om att använda huvudet när man läser data/statistik! En liten (nördig) korrigering vad gäller punkten om svarta svanar är dock att poängen med svarta svanar-konceptet är epistemologisk snarare än statistisk och säger att man inte kan förutse – eller bedöma sannolikheten för – något som aldrig tidigare hänt.* I kärnkraftsexemplet motsvaras detta av att det är omöjligt att förutse nya "oförutsedda" typer av olyckor och felorsaker. Även om man gör en perfekt riskbedömning enligt all existerande kunskap så kan det alltid dyka upp en ny typ av fel. Detta ställer till riktigt mycket problem i komplexa system (många delar och stora ömsesidiga beroenden), exempelvis kärnkraftverk eller det finansiella systemet. Detta är relaterat till tjocka (inte långa) svansar då normalfördelningen tenderar att underskatta sannolikheten för överraskningar, både positiva och negativa.
Jag misstänker att du redan känner till detta och drog till med en förenkling men nördsinnet kunde inte låta bli att säga till. Stort tack för en fantastisk blogg!
*Innan den första svarta svanen var upptäckt så kunde man bedöma sannolikheten för att en svan man träffar på att vara vit som 100%, baserat på tidigare observationer. Efter att man träffat på en svart svan blir sannolikheten lägre. En av de mest kända implikationerna av detta är Poppers slutsats att det inte går att bevisa något utan bara motbevisa.
Inte riktigt rätt. Man skall helst ha i beaktande konfidensnivån i skattningen också. Att uppskatta det till 100% baserat på observationer så har du ingen konfidens i skattningen
Om du har observerat 100 slumpvist utvalda svanar och alla visade sig vara vita så gör man skattningen att t.ex. mer än 97% av svanarna är vita. Detta för att om man antar att 97% var vita så vore det inte helt osannolikt att man får utfallet att 100 av 100 är vita (nämligen 5% chans). Ökar man antalet observationer så får man öka på antagandet om andelen vita svanar för att man inte skall betrakta utfallet som aldeles för osannolikt.
Sen finns det ju andra saker att tänka på. En är ju ifall statistiken verkligen gjorts på en slumpvist urval. Det kan ju finnas olika orsaker till att man får ett vinklat urval.
Som sagt, svarta svanar har med epistemologi att göra snarare än statistik. Om man översätter det mer formellt så skulle ett exempel vara att hela den statistiska populationen (alla, statistiskt men inte epistemologiskt, möjliga utfall) består av vita svanar. Då har du inget konfidensintervall (som skulle kunna vara dina 97%). Med fler observationer närmar man sig denna situation (mindre konfidensintervall). Om man antar att någon observerat alla svanar i den kända världen under hela historien och alla var vita så skulle man ha ett sjukt tight konfidensintervall emot 100%. Sedan upptäcker någon snedseglare Australien, som är fullt av svarta svanar, och vi har en ny situation, dvs en ny population. Rent hypotetiskt skulle någon kunna upptäcka en ny dimension av universum full av svarta svanar så att de vita helt plötsligt utgör någon promille. Det är inget större fel på det du säger (och du har rätt i att jag var otydlig) men poängen är att resonemanget om svarta svanar inte ryms i den klassiska statistiken då det är teoretiskt omöjligt för den att hänsyn till något genuint okänt.
Enklare skulle man kunna säga att om man bara har vita observationer så drar man rätt sällan till med 97% om man inte har någon orsak till att det skulle kunna finnas en varians (ex. att man i en tidigare undersökning observerade svarta svanar, vilket då sänker argumentet). Medel, median, modus och väntevärde (maximum likelihood) kommer dessutom att vara 100%.
Jag vill hävda att en icke-fundamentalististisk och rationell människa bör hålla öppet för att svanar kan ha vilken färg som helst. Den upplevda sannolikheten för olika färg kommer dock att skilja sig mellan olika människor.
I ett tillstånd med avsaknad av kunskap om svanar annat än att dylika existerar, skulle en sådan (a priori) fördelning kunna vara att ge samtliga färger samma sannolikhet.
Får jag kunskap om att svanar är fåglar (och att jag observerat fåglars färger tidigare) så kan jag kombinera denna observation (likelihood) med min tidigare knapphändiga kunskap (prior). Min nya uppdaterade fördelning för svanars färger (posterior) kommer då att vara en kombination av min tidigare kunskap (prior + likelihood = posterior) så att andra fåglars färger får en större sannolikhet, men att övriga färger fortfarande har en sannolikhet skild från noll.
Låt oss säga att jag sedan faktiskt själv observerar svanar (eller på annat sätt får information om dessa) (ytterligare likelihood). Min tidigare kunskap (posterior) kan nu uppdateras med denna kunskap (posterior + likelihood = uppdaterad posterior). Ju mer jag observerat om svanar desta högre kommer förmodligen min sannolikhet för vit att vara (>99%?) och möjligen för svart (0-½%?) men fortfarande kommer övriga färger att ha en sannolikhet skild från noll (om än förmodligen extremt liten). Vi pratar alltså här om sannolikheter, vilket normalt sett är det vi vill, och inte om konfidens/konfidensintervall vilket är något annat än sannolikhet men tyvärr ofta förväxlas med detta.
Det här är ju riktigt roligt! Jag vill dock fortfarande hävda att vi pratar om olika saker och jag rekommenderar läsning av Talebs bok. Det du pratar om är att förbättra sin skattning med hjälp av existerande kunskap. Jag säger att skattningen ändras när det kommer NY kunskap. Innan man upptäckte den första svarta svanen skulle man göra en skattning (ex dina >99%) efteråt skulle skattningen vara lägre. Den högre skattningen skulle alltså visa sig vara fel, men först efteråt. Inom epistemologin pratar man om en faktisk och en observerad verklighet. Den enda verklighet vi känner till är tyvärr den observerade (inklusive kunskap om färgvariation bland fåglar och dess implikationer). Detta pekar ut en viktig begränsning i statistiska metoder (men säger ingenting om något fel i metoderna). Detta har ganska många intressanta implikationer för såväl forskare som investerare. George Soros' investeringsfilosofi (som han nu kallar reflexivitetsteori) bygger exempelvis på detta resonemang (han hade för övrigt Popper som professor på LSE)
Mjo, Value at risk (VaR) och Conditonal value at risk (CVaR) kan vara intressant att ha koll på när man pratar risk.
För övrigt kan vi glädja Cornu med att enligt NyTeknik minskar antalet raketforskare i Sverige. Kollapsen kan inte vara långt borta nu.
Fin statistiklektion.
Just medelvärde har Sam Savage (professor och son till de store L J Savage)skrivit en mycket läsvärd bok om – The Flaw of Averages (Wiley & Sons, 2009)-som kanske kan vara av intresse. Inte minst visar han på ett pedagogiskt och övertygande sätt på de katastrofala följder försöken att reducera genuin osäkerhet till kvantifierbar risk kan få (apropå VaR o d i kommentatorsspåret). En stor del av finanskrisproblematiken går faktiskt attåterföra på de här analytiska misstagen.
Kvantifierbar risk förutsätter att både scenario, shl och utfall är något så när kända. Är utfall och/eller shl ej känt är det annorlunda, lika så ställer scenarier med mycket låg shl men allvarligt utfall till det, i synnerhet när dessa är dåligt representerade i datamaterialet.
Än värre är det för de scenarier vi inte ens vet finns, talas ibland om att "ignorance prevails" varpå diversifiering in blindo/riskspridning etc. blir "bästa respons" (least worst option).
God natt,
Läste nyss på di.se om Gustaf Krantz (om jag kommer ihåg rätt) som gått från ASPO till Sweco. Han kommer tydligen att fokusera på Peak-Oil i sin konsultroll. Detta är mkt bra eftersom "branschen" i sig börjar att ta i problemen själva på ett mer direkt sätt. Hoppas du Cornu kan spinna vidare på detta.
/Enskede
OT. ZH skriver om Sverige för en gångs skull:
http://www.zerohedge.com/news/what-europes-loan-deposit-ratios-look
Bakom en fördom ligger, trots vad många inte vill erkänna, en vetenskaplig statistisk analys.
Fördom = väntevärdet för en tänkt normalfördelad population baserat på medelvärdet av ett slumpmässigt urval av observationer.
Eller är jag ute och cyklar?
Missförståndet är nog mer fundamentalt än villapriserna. Enligt centrala gränsvärdessatsen så går summan av ett antal stokastiska variabler med samma fördelning mot normalfördelningen.
Om du tar exemplet med villorna i Danderyd och antar att fördelningen ser likadan ut i alla kommuner, så kommer summafördelningen (och naturligtvis medelfördelningen som ju bara är summan multiplicerat med en konstant) bli normalfördelad. Med andra ord så kommer fördelningen på riksnivå bli normalfördelad, givet att samplen (dvs kommunpriserna) är oberoeende.
Om det INTE blir det är det något fuffens.
Det du talar om här är alltså situationen där man tar ett slumpvist objekt i varje kommun och adderar hop priserna. Om man är intresserad av en portfölj av slumpvisa objekt, en i varje kommun, så är detta en relevant fördelning. För de flesta på marknaden tror jag dock att det inte är av intresse att betrakta en sån fördelning.
Just det faktum att priset på en bostad inte är en summa av oberoende stokastiska (=slumpvisa då slumpen väljer vilket objekt vi skall titta på) variabler gör att det inte finns någon anledning till att det skulle vara normalfördelat. T.ex. storleken på byggnaden brukar korrelera med tomtstorleken (speciellt måste ju byggnaden ta upp mindre yta än tomten). Standarden på köket brukar hänga ihop med övrig standard (isht brukar man inte ha ett lyxkök i en friggebod). Det räcker inte med att titta på riksnivå för att bryta dessa korrelationer.
För ett större antal år sedan läste jag boken "Hur man ljuger med statistik".
En mycket läsvärd och rolig bok. Visade hur man genom att klippa bort nederdelen av ett diagram får t ex en ökning att se större ut ( numera så vanligt att de flesta inte längre går på denna grej ) och hur man kan trixa med stapeldiagram. Boken hade ett exempel med järnproduktion, där man använt en teckning av en masugn för att representera en stapel.
Men de högre masugnarna var också ritade betydligt fetare, vilket gav ett visuellt intryck av att ökningen var större än den faktiskt var.
Wikipedia ger:
Darrell Huff född 15 juli 1913 i Gowrie, död 27 juni 2001, var en amerikansk författare, mest känd för boken Hur man ljuger med statistik (1957), en omtalad best-seller om statistik, emellanåt också rekommenderad läsning för studerande i ämnet statistik.
Läsartips
Jag undrar vad som händer med det där medelvärdet när de dyra objekten blir tvingade till prutning… Ett medelvärde är ett tveeggat svärd.
"Den feta klumpen i botten (egentligen obebyggda tomter?) lyckas inte dra ner medlet till mediannivå."
För 5 miljoner får du en hyfsad villa i Enebyberg, så det är nog knappast bara obebyggda tomter…