När man slänger sig med statistik (eller egentligen data) och ofta kan konstatera att världen och värden är någorlunda normalfördelad kring ett värde, dvs uppvisar en viss symmetrisk klockformad kurva, så är det bra att sluta titta på kartan och även ta hänsyn till verkligheten.
Latest in statistik
Nu undrar väl alla vänner av ordning över min rubrik och om jag snubblat och slagit i huvudet, men det handlar i själva verket om att Världsbanken har öppnat upp sin statistikdatabas, och den finns nu tillgänglig gratis på data.worldbank.org
Tydligen har vi envis lobbying från Hans Rosling att tacka för detta, efter att han gått från argumentation till att skälla och till sist att ironisera över Världsbankens slutenhet då det väl tog skruv.
Så nej, jag har inte blivit galen och sällat mig till Rosling, men han får iaf lite cred för att öppnat upp en gammal dinosaurieinstitution.
Nu återstår bara att svenska myndigheter också öppnar upp alla skattebetalda databaser fritt på Internet, och det inkluderar SMHI som ju blivit omkörda av t ex norska Yr och Metereologiskt Institutt som fritt ger ut sitt data på Internet, vilket bland annat gett upphov till den SMHI överlägsna sajten vackertvader.se.
Världsbankens data-sajt är faktiskt riktigt, riktigt bra. Synd bara att det inte finns aktuella data för 2009 än, men gratis är gott.
Återstår nu att se hur jag kan missbruka datat till att visa något negativt, kanske att oljelandet Qatar har en befolkningstillväxt på 11% om året? En bedrift i sig, snacka om fertilitet. Fast det beror rimligtvis på arbetskraftsimport.
Statistik är bedrägligt. Inte bara går det att vrida och vända på hur man presenterar den, sättet den samlas in på och hur olika saker definieras kan också ändras.
Eller så gör man bara helt enkelt fel.
Som Statistiska Centralbyrån gör i sina Excelark.
SCB råkade för 2006 och 2007 registrera både marknadsvärdet (=marknadsmässig förmögenhet) och taxeringsvärdet (taxerad förmögenhet) hos både säljare och köpare av fastigheter under dessa åren. Det här ledde till att enligt förmögenhetsstatistiken så var svenska folket 500 miljarder SEK rikare än de egentligen var. 55 000:- per person…
Kort sagt så kan ni bortse från de grafer jag gjort över svenska folkets förmögenheter här på bloggen.
För sedan 2006 respektive 2007 har inte SCB längre gjort några sammanställningar av dessa, pga borttagandet av förmögenhetsskatten. Däremot går det att titta på hushållens finansiella sparande, men det inkluderar inte fastigheter.
Numera står det “korrigerad 2010-03-22” på all data för förmögenhet.
Tack för det, SCB.
Nu har jag att göra om ett antal gamla inlägg. Återstår t ex att se om Älvkarleby fortfarande är den kommun med högst medel för riktigt rika, eller om dessa råkade sälja någon fastighet det året, och alltså både fick tillgodräkna sig pengarna för försäljningen plus värdet på fastigheten.
Men det slutar inte där. SCB har också räknat fel på kommunernas ekonomi. Rena Grekland det här alltså, förutom tidigare felräkningar av inflationen. Och man överskattade även handelns siffror så sent som i januari.
Kan man lita på SCB ställer sig journalisterna frågan, och SCB svarar “självklart“.
Nja.
Börserna tjurrusar (nåja, Svenska börsen stiger i skrivande stund ca 1%, medan det är ner i USA) på amerikansk statistik om att den amerikanska detaljhandeln ökade med 0.3% mot månaden före.
Men det är en missvisande siffra.
För det första så är det i nominella priser, dvs utan hänsyn till inflationen.
För det andra baserar sig siffran på enkätundersökningar hos överlevande handlare. De som gått i konkurs och vars handel alltså faller med 100% svarar förstås inte på några enkäter. Om 0.2% av amerikanska handlare har gått i konkurs, dvs en på 500 affärer, så kommer omsättningen för övriga att stiga med 0.2%, allt annat lika.
Samtidigt är KPI-inflationen +2.63% i USA på helåret, eller om man så vill i snitt drygt 0.2% per månad.
Vips så har i själva verket handeln minskat och kan förklaras av att handlare gått i konkurs, samt att inflationen drar upp priserna.
Svenska SCB är som bekant inte mycket bättre. Det centrala är att statistik hela tiden revideras i takt med att leverantörerna upptäcker gamla fel.
Andra roliga formuleringar är att EU tydligen tycker att Greklands reduktion av sitt framtida underskott från drygt 12% till drygt 8% är tillräckligt, trots att det alltså innebär att statsskulden fortsätter öka över de stipulerade maximala 60% för ett EMU-land, och underskottet maximalt får vara 3%.
Så minst ytterligare två lika tuffa sparprogram krävs för Greklands del. Vad tror ni Grekerna säger då, när skulderna skall betalas? Redan nu utlyser man generalstrejk och har demonstrationer och kravaller mot tanken att sänka underskottet till 8% och alltså fortsätta leva på lånade pengar…
Men det viktiga är att kunna lura finansmarknaderna tillfälligt. En del är mer lättlurade än andra.
Det kom en liten kommentar till gårdagens inlägg om faror med visuell data mining, som jag återger med kommentatorns medgivande nedan.
Repliken är insiktfull, påläst och intressant, speciellt som den kommer från Dr Christoffer Ahlberg, innovatör, grundare och fd VD för bolaget Spotfire, och den entreprenör som fick bolaget sålt för 195 miljoner USD till Tibco 2007.
Nu kanske inte alla hänger med på detaljerna här, men för de av er som gör det så är repliken läsvärd. SAS är inte flygbolaget, utan SAS Instititutes programvara för statistisk analys, den matematiskt statistiska världens motsvarighet till Microsoft Office, fast med en licens som kostar sexsiffrigt. Gör allt, kan allt, och är väldigt speciellt. R är ett annat programspråk och mjukvarumiljö för statistik, open source, till skillnad mot S och S-PLUS, som utvecklats av just Tibco, som köpte Spotfire. Namnet R är förstås ett skämt, “R comes before S”.
Nu följer iaf Ahlbergs replik.
“Eftersom du kritiserar Spotfire så måste jag ju besvara 🙂
Jag presenterade Spotfire 1996 på American Statistical Association’s conference i Chicago, inbjuden av riktigt duktiga statistiker (med bakgrund mot min egen bakgrund som user interface designer).
Jag började med att säga “… also – I think it’s quite likely that a few of you will protest when I show a scatterplot and say ‘here’s an outlier’ – and say ‘hey you can’t say that since you’re only looking at a plot and further, you never made any hypothesis about that being an outlier…”
Vilket givetvis några gamla surgubbar gjorde 🙂 Protesterade mot det mesta.
Mitt svar är det samma nu som då: mänsklig erfarenhet (hjärnan!) har alla möjliga kognitiva/perceptualla bra sätt att generera hypoteser om vad som är outliers – som i många fall slår strikt hypotes/experiment approach. Självklart spelar båda en viktig roll – men den gamla approachen räcker inte.
Efter presentationen spenderade jag tid med en ny vän, Mark Johnson från Pharmacia – absolut superduktig statistiker som skrattade åt dem, och sade
– They want job security (be the only ones who can answer questions)
– They’d rather have people come to them and ask to run “count()’ functions in SAS than engage in real problem solving (again, job security)
– The clever statistican realizes that if he ENABLES other/any people to ask questions he’ll increase the change that the *right* question is asked, and he’ll also have a more fun job
Jag är “all for statistical rigour” – man kan lura sig på 1,000 sätt annars – MEN
– Programvaror som Spotfire, Qliktech, GapMinder, Panopticon (hej Sverige!) eller Tableau, eller till och med grafer i R (även ifall det är oanvändbart för 99.9999% av befolkningen) ser till att fler ställer frågor. Detta är det viktiga.
– Statistiker som söker jobbsäkerhet är på uttöende. Åk på en SAS användarkonferens och bara observera dem visuellt…
– Den smarte statistikern försöker engagera sina användare och använda moderna verktyg och provocera/engagera sin publik till att ställa frågor.
Hans Rossling har gjort mer för detta än i princip vilken annan statistiker som helst. Surt va?
BTW riktigt intressant att observera är läkemedelsindustrin där gammal approach till data och analys i princip har fått den att gå 100% i stå. Kolla på hur många nya läkemedel Pfizer har genererat i en strikt linjär data analys approach.”
Christoffer Ahlberg är idag VD och medgrundare (tillsammans med bla Staffan Truvé och Erik Wistrand, som var medgrundare av Spotfire om jag minns rätt) för det något mystiska Boston- och Alingsåsbaserade (?!) Recorded Future, en startup som försöker ge sig på att spå framtiden mha vad som skrivs på Internet om jag uppfattar det hela rätt. Vem försöker inte det? Eller åtminstone kartlägga vad andra tror om framtiden. Google meets Nostradamus. Fast det är nog väldigt orättvist, då Nostradamus är struntprat och bara ett utfall av att människan återigen försöker hitta mönster där sådana inte finns. Trampar väl på några Nostradamus-misstolkares tår där, men det kan jag leva med. Recorded Future ser, baserat på en skärmdump på länken ovan, ut att ägna sig åt mer visualisering, men nu av prognoser.
Ahlberg har poänger ovan, och jag skall inte vara elak mot Spotfire, som bara är ett verktyg, precis som en hammare. Men man kan slå sig på tummen med en hammare, slå in spikar på fel plats eller slå dem snett. Det är inte säkert att det blir något bra hus bara för att man har den där hammaren.
Det är lätt att bli förblindad av estetiken i visualisering av data.
Det finns även andra än Rosling, Ahlberg mfl som utmanar det traditionella sättet att tänka för vetenskapen, t ex Stephen Wolfram, grundare till Wolfram Research som säljer programvaran Mathematica. Han skriver om detta i sin bok A New Kind of Science.
Man kanske kan beskriva det som vetenskap genom (visuella) experiment med data, istället för ett traditionellt matematiskt tillvägagångssätt.
Dynamik istället för stelbenthet. Men med risk för blåa tummar om man inte vet vad man håller på med. Men samtidigt är det genom att utmana gällande konventioner som man gör verkliga framsteg, “great leaps forward”. Kanske har vi fastnat för mycket i traditionalitet, vilket leder till stagnation? Våga utmana sanningar, ibland leder det till genombrott, ibland till undergång.
Man kanske kan säga att om traditionell statistik ställer krav på förståelse för matematiken, så ställer visualiseringsmetoder krav på förståelse för data och hur det hänger ihop.
Annars landar man som exemplet i mitt förra inlägg, att NASDAQ-börsen styrs av smörpriset i Bangladesh.