Människan har, liksom antagligen de flesta djur, en fantastisk förmåga att hitta mönster i omvärldens brus. Att tidigt kunna ana faror, eller att förstå hur bytesdjur uppför sig eller hur årstiderna handlar allt om mönsterigenkänning. I en för människan naturlig tillvaro, dvs stenålderslivet, så kanske rent av felaktiga analyser var ganska ovanliga. Eller så överlevde man inte en felaktig analys.
Idag omgärdas vi av enorma mängder onaturlig artificiell information, information som filtreras genom alla möjliga filter innan de normalt når oss, eller ibland träffar oss helt utan någon som helst filtrering. Detta utan att vi alls kan särskilja vad som är genuint och vad som är manipulerat.
Inom vetenskapen använder man statistiska metoder för att med vetenskaplig säkerhet (>95% korrekthet) bekräfta att upplevda mönster faktiskt är mönster och inte bara inbillning. Regression är ett exempel på en sådan metod.
För en sak är säker, människans hjärna arbetar på högvarv, och gör allt för att hitta mönster där mönster inte finns. De onaturliga omständigheter vi som moderna människor lever under har inte gjort saken lättare, och vi är bara ett drygt hundratal generationer från stenåldersmänniskan, och har knappast anpassat oss genetiskt till förutsättningarna de senaste hundra åren, än mindre de senaste två decennierna med Internets genombrott.
Så vi söker mönster där mönster inte finns, vare sig vi vill det eller ej. Mycket mer om det här står t ex att läsa om i Fooled by Randomness: The Hidden Role of Chance in Life and in the Markets av Nassim Nicholas Taleb.
Ta nedanstående bild som exempel:
Jag har för att förstärka mönstret ringat in det. De röda prickarna ser helt klart ut att ligga upptill, medan de blå dominerar nertill.
Men detta är ett helt falskt mönster. Ovanstående plot genererade jag mha en slumptalsfunktion i Excel. Punkterna är helt slumpmässigt utplacerade. För att understryka detta så slumpar jag om siffrorna, men behåller tidigare felaktiga mönstermarkering.
Inte riktigt samma mönstermatchning. Istället kommer den mänskliga hjärnan försöka hitta något nytt mönster.
Det ser onekligen ut som att de röda prickarna dominerar längs pilen i mitten, medan blå prickar alltså söker sig bort från denna trend. Men återigen så är det bara mönster i slumpmässigt brus.
Nu skall jag inte kasta sten i glashus, jag själv ägnar mig åt sådan här möjligen felaktig mönsterigenkänning när jag gräver i statistik hos t ex SCB eller Eurostat och lägger ut här på bloggen. Även teknisk analys är en form av mönsterigenkänning, som ibland stämmer, och ibland inte.
Med datorernas intåg så har möjligheten för sk data mining uppstått, där man söker mönster i enorma datamängder mha programvaror. Ett känt exempel är hur någon tog FN:s CD-ROM med statistiska årsdata och samkörde någon gång på 90-talet, och kom fram till att NASDAQ-börsen följde smörpriset i Bangladesh med två veckors fördröjning. Föll smörpriset i Bangladesh så föll börsen ungefär två veckor senare. Andra gamla exempel är att förekomsten av många storkar i Nordtyskland såg ut att matcha stigande antal födda barn. Fast bara i Nordtyskland, i resten av världen spelade antalet storkar ingen roll. Men det ger ju inga roliga rubriker.
Så där kan man fortsätta. Men att gräva efter data kan vara komplicerat, och att tillämpa korrekta statistiska metoder kräver kompetens och utbildning.
Istället uppstod så på 90-talet en trivialisering av data mining, genom visuell data mining. Data mining for dummies, så att säga. Stoppa in data i något trevligt dataprogram och lek runt grafiskt och hitta massvis med mönster som stärker din egen uppfattning. Gärna som t ex business intelligence, ungefär samma sorts motsägelse som military intelligence.
Ett exempel är t ex svenska Spotfire, som uppstod ur arbete inom människa-datorinteraktion vid Chalmers och Göteborgs Universitet, ett bolag som sedermera kom att säljas till amerikanska Tibco för miljardbelopp. Namnet är en intressant anekdot. Eftersom programvara uppstod ur ett examensjobb ungefär samtidigt som jag studerade i samma miljö så befann sig några av de inblandade grundarna eller tidigt anställda i den vidare bekantskapskretsen. Namnet valdes för “det lät coolt”.
Supercool programvara, att använda för att hitta mönster som inte finns, eller som stärker ens egna förutfattade meningar.
Ett mer medialt svenskt exempel är Hans Roslings GapMinder, som också är ett snarlikt verktyg för visuell data mining. Används gärna för att stärka de egna uppfattningarna, t ex Roslings uppfattning om att allt bara blir bättre, medan en pessimist som jag själv kan använda samma verktyg för att visa motsatsen.
Gapminder använder “for a fact based world view” som byline. Frågan är bland annat vilka fakta, skit in, skit ut. Det är jättetrevligt att se visuella representationer och mönster, men det är inte vetenskap. Det är istället inte sällan bara våra hjärnor som spelar oss ett spratt i vår iver att hitta mönster, som gärna bekräftar vår egen världsbild eller en världsbild vi så gärna vill tro på.
Precis som en del tolkar vinterns mönster av kallt väder som att det inte förekommer några klimatförändringar. Det kanske det inte gör, trots allt finns det ju ett mönster av fel, Climategate, Himalaya-felet och nu en kall vinter. Eller är det bara att leta mönster som bekräftar den egna uppfattningen?
Att jag kom in på det här inlägget berodde på att jag började leka runt med Eurostats suveräna webtjänst.
Vad sägs t ex om följande visuella kartrepresentation av statslåneräntorna inom EU för januari 2010?
Ser ni något mönster?
Eller vad sägs om deras konjunkturcykelklocka, business cycle clock?
Röda symboler är olika ekonomiska indikatorer för EU27, blått för euroländerna, grönt för Sverige och lila för USA.
Så här såg indikatorerna ut i februari år 2000, mitt uppe i högkonjunkturen och IT-bubblan.
Och i augusti 2002 såg det ut som följer:
Sedan har vi högkonjunktur igen. Juli 2006.
Men högkonjunkturen 2006 ser lite spretigare ut än under IT-bubblan. Kanske en förvarning om vad som skulle ske, eller letar jag bara mönster?
Det senaste datat i konjunkturcykelklockan är från december 2009, och det ser då ut som att konjunkturen håller på att repa sig och indikatorerna letar sig uppåt. Den här klockan snurrar moturs om allt är som det skall. Fast notera att antalet indikatorer är färre då allt inte är inrapporterat än.
Skall man ha med alla får man titta på september 2009.
Dessutom revideras data lång tid i efterhand, så man kan inte dra några säkra slutsatser, bara hitta … mönster. Och när man hittar mönstren skall man också fatta rätt beslut baserat på dessa. I februari år 2000 var allt på topp, alla skrek upp, upp, upp. Men det var inte slutsatsen man borde ha dragit. Tvärt om så skall man rynka på näsan när alla skriker samma sak.
Bli nu inte lurade av vackra färger. Bara för att vi tycker att färgglada blommor är granna, så betyder det inte att färglada visuella verktyg hjälper oss. Men att använda färgglada verktyg för business intelligence, som Spotfire eller för den delen Gapminder är förstås ett lätt sätt att sälja in sitt budskap till stressade beslutfattare eller företagsledare. De tittar som alla på de vackert färgade blommorna. Men djävulen kommer i många fagra skepnader.
Ovanstående konjunkturklocka bygger på beprövad erfarenhet och teorier om konjunkturcykler och business as usual. Men vad händer om vi inte längre har business as usual? Kan klockan börja gå baklänges? Vad innebär det i så fall?
Det finns ett mönster som jag dock tror stämmer. Det är att vi sällan lär oss något, trots allt fantastiskt brus i form av nyheter och statistik som vi översköljs med. Vi lär oss kanske inte ens att vi oftast lurar oss själva.
6 kommentarer
Statistik och anpassning av funktioner till data tenderar ju att bli relativt värdelös om man inte tar med avvikelserna typ standardavvikelser, R-värden m.m.
De flesta människor är dock inte intresserade av att studera saker kritiskt utan blir glada om man säger till dem det de vill höra.
Tack för en lysande artikel. Jag har sett Hans Rosling på Gapminder hålla ett antal föreläsningar med alla sina bubblor.
Han gör det på ett så populistiskt sätt att det skulle kuna vara på en cirkus.
Han "bevisar" det han själv tror är verkligheten.
Vill IPCC också "bevisa" det man själv tror är verkligheten?
Jättebra artikel. Med fin-ords-svengelska skulle man också kunna skriva att korrelation != kausalitet. Kan man skilja på dessa begrep är det lätt att hitta exempel i pressen där argumenten inte går ihop.
Eftersom du kritiserar Spotfire så måste jag ju besvara 🙂
Jag presenterade Spotfire 1996 på American Statistical Association's conference i Chicago, inbjuden av riktigt duktiga statistiker (med bakgrund mot min egen bakgrund som user interface designer).
Jag började med att säga "… also – I think it's quite likely that a few of you will protest when I show a scatterplot and say 'here's an outlier' – and say 'hey you can't say that since you're only looking at a plot and further, you never made any hypothesis about that being an outlier…"
Vilket givetvis några gamla surgubbar gjorde 🙂 Protesterade mot det mesta.
Mitt svar är det samma nu som då: mänsklig erfarenhet (hjärnan!) har alla möjliga kognitiva/perceptualla bra sätt att generera hypoteser om vad som är outliers – som i många fall slår strikt hypotes/experiment approach. Självklart spelar båda en viktig roll – men den gamla approachen" räcker inte.
Efter presentationen spenderade jag tid med en ny vän, Mark Johnson från Pharmacia – absolut superduktig statistiker som skrattade åt dem, och sade
– They want job security (be the only ones who can answer questions)
– They'd rather have people come to them and ask to run "count()' functions in SAS than engage in real problem solving (again, job security)
– The clever statistican realizes that if he ENABLES other/any people to ask questions he'll increase the chance that the *right* question is asked, and he'll also have a more fun job
Jag är "all for statistical rigour" – man kan lura sig på 1,000 sätt annars – MEN
– Programvaror som Spotfire, Qliktech, GapMinder, Panopticon (heja Sverige!) eller Tableau, eller till och med grafer i R (även ifall det är oanvändbart för 99.9999% av befolkningen) ser till att fler ställer frågor. Detta är det viktiga.
– Statistiker som söker jobbsäkerhet är på uttöende. Åk på en SAS användarkonferens och bara observera dem visuellt…
– Den smarte statistikern försöker engagera sina användare och använda moderna verktyg och provocera/engagera sin publik till att ställa frågor.
Hans Rossling har gjort mer för detta än i princip vilken annan statistiker som helst. Surt va? Kan inte vara roligt att vara statistiker.
BTW riktigt intressant att observera är läkemedelsindustrin där gammal approach till data och analys i princip har fått den att gå 100% i stå. Kolla på hur många nya läkemedel Pfizer har genererat i en strikt linjär data analys approach.
Christopher
Tack Christopher. Huruvida jag kritiserade Spotfire som sådant, eller möjligheten att verktyget kan missuppfattas eller missbrukas kan man diskutera. Det du säger om att "ställa frågor" är förstås mycket vettigt.
Sedan kan man diskutera kärnfrågan om att hitta mönster där mönster inte finns i all oändlighet. Ett möjligt mönster behöver ju följas upp med en analys av varför mönstret finns, vilket kan ge ytterligare klarhet.
Till publiken så kan jag upplysa er att Christopher Ahlberg alltså var handledare till det ursprungliga examensarbetet, undervisade i MDI vid GU/Chalmers, grundade bolaget Spotfire tillsammans med två (?) andra, blev dess VD och förde det ut i världen, och tids nog tills dess miljardförsäljning till Tibco.
Strålande svenskt entreprenörsskap av en sort vi behöver mer av.
Att han läser min blogg (även på tips av ngn annan) är förstås smickrande som gammal elev.
Till Christopher, jag återger gärna din kommentar i ett separat inlägg, så kommer fler läsa den. Alla läser inte kommentarerna.