Spotfire

Människan har, liksom antagligen de flesta djur, en fantastisk förmåga att hitta mönster i omvärldens brus. Att tidigt kunna ana faror, eller att förstå hur bytesdjur uppför sig eller hur årstiderna handlar allt om mönsterigenkänning. I en för människan naturlig tillvaro, dvs stenålderslivet, så kanske rent av felaktiga analyser var ganska ovanliga. Eller så överlevde man inte en felaktig analys.

Idag omgärdas vi av enorma mängder onaturlig artificiell information, information som filtreras genom alla möjliga filter innan de normalt når oss, eller ibland träffar oss helt utan någon som helst filtrering. Detta utan att vi alls kan särskilja vad som är genuint och vad som är manipulerat.

Inom vetenskapen använder man statistiska metoder för att med vetenskaplig säkerhet (>95% korrekthet) bekräfta att upplevda mönster faktiskt är mönster och inte bara inbillning. Regression är ett exempel på en sådan metod.

För en sak är säker, människans hjärna arbetar på högvarv, och gör allt för att hitta mönster där mönster inte finns. De onaturliga omständigheter vi som moderna människor lever under har inte gjort saken lättare, och vi är bara ett drygt hundratal generationer från stenåldersmänniskan, och har knappast anpassat oss genetiskt till förutsättningarna de senaste hundra åren, än mindre de senaste två decennierna med Internets genombrott.

Så vi söker mönster där mönster inte finns, vare sig vi vill det eller ej. Mycket mer om det här står t ex att läsa om i Fooled by Randomness: The Hidden Role of Chance in Life and in the Markets av Nassim Nicholas Taleb.

Ta nedanstående bild som exempel:

Jag har för att förstärka mönstret ringat in det. De röda prickarna ser helt klart ut att ligga upptill, medan de blå dominerar nertill.

Men detta är ett helt falskt mönster. Ovanstående plot genererade jag mha en slumptalsfunktion i Excel. Punkterna är helt slumpmässigt utplacerade. För att understryka detta så slumpar jag om siffrorna, men behåller tidigare felaktiga mönstermarkering.

Inte riktigt samma mönstermatchning. Istället kommer den mänskliga hjärnan försöka hitta något nytt mönster.

Det ser onekligen ut som att de röda prickarna dominerar längs pilen i mitten, medan blå prickar alltså söker sig bort från denna trend. Men återigen så är det bara mönster i slumpmässigt brus.

Nu skall jag inte kasta sten i glashus, jag själv ägnar mig åt sådan här möjligen felaktig mönsterigenkänning när jag gräver i statistik hos t ex SCB eller Eurostat och lägger ut här på bloggen. Även teknisk analys är en form av mönsterigenkänning, som ibland stämmer, och ibland inte.

Med datorernas intåg så har möjligheten för sk data mining uppstått, där man söker mönster i enorma datamängder mha programvaror. Ett känt exempel är hur någon tog FN:s CD-ROM med statistiska årsdata och samkörde någon gång på 90-talet, och kom fram till att NASDAQ-börsen följde smörpriset i Bangladesh med två veckors fördröjning. Föll smörpriset i Bangladesh så föll börsen ungefär två veckor senare. Andra gamla exempel är att förekomsten av många storkar i Nordtyskland såg ut att matcha stigande antal födda barn. Fast bara i Nordtyskland, i resten av världen spelade antalet storkar ingen roll. Men det ger ju inga roliga rubriker.

Så där kan man fortsätta. Men att gräva efter data kan vara komplicerat, och att tillämpa korrekta statistiska metoder kräver kompetens och utbildning.

Istället uppstod så på 90-talet en trivialisering av data mining, genom visuell data mining. Data mining for dummies, så att säga. Stoppa in data i något trevligt dataprogram och lek runt grafiskt och hitta massvis med mönster som stärker din egen uppfattning. Gärna som t ex business intelligence, ungefär samma sorts motsägelse som military intelligence.

Ett exempel är t ex svenska Spotfire, som uppstod ur arbete inom människa-datorinteraktion vid Chalmers och Göteborgs Universitet, ett bolag som sedermera kom att säljas till amerikanska Tibco för miljardbelopp. Namnet är en intressant anekdot. Eftersom programvara uppstod ur ett examensjobb ungefär samtidigt som jag studerade i samma miljö så befann sig några av de inblandade grundarna eller tidigt anställda i den vidare bekantskapskretsen. Namnet valdes för “det lät coolt”.

Supercool programvara, att använda för att hitta mönster som inte finns, eller som stärker ens egna förutfattade meningar.

Ett mer medialt svenskt exempel är Hans Roslings GapMinder, som också är ett snarlikt verktyg för visuell data mining. Används gärna för att stärka de egna uppfattningarna, t ex Roslings uppfattning om att allt bara blir bättre, medan en pessimist som jag själv kan använda samma verktyg för att visa motsatsen.

Gapminder använder “for a fact based world view” som byline. Frågan är bland annat vilka fakta, skit in, skit ut. Det är jättetrevligt att se visuella representationer och mönster, men det är inte vetenskap. Det är istället inte sällan bara våra hjärnor som spelar oss ett spratt i vår iver att hitta mönster, som gärna bekräftar vår egen världsbild eller en världsbild vi så gärna vill tro på.

Precis som en del tolkar vinterns mönster av kallt väder som att det inte förekommer några klimatförändringar. Det kanske det inte gör, trots allt finns det ju ett mönster av fel, Climategate, Himalaya-felet och nu en kall vinter. Eller är det bara att leta mönster som bekräftar den egna uppfattningen?

Att jag kom in på det här inlägget berodde på att jag började leka runt med Eurostats suveräna webtjänst.

Vad sägs t ex om följande visuella kartrepresentation av statslåneräntorna inom EU för januari 2010?

Ser ni något mönster?

Eller vad sägs om deras konjunkturcykelklocka, business cycle clock?

Röda symboler är olika ekonomiska indikatorer för EU27, blått för euroländerna, grönt för Sverige och lila för USA.

Så här såg indikatorerna ut i februari år 2000, mitt uppe i högkonjunkturen och IT-bubblan.

Och i augusti 2002 såg det ut som följer:

Sedan har vi högkonjunktur igen. Juli 2006.

Men högkonjunkturen 2006 ser lite spretigare ut än under IT-bubblan. Kanske en förvarning om vad som skulle ske, eller letar jag bara mönster?

Det senaste datat i konjunkturcykelklockan är från december 2009, och det ser då ut som att konjunkturen håller på att repa sig och indikatorerna letar sig uppåt. Den här klockan snurrar moturs om allt är som det skall. Fast notera att antalet indikatorer är färre då allt inte är inrapporterat än.

Skall man ha med alla får man titta på september 2009.

Dessutom revideras data lång tid i efterhand, så man kan inte dra några säkra slutsatser, bara hitta … mönster. Och när man hittar mönstren skall man också fatta rätt beslut baserat på dessa. I februari år 2000 var allt på topp, alla skrek upp, upp, upp. Men det var inte slutsatsen man borde ha dragit. Tvärt om så skall man rynka på näsan när alla skriker samma sak.

Bli nu inte lurade av vackra färger. Bara för att vi tycker att färgglada blommor är granna, så betyder det inte att färglada visuella verktyg hjälper oss. Men att använda färgglada verktyg för business intelligence, som Spotfire eller för den delen Gapminder är förstås ett lätt sätt att sälja in sitt budskap till stressade beslutfattare eller företagsledare. De tittar som alla på de vackert färgade blommorna. Men djävulen kommer i många fagra skepnader.

Ovanstående konjunkturklocka bygger på beprövad erfarenhet och teorier om konjunkturcykler och business as usual. Men vad händer om vi inte längre har business as usual? Kan klockan börja gå baklänges? Vad innebär det i så fall?

Det finns ett mönster som jag dock tror stämmer. Det är att vi sällan lär oss något, trots allt fantastiskt brus i form av nyheter och statistik som vi översköljs med. Vi lär oss kanske inte ens att vi oftast lurar oss själva.

Dokumenterad framtid

Replik om visuell data mining och business intelligence

Latest in Spotfire

Visuellt datagrävande – business intelligence eller business stupidity?