Det kom en liten kommentar till gårdagens inlägg om faror med visuell data mining, som jag återger med kommentatorns medgivande nedan.
Repliken är insiktfull, påläst och intressant, speciellt som den kommer från Dr Christoffer Ahlberg, innovatör, grundare och fd VD för bolaget Spotfire, och den entreprenör som fick bolaget sålt för 195 miljoner USD till Tibco 2007.
Nu kanske inte alla hänger med på detaljerna här, men för de av er som gör det så är repliken läsvärd. SAS är inte flygbolaget, utan SAS Instititutes programvara för statistisk analys, den matematiskt statistiska världens motsvarighet till Microsoft Office, fast med en licens som kostar sexsiffrigt. Gör allt, kan allt, och är väldigt speciellt. R är ett annat programspråk och mjukvarumiljö för statistik, open source, till skillnad mot S och S-PLUS, som utvecklats av just Tibco, som köpte Spotfire. Namnet R är förstås ett skämt, “R comes before S”.
Nu följer iaf Ahlbergs replik.
“Eftersom du kritiserar Spotfire så måste jag ju besvara 🙂
Jag presenterade Spotfire 1996 på American Statistical Association’s conference i Chicago, inbjuden av riktigt duktiga statistiker (med bakgrund mot min egen bakgrund som user interface designer).
Jag började med att säga “… also – I think it’s quite likely that a few of you will protest when I show a scatterplot and say ‘here’s an outlier’ – and say ‘hey you can’t say that since you’re only looking at a plot and further, you never made any hypothesis about that being an outlier…”
Vilket givetvis några gamla surgubbar gjorde 🙂 Protesterade mot det mesta.
Mitt svar är det samma nu som då: mänsklig erfarenhet (hjärnan!) har alla möjliga kognitiva/perceptualla bra sätt att generera hypoteser om vad som är outliers – som i många fall slår strikt hypotes/experiment approach. Självklart spelar båda en viktig roll – men den gamla approachen räcker inte.
Efter presentationen spenderade jag tid med en ny vän, Mark Johnson från Pharmacia – absolut superduktig statistiker som skrattade åt dem, och sade
– They want job security (be the only ones who can answer questions)
– They’d rather have people come to them and ask to run “count()’ functions in SAS than engage in real problem solving (again, job security)
– The clever statistican realizes that if he ENABLES other/any people to ask questions he’ll increase the change that the *right* question is asked, and he’ll also have a more fun job
Jag är “all for statistical rigour” – man kan lura sig på 1,000 sätt annars – MEN
– Programvaror som Spotfire, Qliktech, GapMinder, Panopticon (hej Sverige!) eller Tableau, eller till och med grafer i R (även ifall det är oanvändbart för 99.9999% av befolkningen) ser till att fler ställer frågor. Detta är det viktiga.
– Statistiker som söker jobbsäkerhet är på uttöende. Åk på en SAS användarkonferens och bara observera dem visuellt…
– Den smarte statistikern försöker engagera sina användare och använda moderna verktyg och provocera/engagera sin publik till att ställa frågor.
Hans Rossling har gjort mer för detta än i princip vilken annan statistiker som helst. Surt va?
BTW riktigt intressant att observera är läkemedelsindustrin där gammal approach till data och analys i princip har fått den att gå 100% i stå. Kolla på hur många nya läkemedel Pfizer har genererat i en strikt linjär data analys approach.”
Christoffer Ahlberg är idag VD och medgrundare (tillsammans med bla Staffan Truvé och Erik Wistrand, som var medgrundare av Spotfire om jag minns rätt) för det något mystiska Boston- och Alingsåsbaserade (?!) Recorded Future, en startup som försöker ge sig på att spå framtiden mha vad som skrivs på Internet om jag uppfattar det hela rätt. Vem försöker inte det? Eller åtminstone kartlägga vad andra tror om framtiden. Google meets Nostradamus. Fast det är nog väldigt orättvist, då Nostradamus är struntprat och bara ett utfall av att människan återigen försöker hitta mönster där sådana inte finns. Trampar väl på några Nostradamus-misstolkares tår där, men det kan jag leva med. Recorded Future ser, baserat på en skärmdump på länken ovan, ut att ägna sig åt mer visualisering, men nu av prognoser.
Ahlberg har poänger ovan, och jag skall inte vara elak mot Spotfire, som bara är ett verktyg, precis som en hammare. Men man kan slå sig på tummen med en hammare, slå in spikar på fel plats eller slå dem snett. Det är inte säkert att det blir något bra hus bara för att man har den där hammaren.
Det är lätt att bli förblindad av estetiken i visualisering av data.
Det finns även andra än Rosling, Ahlberg mfl som utmanar det traditionella sättet att tänka för vetenskapen, t ex Stephen Wolfram, grundare till Wolfram Research som säljer programvaran Mathematica. Han skriver om detta i sin bok A New Kind of Science.
Man kanske kan beskriva det som vetenskap genom (visuella) experiment med data, istället för ett traditionellt matematiskt tillvägagångssätt.
Dynamik istället för stelbenthet. Men med risk för blåa tummar om man inte vet vad man håller på med. Men samtidigt är det genom att utmana gällande konventioner som man gör verkliga framsteg, “great leaps forward”. Kanske har vi fastnat för mycket i traditionalitet, vilket leder till stagnation? Våga utmana sanningar, ibland leder det till genombrott, ibland till undergång.
Man kanske kan säga att om traditionell statistik ställer krav på förståelse för matematiken, så ställer visualiseringsmetoder krav på förståelse för data och hur det hänger ihop.
Annars landar man som exemplet i mitt förra inlägg, att NASDAQ-börsen styrs av smörpriset i Bangladesh.
1 kommentar
En liten petig detalj är att Wolframs pogramvara heter Mathematica, men a och s ligger ju så nära på tangentbordet…