Av och till cirkulerar det hyllningar till data mining och rent av rena nyheter kring påvisade samband i media. Ett sådant ganska nytt exempel är chokladkonsumtionen i ett land och antalet nobelpristagare, vilket till och med Schibsted/Aftonbladet skrivit om. Nu finns det en hel websajt med exempel på rena nonsenskorrelationer, för kom ihåg att korrelation är inte kausalitet.
Webplatsen heter Spurious correlations, vilket enklast översätts till falska korrelationer.
Det är naturligtvis inte så att chokladkonsumtionen styr antalet nobelpristagare, det finns ingen kausalitet där.
Inom data mining använder man stora mängder data och försöker hitta samband. Av ren slump kommer data då följa varandra. För mycket hög korrelation räcker det att riktningen på något är samma år efter år. Riktningen kan vara samma, eller inte samma, dvs chansen är 50%, eller 0.5. För att något ska följas åt i tio år är alltså chansen 0.5^10 eller 1/1024. Kör en variabel mot ett dataset med 1000 olika variabler bör åtminstone en variabel i datasetet korrelera perfekt. Sedan kör man detta för alla 1000 variablerna, vilket gör att man förenklat bör hitta 1000 perfekta korrelationer. Till detta kommer alla höga korrelationer där kanske 7 – 9 datapunkter följer varandra perfekt. Man får helt enkelt stora mängder korrelationer.
De bästa färdiga korrelationerna man hittar hos Spurious correlations är t ex skilsmässofrekvensen i den amerikanska delstaten Maine och konsumtionen av margarin per capita med 0.992558 i korrelation, eller USA:s utgifter på rymdfart, naturvetenskap och teknologi och självmord via hängning, strypning eller kvävning, som korrelerar med 0.992082.
Man kan också leta reda på sina egna korrelationer via websajten. Vad sägs t ex om pengar lagda på sällskapsdjur och antalet advokater i Kalifornien, med en korrelation på 0.998386, eller det amerikanska importpriset på uran och antalet förgiftningsolyckor med alkohol med 0.961592.
Samtidigt ska man komma ihåg att en del personer reflexmässigt alltid replikerar korrelation är inte kausalitet, även på variabler som faktiskt har samband, som dieselkonsumtionen och den ekonomiska aktiviteten. Det finns nämligen de som är dumdryga och att repetera floskler kan vilken underbegåvning som helst göra.
Men nästa gång Aftonbladet rapporterar om idiotiska samband, som konsumtionen av mozarella och antalet disputationer inom väg- och vattenteknologi, så vet ni…
24 kommentarer
Favorit i repris: en undersökning på barn i olika åldrar har visat en stark positiv korrelation mellan läsförmåga och fotstorlek. Och här handlar det faktiskt om kausalitet.
Jaså? Och hur går den kausaliteten menar du? Växer fötterna när läsförmågan ökar, eller ökar läsförmågan på grund av att fötterna växer? Det här är väl snarare ett typexempel på korrelation utan kausalitet.
Hehe. Den underliggande orsaken är ålder, förstås. Jämför 7-åringar med 12-åringar.
Här är en annan favorit. Under andra halvan av 1900-talet var medellivslängden, mätt på konventionellt sätt, väsentligt kortare för vänsterhänta än för högerhänta. Den effekten har dock klingat av numera.
Vi missförstår nog varandra på något sätt. Självklart är det åldern som ger kausaliteten. Men mellan läsförmåga och fotstorlek finns bara korrelation, ingen kausalitet, varför jag då reagerade på att du skrev "här handlar det faktiskt om kausalitet" (alltså kausalitet mellan de faktorer du nämnde, läsförmåga och skostorlek)". Någon sådan kausalitet finns ju inte.
Intressant Cornu. "Spurious" skulle jag nog själv översatt till "tvivelaktig", men det förefaller vara en lite tvivelaktig översättning. Här lite etymologi:
spurious (adj.)
1590s, "born out of wedlock," from Latin spurius "illegitimate, false" (source also of Italian spurio, Spanish espurio), from spurius (n.) "illegitimate child," probably from Etruscan spural "public." Sense of "having an irregular origin, not properly constituted" is from c.1600; that of "false, sham" is from 1610s; of writing, etc., "not proceeding from the source pretended, 1620s.
Bra. Tyvärr är detta sant även i ämnen som man gärna _vill_ ska korrelera. Teknisk analys av diverse påstådda mönster i prissättningen av aktier/bostäder/valutor är ett sådant exempel… (Hindenburg Omen är det jag tycker är mest festligt)
Påminner om den här gamla xkcd-favoriten: http://xkcd.com/552/
På en klimatskeptisk blogg finns en matematiskt intresserad kille som är duktig på att plocka ner samband.
Perioder i temperaturdata tex. (Willis Eschenbach)
OT I Ukraina så kan kulor ha hamnat fel och så även skulden.
OT: Nu skall vi tydligen rädda universum, som Bruce Willis. Den här artikeln finns tyvärr bakom en betalvägg, men någon kanske kan sammanfatta den åt mig:
http://www.dn.se/nyheter/vetenskap/vara-liv-ger-mening-till-hela-universum/
Du kan ju läsa Peter Woits review av Tegmarks bok "Our Mathematical Universe", http://www.math.columbia.edu/~woit/wordpress/?p=6551. Kommentartråden är ganska underhållande.
Kuckeliku det är ett bra uppslag Vetenskap på två sidor i dagens DN med utmärkt grafik. Köp den eller gå till närmaste bibliotek. Max Tegmark är professor vid MIT och en av världens mest citerade forskare. Jag vet inte vad Bruce Willis gjort men i artikel finns en kul parallell.:
"Det finns fler personer som känner till Justin Bieber än Vasilij Archipov, fast bara en av de två på egen hand stoppade en sovjetisk kärnvapenattack mot USA under Kubakrisen. Och det var inte Justin Bieber. säger Max Tegmark"
En central del av hans forskning kan uttryckas som: Gång på gång har vi (mänskligheten) upptäckt att allting vi trodde fanns bara är en liten del av något mycket större. Han menar att allt som existerar egentligen är matematik. Vår del av universum är den del av rymden som vi kan se dvs 14 miljarder ljusår. Enligt Tegmark och en ökande andel kosmologer finns det fler parallella universum. Fyra nivåer på dessa har han identifierat och de förklaras kortfattat på de två sidorna i DN.
Han menar att vi inte sett tecken på annat intelligent liv i vårt universum och att vi därför har ett stort ansvar därav Vasilij kontra Bieber.
Tegmark är givetvis född i Stockholm och har läst teknisk fysik på KTH och på fredag kommer hans mycket omtalade bok "Vårt matematiska universum: Mitt sökande efter den yttersta verkligheten" ut på svenska.
Vänliga hälsningar
Nanotec
När universum är så exceptionellt stort och det bevisligen kretsar planeter kring varenda (?) sol är sannolikheten i stort sett noll att intelligent liv bara skulle uppstå på Jorden. Bästa argumentet mot intelligent liv på andra planeter är att det aldrig uppstått här på Jorden.
När man läser kommentarer på Internet så blir man minst sagt frågande till om människan kan klassas som intelligent liv…
Redan Einstein sa att människans dumheter är som universum oändligt stor. Fast om universums oändlighet är jag lite tveksam.
Möjligen kan en del dumheter driva utvecklingen framåt. När Putin anser att högre global temperatur gynnar Ryssland ger det en motreaktion hos några som lägger mer möda på att hitta alternativ till fossilt tänkande.
Vänliga hälsningar
Nanotec
Fast Kuckeliku i Tegmarks flesta universum finns inga planeter solar eller ens atomer. De universum med planeter är väldigt sällsynta fast förstås oändligt många.
Vänliga hälsningar
Nanotec
Jag tror inte särskilt mycket på några multiversa. Men det är väl ett sätt att försöka förklara vår fantastiska värld. Utan något slags evolution i en stor mängd universa blir vår värld extremt osannolik. Jag har dock lite svårt att se hur universum skulle kunna utvecklas genom duplicering och naturligt urval, som det biologiska livet gör.
En bra inställning Kuckeliku att du inte kategoriskt avfärdar ett begrepp du (gissar jag) vet väldigt lite om. Multipla universum var inte så inne när jag läste teknisk fysik men det har blivit allt mer diskuterat under senare år. Redan Pythagoras var övertygad att världens sanna kärna var matematik. En del av den skolans rön har betytt mycket för vår tekniska utveckling.
Vänliga hälsningar
Nanotec
#Kuckeliku
David Deutsch i "The Fabric of Reality" ser fyra olika "trådar" (strands) av verkligheten. En av dem är kvantteorin och multiversa. En andra, skild från detta, är evolutionen. De övriga två är baserade på Turings allmänna principer för "computing" samt en kunskapsbildande process baserat på Karl Popper.
Fyra olika delar av verkligheten. Som inte kan härledas ur varandra. Har inte boken helt aktuell just nu, och kan därför inte redogöra närmare för innehållet, men den kan rekommenderas. Väldigt intressant.
Jag rekommenderar också boken som jag ramlade på i London någon gång på 90-talet. Har plockat fram den för att titta lite åter i den. Minns att boken var kul som allt annorlunda tänkande. Annars är David Deutsch känd för sina rön om kvantdatorer som bygger på hans ideer om multiversa.
Vänliga hälsningar
Nanotec
Och här drar Morningstars John Rekenthaler ned byxor på teknisk analys och annan finansiell voodoo med just din argumentation, Cornucopia:
Voodoo Investment Strategies: Mathematicians on the attack
Rekenthaler bygger artikeln på en studie av några matematiker med titeln "Pseudo-Mathematics and Financial Charlatanism". Nä, matematikerna var konstigt nog inte så imponerade av tekniska analytikers och andra finansiella akrobaters olika konster.
I sammanhanget är jag förvånad över hur till och med Aktiespararna (och även du, Cornucopia) enrollerat sig med TA och olika TA-figurer (Tobbe Rosén verkar sedan något år vara den nya gurun i ropet som syns överallt). Men åtminstone i Aktiespararnas fall så är det kanske ekonomin som talar. Det lockar människor att spela på börsen med olika "system", och Aktiespararna vill ha sin del av kakan. Men det rimmar faktiskt illa med deras nya satsning på "Sparsheriffen"; känns som att man talar med kluvna tungor.
Mer vanligt i media, och mer intressant, är omvända korrelationer, och korrelationer som beror på en icke nämnd faktor.
Exempel på det sistnämnda är det (förr) starka sambandet mellan lungcancer och kaffe. Sambandet cigaretter och dålige levervärden är stenhårt etablerat.
Exempel på möjlig omvänd korrelation: Arbetslöshet ger scizofreni. Arbetslöshet ger antisociala beteenden. Stillasittande ger upphov till överrepresentation av en drös sjukdomar.
Lär känna rika människor så blir du själv rik.
Tänkte precis på detta härmodagen när en undersökning presenterades som visar på att vikten ökar av buller. Man hade sett att de som bor nära en flygplats väger mer. Känns ju precis som ett falska samband av denna typ. Folk med sämre inkomst tenderar att både äta mer skräpmat och ha råd med sämre bostadslägen. Kanske kan det vara förklaringen…
Annars finns ju klassikern: det är statistiskt bevisat att man får ont i huvudet av att sova med skorna på.
Hehe, ny för mig.
Ej heller att förglömma är den negativa korrelationen mellan populationen av vita storkar i Polen och landets födseletal (r= -0.61, p<0.001), se http://onlinelibrary.wiley.com/doi/10.1002/joc.1136/pdf. Bevisar alltså att barnen inte kommer med storken, utan att storkarna istället inducerar spontanaborter.