Bloggrannen professor Olle Häggström slår sönder i nyheterna uppmärksammade forskningsrön om att farmödrars svältsituation i unga år påverkar kvinnliga barnbarns dödlighet i hjärt- och kärlsjukdomar. Låter det orimligt, så är det för att det handlar om datafiske eller data mining.
Förenklat kan man säga att data mining är ett populariserat ovetenskapligt begrepp där man tar stora mängder data och ser vad som verkar visa upp samband. Inom investeringar, börs och finans är ett klassiskt exempel att smörpriset i Bangladesh förutsåg New York-börsernas utveckling i en stor körning som IBM gjorde 1987. Vilket förstås är rent struntprat.
Istället handlar det om att när man testar stora mängder data mot varandra så kommer av ren slump en del data verka visa upp samband.
Professor Häggström skriver:
“Signifikanstestet ifråga är inte det enda Bygren et al gjort, utan endast ett av 24 olika test som de redovisar, svarandes mot fyra olika val av far- eller morförälder (mormor, morfar, farmor, farfar), två olika val av kön på barnbarnet, och tre olika val av mattillgångsmönster under far- eller morförälderns förpubertet (24=4∗2∗3). Om man gör tillräckligt många olika test så blir till slut sannolikheten att få statistisk signifikans i minst ett av testen stor – även om [det inte finns något samband].”
Man fann alltså bara ett enda samband av 24 olika samband (test) som man gjorde. Eftersom p-värdet för vetenskaplig signifikans är 0.05 (eller 5% om man så vill), så bör man (ofta) i 24 test lyckas hitta ett samband tack vare ren slump.
Vetenskapen och studien av miljöärftliga faktorer kallas epigenetik, men det finns åtminstone i detta knappast några starka bevis för att det föreligger något epigentiskt arv här.
Det finns lärdomar att dra här kring börsen, teknisk analys och investeringar. Nämligen att det alltid går att hitta någon samstämmande indikator, av ren slump. Istället måste man titta på kausalitet istället för korrelation. Ett exempel där man kan misstänka kausalitet är t ex konjunkturbarometern och börsen, som jag skrev om i förra inlägget. Det ter sig rimligt att börsen stiger när konjunkturen förbättras, och faller när konjunkturen försämras. Kausalitet kan rimligtvis existera.
Hur farmödrars matvanor före puberteten påverkar specifikt kvinnliga barnbarns benägenhet till hjärt- och kärlsjukdomar låter jag vara osagt. Om du är kvinna så får du oftare hjärt- och kärlsjukdomar om din pappas mamma fick dåligt med mat som barn. Enda sambandet jag kan tänka mig är att farmor övergöder sina kvinnliga barnbarn så de ska se runda och pena ut. Men tydligen skiter i alla andra barnbarn, t ex dotterdöttrar eller manliga barnbarn. Det är bara sina söners döttrar de övergöder med extra hjärt- och kärlskadlig kost. Epigeniskt menar man istället att det ärvs via påverkan på könsceller innan befruktning och inte ens är en social miljöpåverkan. Jag har inte själv läst studien, men har man bara använt stickprov där sondöttrarna aldrig träffat sin farmor, och inte kan påverkats över matbordet? För att verkligen påvisa epigenetiska samband bör samtliga inblandade generationer vara bortadopterade, för att eliminera sociala miljöfaktorer som överkompenserande matvanor på grund av farmors minnen från svält i unga år.
Men den enklaste förklaringen är professor Häggströms, dvs slumpen och sök och du skola finna!
24 kommentarer
Teoretiskt är hypotesen inte orimlig. Ärftlighet från farmor till sondotter är inte alls konstigt. Men man kan ju har misshandlat statistiken ändå. Och man kan fråga sig hur generaliserbart studiet av en ort är.
Angående tenkisk analys så finns det ett korn av sanning i "efficient market hypothesis". Varje köpare måste nämligen överlista varje säljare. Oavsett hur priserna kan prognosticeras, så utgår TA från att somliga överlistar andra. Så förutom att förkalra själva prisutvecklingen, så måste TA förklara vilka som lyckas överlista vilka och varför.
Nu har jag inte heller läst studien men det finns andra studier än just denna som tyder på att det kan finnas olika former av epigenetiskt nedärvning.
Ett känt exempel är barnen till de gravida kvinnor som upplevde hungervintern 1944 (De retirerande tyskarna tog all mat med sig) hade mer diabetes, övervikt och hjärt-kärlsjukdomar än genomsnittet. Både dessa barn samt deras barn (nästa generation) hade också lägre födelsevikt än genomsnittet.
Här i Sverige finns Överkalixstudien som bla. visade att en svältande farfars uppväxt ledde till att sonsonen levde längre och löpte mindre risk att drabbas av diabetes och hjärt- och kärlsjukdomar. En övergödd farfar å andra sidan gav en sonson som bland annat löpte annat fyra gånger så hög risk som normalt att dö i diabetes.
Motsägande studier jag vet och det är väl därför epigenetik är så komplicerad och debatterat. Den sociala faktorn är, som du säger, högst närvarande och svår att helt eliminera men det skulle även vara högst naivt att tro att föda, stresshormoner och andra miljöfaktorer inte kan ha en inverkan på barnets arvsmassa. Det är i livmodern vi blir till och den miljö som råder där reflekterar ju den miljö vi sedan kommer att växa upp i så om svält råder under graviditeten borde ju barnet på diverse sätt försöka anpassa sig till ett lågt födointag för att kunna överleva.
Källor:
http://en.wikipedia.org/wiki/Dutch_famine_of_1944
http://en.wikipedia.org/wiki/%C3%96verkalix_study
En annan stor debatt är ju denna om "nature vs nurture", alltså i vilken grad olika beteenden (eller sjukdomar) orsakas av arv (gener) eller miljö (yttre påverkan, vänner, familj, födan, gifter etc.).
Holländsk svält hört om,ja.
Vad om liknande situation i Rovaniemitrakten?
Även där retirerande trupper med skövling.
Den här kommentaren har tagits bort av skribenten.
Så hur ligger det till med kausaliteten på 200 / 50 dagars glidande medelvärden? Och varför just 200 och 50, varför inte 200 och 100 t.ex.?
Du får använda vad du vill. Två olika medelvärden är ett möjligt sätt att identifiera trender. Andra vanliga är t ex 7/21. De används som beslutsstöd, inte som vetenskap.
SHB använder t ex 50/233 osv.
En del använder 50/100/200 och en trend är då bara riktig om dessa ligger i rätt ordning.
Sedan är frågan vad du använder trenden till.
Har hört rykten om att en kommun i norra Sverige använder sig av spådomar som beslutsstöd. Det är inte heller vetenskap.
Det som talar emot glidande medelvärde är att priset ju borde sättas utifrån förväntad utveckling. Alla "kända" samband borde vara inviktade i priset – jag är därför tämligen skeptisk till hur tillförlitlig teknisk analys är (även om det är lätt att bli "fooled by randomness").
En sak som är säker när det gäller genetik är att om tilltänkta farmodern dör innan barnet föds, blir det nedgrävda gener.
"skola" är gammal pluralform. "Sök och du skall finna" heter det. Eller "sök och ni skola finna".
Annars bra att du uppmärksammar detta med "fooled by randomness".
Jag stör mig också lite på att folk försöker låta "gammaldags" och gör fel genom att använda felaktiga former på verb. Jag försökte leta upp lite källor, men hittade inte. Dock kan ju nämnas bibeltexten från 1917: "söken och I skolen finna" (jag ställer mig tveksam till ditt andra exempel – sök borde även vara pluralform trots att det är imperativ) – jag antar att formen här är för att "I" är (väl) formell andra person singular.
Om jag har fattat rätt så är det påverkan på individen vid den tidpunkt i livet då könskörtlarna etableras som produktiva könscellsproducenter.
Alltså i puberteten….
Då skall olika miljösignaler påverka genernas funktioner på nästa generations genetiska fenotypiska uttryck.
Och på ett sätt som inte alltid är fördelaktigt för individen.
Men visst, det är mycket intressant om man ifrågasätter hela tanken…
Det gör genetiken litet enklare…
Bara litet.
Bra inlägg. Statistik används ofta på felaktigt sätt för att påvisa kausalitet som inte existerar. De flesta har också så dåliga kunskaper på området statistik att de inte vet när man bör ana ugglor i mossen även om de läser själva studien.
I sammanhanget vill jag återkoppla till inlägget om GMO i höstas där studien som låg till grund för de alarmerande resultaten på samma sätt testade alla tänkbara samband och till slut fann ett fall som var statistisk signifikant. Solklar "data mining".
GMO-foder skadar matsmältningen
Du borde läsa på om data mining och högst vetenskapliga mätmetoder för att identifera informationsmönster.
Varför menar du att jag borde det?
Jag använder begreppet data mining i ovanstående kommentar enligt den definition som Cornucopia? presenterar i det ursprungliga inlägget. Att definitionen är förenklad framgår också i inlägget.
Apropå data mining så verkar det ju som att göteborgsföretaget spotfire, pionjärer inom detta område, senare sålt till TIBCO, hjälper NSA med att rota igenom mail de har fått tag på.
http://www.informationweek.com/revealing-e-mails-secrets/d/d-id/1034781?
Jämför även:
http://web.archive.org/web/20130806224718/http://spotfire.tibco.com/en/discover-spotfire/who-uses-spotfire/by-industry/government.aspx
Med nuvarande version
http://spotfire.tibco.com/en/discover-spotfire/who-uses-spotfire/by-industry/government.aspx
Undrarns varför de tagit bort NSA ur listan över företag de samarbetar med? För att de inte samarbetar längre eller för att det plötsligt blev lite känsligt att prata om det?
Inte NSA (officiellt) utan FBi som "ägde" en del av bolaget.
Cornu, data mining är högst vetenskapligt och du har fel när du kallar det ovetenskapligt. Vi har dessutom eminenta Hans Rolsing vars just datamining-lösningar för tidsdemintioner har fått stor uppmärksamhet och tekniken köptes av Google. Datamining är en del av Visualisering och perceptuell förståelse också vilket OCKSÅ är en del av vetenskap och forskning med allt från finansiell data till synapser och nervbanor i härnan och hjärnbalken.
Vad som är vetenskapligt eller inte kan givetvis diskuteras men du verkar inte förstå problematiken som data mining är förknippad med. Kanske för att du har bristande kunskap på området statistik som är en av grundpelarna i data mining.
Data mining kan vara till stor nytta men blir lätt data dredging även om det inte är avsikten.
Jag har nöjet att vara statistiker och arbeta med datamining-verktyg. I stället för att ställa upp ett antal hypoteser så använder vi omkring 1000 potentiella förklaringsvariabler. Det finns då givetvis en stor risk för överanpassning och det totala p-värdet borde kanske delas med 1000 om det ska användas för att avgöra vilka variabler som ska inkluderas i en modell för att hantera problemet med massignifikans. En avgörande skillnad är dock att vi gör detta för att lösa verkliga problem och vi behöver därför modeller som faktiskt fungerar. En vetenskapman som behöver kunna visa på häpnadsväckande resultat kan dock säkert frestas att publicera sådant som egentligen inte håller. Med förståelse för både statistiken bakom och för tillämpningsområdet innebär datamining verktyg som klarar av att hantera stora datamängder vilket inte är något problem.