Nya metoder för statistisk inferens i kvantitativ metagenomik
Forskningsprojekt, 2012
– 2015
Metagenomik används för att studera mikroorganismer och deras arvsanlag och gener. I metagenomik utvinns allt DNA från ett prov. DNAt klipps sedan till korta bitar som läses av med storskalig DNA-sekvensering. Den resulterande mängden information, bestående av slumpmässiga delar från de genom som finns i provet, kallas för ett metagenom. Mikroorganismer lever ofta tillsammans i komplexa samhällen och med hjälp av metagenomik kan gener från många organismer i samhället analyseras på en och samma gång. Traditionella metoder inom mikrobiologin använder sig ofta av odling av enskilda organismer i laboratorier. Detta begränsar de arter som kan studeras eftersom den stora majoriteten av mikroorganismer på jorden är svåra att odla. En av de stora fördelarna med metagenomik är att det inte kräver någon odling utan alla organismer i ett samhälle kan studeras samtidigt. Metagenom analyseras genom att uppskatta de relativa nivåerna för olika gener. Detta görs genom att sortera de olika DNA-bitarna i olika högar beroende på vilken gen de kommer ifrån. En vanligt förekommande gen, det vill säga en gen som finns i många mikroorganismer, är då representerad av många bitar medans det finns färre bitar för mindre vanligt förekommande gener. Genom att jämföra gen-nivåer från olika prov, t.ex. prov från rena miljöer med prov från miljöer nedsmutsade med miljögifter, kan vi lära oss viktig information om hur mikroorganismerna och deras ekosystem påverkas. Analys av gennivåer är dock svårt och de påverkas av biologisk variation. Samhällen av mikroorganismer kan vara olika även i två prov tagna från identiska miljöer. Även mikroorganismer av samma sort kan skilja genom förändringar i arvsanlagen. Gen-nivåerna påverkas även av tekniskt brus där t.ex. fel kan introduceras under DNA-sekvenseringen. Även det stora antalet mikroorganismer utgör ett problem. Eftersom mikroorganismerna finns i många former så är det totala antalet gener i ett samhälle ofta mycket stort. Det gör att tiotusentals gennivåer måste analyseras på en och samma gång. Samtidigt är metagenomik en relativt kostsam teknik så antalet prov som analyseras är förhållandevis lågt. Detta leder till en osäker statistisk analys där gennivåer felaktigt kan tros vara förändrade, vilket i sin tur kan ge upphov till falska biologiska slutsatser. I detta forskningsprojekt kommer vi att utveckla ny statistisk metodik för att förbättra metagenomiken. Genom att skapa statistiska modeller som beskriver den komplexa datastrukturen och de olika källorna av biologisk variation och tekniskt brus kan vi öka pålitligheten i analysen. Vi kommer också att skapa robusta metoder för att skatta den biologiska variationen vilket kommer att minska antalet falska slutsatser. Många metagenom innehåller en stor mängd DNA från virus och andra källor som inte är av primär betydelse. För att undvika att detta påverkar analysen kommer vi även att utveckla metoder för att rena metagenom och ta bort DNA som inte är av intresse. Metoderna som utvecklas i detta projekt kommer, i nära samarbete med mikrobiologer och miljöforskare, att tillämpas i tre projekt. Det första projektet handlar om samhällen av mikroorganismer i marin miljö och deras påverkan av miljögifter. De två andra projekten studeras bakterier och deras resistens mot antibiotika, både genom att analysera prov från miljöer kontaminerade med antibiotika och prov med bakterier från människokroppen. I alla dessa projekt utgör metagenomik en mycket viktig mätmetod. Våra nyutvecklade metoder kommer att förbättra den statistiska analysen och därigenom de biologiska resultaten. Metoderna som utvecklas i detta projekt kommer att implementeras i ett programpaket. Detta programpaket kommer att göras allmänt tillgängligt och därigenom blir metoderna tillämpbara för samtliga forskare som jobbar med mikrobiologi. Metoderna kommer därför att generellt förbättra den statistiska analysen metagenomik och göra denna teknik mer pålitlig.
Deltagare
Erik Kristiansson (kontakt)
Chalmers, Matematiska vetenskaper, Tillämpad matematik och statistik
Finansiering
Vetenskapsrådet (VR)
Projekt-id: 2012-5975
Finansierar Chalmers deltagande under 2012–2015