Kvalitetssäkring och validering av molekylärepidemiologiska typningar

Till innehållsförteckningen för Referensmetodik:Molekylärbiologisk diagnostik

Kvalitetssäkring och validering av molekylärepidemiologiska typningar[redigera]

Bakgrund[redigera]

Denna text fokuserar på kvalitetssäkring och validering av molekylärepidemiologiska typningar av virus. Dessa typningar baseras så gott som alltid på DNA-sekvensering och efterföljande sekvensanalys som ofta innebär konstruktion av fylogenetiska släktskapsträd. För bakterier, parasiter och svampar utförs typningar även med andra molekylära metoder såsom t.ex. pulsfältsgelelektrofores. Molekylära typningar kan även utföras av andra skäl än epidemiologiska, t.ex. för att identifiera resistens mot antimikrobiella läkemedel och för att bedöma grad av patogenicitet. Ur kvalitetssäkringssynpunkt är problemställningarna dock relativt oberoende av metodvalet (DNA-sekvensering eller annan molekylär typningsmetod) eller syftet med den molekylära typningen, varför de flesta av de överväganden kring kvalitetssäkring och validering av molekylärepidemiologiska typningar av virus som redovisas nedan är direkt överförbara på andra mikroorganismer, andra typningsmetoder, och andra syften med den molekylära typningen.

Det är vikigt att framhålla att en molekylärepidemiologisk typning omfattar en kedja av relativt komplicerade steg. Det är därför svårt att ge klara och enhetliga riktlinjer för kvalitetssäkring och validering av alla steg i denna analyskedja. Denna text avser därför att diskutera dessa frågor, men är inte tänkt som en kokbok som slaviskt bör följas.

Steg i analysen[redigera]

En molekylärepidemiologisk typning kan vanligen grovt delas in i följande steg som vart och ett ställer sina krav på kvalitetssäkring och validering.

1) Definition av epidemiologisk frågeställning
2) Val av typningsmetod
3) Provpreparation
4) PCR eller annan förberedelse inför typning
5) DNA-sekvensering eller annan metod för nukleinsyreanalys
6) Fylogenetisk trädanalys eller annan analys av data
7) Eventuell konfirmering av analysresultat
8) Tolkning och svarsutlämning

Definition av den epidemiologiska frågeställningen[redigera]

Det första steget i en molekylär typning är att definiera den epidemiologiska frågeställningen. Detta är ett mycket viktigt steg eftersom frågeställningen kommer att påverka metodvalet och därmed alla efterföljande steg i analysen, inklusive kraven på kvalitetssäkring och validering. Ibland är det tillräckligt med en grov typning, som t.ex. vid genotypsbestämning av HCV. Andra gånger kräver den epidemiologiska frågeställningen en mycket hög grad av upplösning, som när man vill bedöma om det är sannolikt eller osannolikt att en person kan ha smittat en annan med HIV. Det är också viktigt att ta hänsyn till hur typningsresultaten kommer att användas. Det är stor skillnad mellan att i forskningssyfte studera vilka genotyper av HPV som cirkulerar i en population och att ta fram bevismaterial till en rättgång om olaglig spridning av HIV-infektion. I det första fallet kan det vara acceptabelt att ett enstaka typningsresultat blir felaktigt, medan sådana fel inte får förekomma i det senare fallet.

Val av typningsmetod[redigera]

På basen av den epidemiologiska frågeställningen gäller det sedan att välja typningsmetod. Som ovan nämnts utförs virustypningar nästan alltid med DNA-sekvensering, men andra metoder kan komma i fråga för andra agens. Vid DNA-sekvensering är det bland annat följande överväganden som behöver göras:

1) Provmaterial och provvolym?
2) DNA-sekvensering eller annan metod?
3) Populationssekvens eller analys av kloner?
4) Önskad grad av upplösning i analysen?
5) Grad av genetisk variation och evolutionshastighet hos organismen.
6) Analys av variabla eller konserverade delar av genomet?
7) Hur långa sekvenser?
8) Sekvensering av en eller flera delar av arvsmassan?
9) Kan småfel i sekvensen accepteras?
10) Måste resultaten konfirmeras genom upprepad analys av samma prov, annan del av arvsmassan på samma prov, eller nytt prov från samma person?
11) Finns kontroll- och referenssekvenser i Genbank eller motsvarande eller måste egna kontrollprover analyseras?

Det går inte att i detalj redovisa alla överväganden kring kvalitetssäkring som behöver göras kring de ovanstående punkterna, men nedan redovisas några av de viktigaste hänsynen.

Provmaterialet, provvolymen och nivåerna av mikroorganismen i provmaterialet påverkar dels möjligheterna att kunna utföra analysen, men också risken för att erhålla en icke-representativ DNA-sekvens (eller annat typningssvar). Detta senare gäller framför allt om graden av intra-prov variabilitet är hög, som hos fr.a. RNA-virus och samtidigt det analyserade antalet arvsmassekopior är lågt. Ett sätt att minska denna risk är att utföra så kallad populationssekvensering, vilket innebär att flera, helst många, enstaka arvsmassekopior sekvenseras samtidigt utan föregående kloning.

Den önskade graden av upplösning i analysen påverkas av den underliggande epidemiologiska frågeställningen. Generellt kan sägas att hög upplösning kan erhållas genom att sekvensera variabla områden i arvsmassan, långa sekvenser och gärna fler än ett område i arvsmassan. Dessutom är det förstås viktigt att ta hänsyn till graden av genetisk variation och evolutionshastigheten hos mikroorganismen i fråga. För mikroorganismer med hög grad av genetisk variation och snabb evolution (t.ex. RNA-virus) kan en kort sekvens innehålla mycket mer genetisk information än en lång sekvens från en mikroorganism med höggradigt stabilt genom.

Beroende på den epidemiologiska frågeställningen kan det vara mer eller mindre viktigt att erhålla en 100 %-igt korrekt DNA-sekvens. En fylogenetisk trädanalys påverkas i allmänhet knappast alls om en enstaka nukleotid är felaktigt avläst, men ibland är det trots detta nödvändigt att reducera sekvensfelen till ett absolut minimum. Oftast är det ett minimikrav att sekvensen är avläst på bägge DNA-strängarna, men ibland kan det vara acceptabelt med kortare avläsning från enbart en sträng (se nedan Konfirmering av resultaten).

Referenssekvenser och kontroller[redigera]

Redan vid valet av typningsmetod bör man överväga vilka referens- och kontrollsekvenser som behövs för analysen. Om sådana referenser och kontroller inte inkluderas så kan resultatet från en molekylärepidemiologisk undersökning lätt bli helt missvisande.

Ibland finns lämpliga referenser och kontroller att tillgå via Genbank eller liknande webbplatser. Det är förstås klokt att dra nytta av etablerade referenssekvenser om sådana finns tillgängliga. Man bör därför helst sekvensbestämma ett område i arvsmassan som är internationellt accepterat som lämpligt för den undersökning man vill göra. Bland annat så ökar det sannolikheten för att det redan finns bra referens- och kontrollsekvenser i Genbank. För agens där det finns väldigt många sekvenser i Genbank är det lämpligt att använda BLAST-sökningar för att hitta relevanta kontroller till de fylogenetiska trädanalyserna.

Om det på förhand är klart att det saknas lämpliga kontroller och referenser så bör man generera dessa data själv. Även om det finns tillgång till ett lämpligt referensmaterial i Genbank eller en annan internationell eller lokal databas, så är det ofta nödvändigt att sekvensbestämma ett större eller mindre antal lokala kontroller.

Provpreparation, PCR och DNA-sekvensering[redigera]

Precis som vid all annan mikrobiologisk diagnostik är det viktigt att allmänna principer för kvalitetssäkring följs vid molekylärepidemiologiska typningar. Det är också önskvärt att laboratoriet är ackrediterat. Det bör finnas dokumenterade rutiner som minimerar risken för provsammanblandning och kontamination. Personalen bör ha erforderlig utbildning och erfarenhet.

Laboratoriet bör utformas så att de olika stegen i analysen (hantering av rena reagenser, provpreparering, provtillsättning, PCR, amplikon-elektrofores, sekvensering, etc.) är fysiskt separerade.

PCR-kontamination utgör troligen den enskilt största risken för felaktiga resultat. I föregående kapitel redogörs för kontroller inom kvalitativ PCR-baserad diagnostik. Dessa rekommendationer bör förstås följas även när PCR används som en del i analyskedjan vid molekylära typningar. Dessutom bör en eller flera positiva kontroller (dvs. prover med känt typningsresultat) och negativa kontroller inkluderas i hela analyskedjan från provpreparering till tolkning av typningsresultat. Det bör också finnas rutiner för att jämföra ett nytt typningsresultat (t.ex. en DNA-sekvens) med DNA-sekvenser från tidigare analyserade prover och kontroller. En oväntad likhet med ett tidigare prov eller en kontroll kan tyda på kontamination eller provsammanblandning.

SWEDAC har givit ut riktlinjer för ackreditering av sekvensering (SWEDAC DOC 01:28 Datum 2006-02-20 Utgåva 2 Riktlinjer för ackreditering av metoder för DNA-sekvens-bestämning). Utdrag från det dokumentet: ”Ifall en metod för förutsättningslös bestämning av nukleotidsekvens önskas ackrediterad skall laboratoriet verifiera sin förmåga att repetitivt och korrekt bestämma en DNA-sekvens ur ett givet provmaterial. Detta provmaterial skall också sändas till två andra laboratorier för jämförande DNA-sekvensering, om internationellt referensmaterial för DNA-sekvensering saknas. Samma kontrollmaterial skall med en regelbundenhet som laboratoriet stipulerar i sin metodbeskrivning medfölja sekvensanalyserna såsom intern kvalitetskontroll. I det fall DNA-sekvensering utföres för att kontrollera nukleotiderna på enstaka positioner i en känd (given) DNA-sekvens, såsom vid analys av SNP eller virus resistensmutationsbestämning, skall det finnas rutiner för analys av kontrollmaterial med de olika DNA-sekvensvarianterna. Ändamålet (typen av analys) är avgörande för hur strängt kravet ska vara på att båda strängarna ska analyseras samt om det måste vara fullständig eller endast partiell överlappning mellan de sträckor av strängarna som analyseras. Laboratoriet skall deltaga i relevanta externa kvalitetssäkringsprogram. Saknas internationella eller nationella program skall laboratoriet medverka i s.k. trelabsjämförelse.”

Sekvensjämförelser, ”Alignments”[redigera]

I detta avsnitt redogörs för kvalitetssäkring och validering av molekylära typningar som görs via sekvensering och fylogenetisk trädanalys. En del av övervägandena är specifika för denna typningsmetod medan andra är mer generella.

Innan en uppsättning sekvenser kan användas för fylogenetisk analys måste de arrangeras i en så kallad ”alignment”. Begreppet alignment är engelsk term som inte har någon bra svensk motsvarighet, men ordet betyder ungefär ”linjering” och detta ord används ibland på svenska. Alignment innebär att primära sekvenser (DNA, RNA eller protein) arrangeras så att likheter i sekvenserna identifieras. Dessa likheter kan ha evolutionära, funktionella eller strukturella orsaker och det är främst den första sortens likhet som man letar efter när alignment utförs inför en fylogenetisk trädanalys. En linjering innebär vanligtvis att sekvenserna arrangeras radvis i en matrix. Mellanrum (eng ”gaps”) introduceras så att identiska eller liknande karaktärer arrangeras i kolumner. Nedan finns en illustration av en alignment av fyra korta DNA-sekvenser, men i verkligheten innehåller en alignment inte sällan hundratals sekvenser som är mer än 1000 nukleotider långa. Bindestrecken är ”gaps” som introducerats för att erhålla en korrekt alignment.

Sekvens 1 AGTGTTCATGTAGTAT-GGA
Sekvens 2 AGT-TTCATGAAGTTTTGGA
Sekvens 3a AGTGT--ATGTGATATT-GA
Sekvens 3b A-GTGTATGTGATATT--GA

Det är mycket viktigt att alignmenten är så korrekta som det överhuvudtaget är möjligt eftersom alla eventuella fel kommer att försämra tillförlitligheten i de efterföljande analyserna. Notera att sekvens 3a och 3b ovan är identiska, men att sekvens 3b är fellinjerad. Skulle denna alignment användas för molekylär epidemiologisk typning så skulle sekvensen 3b felaktigt bedömas vara avlägset besläktad med sekvenserna 1, 2 och 3a, trots att den egentligen är helt identisk med sekvens 3a. Ibland är det mycket enkelt att göra en korrekt alignment av en uppsättning sekvenser, medan det andra gånger är nästan omöjligt.

Det finns en mängd kommersiella och fritt tillgängliga mjukvaruprogram för alignment och för olika typer av fylogenetiska analyser, inklusive trädanalyser (Department of Genome Sciences, University of Washington, Seattle och [1]).

ClustalX är ett populärt program för automatisk multipel alignment. Detta och alla andra program för automatiserad alignment har dock sina begränsningar, programmen har svårt att linjera kodoner korrekt för nukleotidsekvenser som kodar för protein. Detta gör att en alignment helst bör granskas och vid behov korrigeras manuellt. Om sekvenserna är avlägset besläktade kan vissa områden vara omöjliga att linjera korrekt och dessa områden bör klippas bort innan användning. Många av de fylogenetiska programmen har även svårt att hantera ”gaps” korrekt. Av detta skäl är det vanligt att utföra så kallad ”gap-stripping”, dvs att klippa bort dessa områden i alignmenten. Till sist kan det nämnas att det ofta är lättare att linjera protein-kodande sekvens korrekt om man växlar mellan ”protein-vy” och ”nukleotid-vy”, vilket många program såsom Bioedit och Se-Al tillåter.

Fylogenetisk trädanalys[redigera]

Sekvensanalys, inklusive fylogenetisk trädanalys, är ett stort vetenskapsfält där det sker snabb kunskaps- och metodutveckling. Denna utveckling drivs på av den snabba utvecklingen inom fälten metodik för storskalig DNA-sekvensering, databeräkningskraft och bioinformatik. Det finns ett mycket stort antal metoder och dataprogram för fylogenetisk trädanalys. Denna redovisning av kvalitetssäkring och validering av fylogenetisk trädanalys vid molekylärepidemiologiska typningar blir med nödvändighet mycket översiktlig.

De vanligaste trädkonstruktionsalgoritmerna har sedan länge varit ”maximum likelihood”, "neighbor-joining” och ”parsinomy”. Populära program som bygger på dessa metoder är Phylip, Paup*, Mega, PAML. På senare tid har metoder som bygger på Bayesisk statistik snabbt vunnit stor popularitet, som programmen Beast och MrBayes. De Bayesiska metoderna är attraktiva eftersom de tar hänsyn till att det i princip aldrig finns ett ”korrekt” träd utan en stor distribution av mer eller mindre sannolika träd.

Maximum likelihood och Bayesiska metoder anses ge de bästa resultaten, men är mycket beräkningstunga. De är därmed i princip omöjliga att använda på stora dataset, utom möjligen för den som har tillgång till superdatorkluster. Det sker dock en ständig utveckling och det finns numera snabbare program för maximum likelihood analys såsom PHYML och Garli. För att ytterligare komplicera saken så har alla moderna program en mängd inställningsalternativ. Resultaten av trädanalyserna kan i hög grad påverkas av dessa inställningar och det är oftast svårt att avgöra vad som är ”rätt” inställning. Det finns dock en viss tröst i det faktum att när det gäller nära besläktade organismer (såsom när en person har smittat en annan) är trädanalysresultatet ganska robust för metodval så att standardinställningar i ett förhållandevis enkelt och snabbt program såsom neighbor-joining analys i Mega-programmet oftast är tillförlitligt. Vid mer komplexa frågeställningar är det dock viktigt att ha god kännedom om fylogenetiska analyser för att kunna göra rätt val av program, metod och inställningar.

Som ovan beskrivits så är fylogenetiska metoder en del av ett stort och komplext vetenskapsfält. Precis som i de andra stegen i den molekylära typningen så beror metodvalet på den underliggande epidemiologiska frågeställningen. Detta metodval bör göras av någon som har god kompetens inom detta fält.

Vid fylogenetisk trädanalys utför man ofta en statistisk prövning av hur sannolikt det är att topografin i trädet (dvs grenordning och klustring) är korrekt återgiven. Den vanligaste metoden har länge varit så kallad ”bootstrap” test. Ett bootstrap värde över 70 % för ett kluster i trädet motsvarar oftast ungefär 95 % konfidens att klustret är ”sannolikt” utifrån de metodval man har gjort och de sekvenser man har inkluderat i analysen. Det är dock viktigt att komma ihåg att ett högt bootstrap värde kan vara helt missvisande om metodvalet är fel eller om viktiga kontrollsekvenser saknas i trädet. De Bayesiska metoderna ger en annan typ av sannolikhetsvärde, ”posterior probability”, för trädets topografi.

Konfirmering av resultaten[redigera]

Som ovan nämnts så avgör den epidemiologiska frågeställningen hur stort behovet av konfirmering av typningsresultaten är. Om kraven på korrekt resultat är höga så bör man göra en upprepad analys på samma prov eller ett nytt oberoende prov från samma individ. Om samma prov analyseras igen så bör hela analysprocessen från provpreparering till färdig sekvens göras om eftersom detta minskar risken för fel på grund av PCR-kontamination och provsammanblandning. Den säkraste konfirmeringen fås om resultaten verifieras på ett nytt prov från samma individ. Ett annat sätt att konfirmera resultaten är att analysera fler än ett område i arvsmassan. Detta kan vara av extra stort värde om organismen i fråga har en hög rekombinationsfrekvens eftersom rekombination kan leda till att olika delar av arvsmassan har olika evolutionär historia och därmed olika släktskap. Den ökade mängden sekvensinformation som erhålls kan även öka upplösningen i undersökningen.

Kvalitetssäkring och validering[redigera]

En molekylärepidemiologisk typningsanalys görs i allmänhet med en kedja av ”in-house” tekniker. För vissa steg i analysen (t.ex. nukleinsyreisolering) används dock i allmänhet kit-baserade metoder. Helst bör typningsanalysen ackrediteras, men detta är i praktiken ofta svårt eller opraktiskt. Det rör sig inte sällan om fåtalsdiagnostik, det saknas internationella referenser för typningsprocessen, det finns oftast inga panelutskick att tillgå och tre-laboratoriejämförelse kan vara svår att genomföra. Om inte typningsmetoden kan ackrediteras så bör allmänna principer för kvalitetssäkring ändå följas. Således bör laboratoriet vara ackrediterat. Det bör finnas dokumenterade rutiner och ”standard operating procedures, SOP:ar” som minimerar risken för provsammanblandning, kontamination och andra fel i analyskedjan.

Tolkning[redigera]

Tolkningen av en molekylärepidemiologisk typning kan ibland vara mycket enkel och andra gånger mycket komplicerad. Det är t.ex. sällan svårt att bestämma vilken genotyp en virusstam tillhör. Tolkningen kan dock vara betydligt svårare och mer grannlaga om det gäller en rättsmedicinsk undersökning med syfte att avgöra om det är sannolikt eller osannolikt att en viss person (A) har smittat en annan person (B) med HIV.

HIV-exemplet är illustrativt eftersom det här ställs mycket höga krav på korrekt tolkning av typningsresultaten. Om vi förutsätter att alla föregående steg i analysen gjorts 100 %-igt korrekt och att kontrollerna valts med största noggrannhet så har vi till sist tillgång till ett fylogenetiskt träd som är maximalt ”bra” och ”tillförlitligt”. Om vi sedan tänker oss att vi i dessa träd finner att HIV-stammarna från personerna A och B bildar ett kluster. Betyder detta att det är bevisat att smitta skett från A till B? Svaret är nej. Resultatet är förenligt med att smitta kan ha skett, men bevisar inte att så har skett. För det första så går det normalt inte att avgöra från trädanalysen åt vilket håll smittan skett. A kan ha smittat B eller B ha smittat A. För det andra så är det fylogenetiska trädet (i bästa fall) det mest sannolika trädet givet metodval och kontroller, men det är därför inte säkert att det är det sanna virusevolutions¬trädet. För det tredje så är finns det situationer då virusevolutionsträdet (vilket är vad vi experimentellt försöker erhålla) inte exakt överensstämmer med smittoträdet (vilket är det som vi är intresserade av). De statistiska analyserna, bootstrap test och posterior probability, kan ge viss vägledning, men inte heller ett högt bootstrap-värde bevisar att smitta skett. Den viktigaste orsaken till detta är att vi aldrig kan utesluta att det finns personer (som vi kan kalla C, D, etc) som vi inte har undersökt men som bildar en smittlänk mellan A och B.

Trots att molekylärepidemiologiska typningar inte med 100 %-ig säkerhet kan fastställa om smitta har skett mellan två personer så är det viktigt att framhålla att dessa metoder erbjuder ett mycket kraftfullt verktyg för epidemiologi och smittskydd. Molekylärepidemiologiska typningar kan ge värdefull kunskap om spridning av mikroorganismer som kan vara svåra eller omöjliga att erhålla genom traditionell epidemiologi och smittspårning. Det är viktigt att de som använder dessa kraftfulla metoder har full kännedom om deras möjligheter och begränsningar. Som vid all annan mikrobiologisk diagnostik är det också viktigt att ha ett genomtänkt system för kvalitetssäkring och validering.

Kvalitetssäkring och validering av molekylärepidemiologiska typningar

Innehåll