【佳學(xué)基因檢測】基因解碼如何更好的分析線粒體基因突變檢測
線粒體基因檢測后的突變位點注釋
在2013 年 2 月,ANNOVAR 可以注釋線粒體變異,在對線粒體突變進(jìn)行解碼和注釋時,染色體采用 M 、 MT、chrM 或 chrMT進(jìn)行標(biāo)記。在這種情況下,基因解碼分析系統(tǒng)將調(diào)用線粒體專屬密碼子表以分析基因序列變化而引起的結(jié)構(gòu)變化,這是基因解碼優(yōu)與常規(guī)分析方法之一。 然而,有幾個方面需要注意:
RefSeq 沒有線粒體基因定義。 因此使用 ANNOVAR方法時行注釋時,需要使用 UCSC Known Gene 或 Ensembl Gene。
佳學(xué)基因解碼發(fā)現(xiàn)UCSC 的 hg19 參照序列使用舊版本的線粒體基因組 (NC_001807),但 1000 基因組聯(lián)盟已用賊新的劍橋參考序列版本 (NC_012920) 取代了 chrM。 因此,如果根據(jù) NC_012920 對序列進(jìn)行比對,并獲得突變序列信息,就會無法真正使用 UCSC 的基因定義來對突變序列進(jìn)行解釋?;蚪獯a在進(jìn)行基因序列分析必須堅持使用相同的坐標(biāo)體系。 為了更好地解釋這一點,當(dāng)基因測序以FASTQ 文件形式獲取原始序列數(shù)據(jù)時,如果將數(shù)據(jù)與 UCSC 編譯的參考基因組進(jìn)行比對(通常文件名類似于 hg19.fa,并且有一些染色體的名稱如 chrx_random) ,那么可以直接使用ANNOVAR將所有的突變序列一起注釋。 線粒體突變序列將是那些與 chrM 相符的突變序列,2013 年 2 月版本的 ANNOVAR 可以正確注釋它們。 基因解碼研究人員編寫了一個用于兩個參考序列之間位置轉(zhuǎn)換的程序文件,并用它來將 GRCh37 文件匹配到 hg19 文件。 通過在 hg19 參考序列 (AF347015.1) 上使用retrieve_seq_from_fasta.pl,將為基于 hg19 的線粒體注釋生成后續(xù)的解釋文件。
許多基因檢測及測序機(jī)構(gòu)沒有意識到的一個伴隨性的結(jié)果,Ensemble 對線粒體基因存在注釋錯誤(通常是幾個堿基對),因此不應(yīng)使用 Ensembl 的基因注釋。 舉個簡單的例子,你可以在 UCSC 基因組瀏覽器中搜索 ENST00000389680:當(dāng) Gencode 列出位置為 chrM:650-1603 時,Ensembl 注釋顯示為 chrM:646-1599,這里有個4bp的差異。 由于這些原因,當(dāng)調(diào)用 hg19 坐標(biāo)上的基因突變序列時,應(yīng)該使用佳學(xué)基因解碼提供的文件進(jìn)行線粒體注釋,以確何線粒基因突變序列檢出的正確性。
為了生物信息分析人員更容易做到這一點,基因解碼提供兩個文件:ANNOVAR中humandb/ 目錄中的 hg19_MT_ensGene.txt 和 hg19_MT_ensGeneMrna.fa。 -buildver 是 hg19_MT,-dbtype 是 ensGene。
但是,如果將原始 FASTQ 文件與具有 NC_012920 的參考基因組(例如 1000 Genomes Project 提供的基因組,通常文件名類似于 human_g1k_v37.fasta)進(jìn)行比對,那么需要使用具有 NC_012920 的自定義基因定義文件 NC_012920 的正確線粒體基因定義。 基因解碼提供了此類基于Ensemble定義的文件。 請注意,染色體名稱通常應(yīng)為 MT(2013 年 6 月之前,基因解碼操作說明文件中使用 chrM,這導(dǎo)致一些 ANNOVAR的生物信息技術(shù)人員感到困惑,因此基因解碼隨后將其更改為 MT 并使用 GRCh37 的標(biāo)準(zhǔn))。 在這種情況下,應(yīng)該使用以下命令來注釋線粒體變體:annotate_variation.pl -buildver GRCh37_MT -dbtype ensGene mt.avinput humandb/。
為了讓基因檢測機(jī)構(gòu)的生物信息分析更容易做到這一點,基因解碼現(xiàn)在在 ANNOVAR 包 humandb/ 目錄中提供了兩個文件 GRCh37_MT_ensGene.txt.gz 和 GRCh37_MT_ensGeneMrna.fa.gz。 -buildver 是 GRCh37_MT,-dbtype 是 ensGene。