【佳學(xué)基因檢測(cè)】基因解碼如何更好的分析線粒體基因突變檢測(cè)

線粒體基因檢測(cè)后的突變位點(diǎn)注釋

在2013 年 2 月，ANNOVAR 可以注釋線粒體變異，在對(duì)線粒體突變進(jìn)行解碼和注釋時(shí)，染色體采用 M 、 MT、chrM 或 chrMT進(jìn)行標(biāo)記。在這種情況下，基因解碼分析系統(tǒng)將調(diào)用線粒體專屬密碼子表以分析基因序列變化而引起的結(jié)構(gòu)變化，這是基因解碼優(yōu)與常規(guī)分析方法之一。然而，有幾個(gè)方面需要注意：

RefSeq 沒有線粒體基因定義。因此使用 ANNOVAR方法時(shí)行注釋時(shí)，需要使用 UCSC Known Gene 或 Ensembl Gene。

佳學(xué)基因解碼發(fā)現(xiàn)UCSC 的 hg19 參照序列使用舊版本的線粒體基因組 (NC_001807)，但 1000 基因組聯(lián)盟已用賊新的劍橋參考序列版本 (NC_012920) 取代了 chrM。因此，如果根據(jù) NC_012920 對(duì)序列進(jìn)行比對(duì)，并獲得突變序列信息，就會(huì)無(wú)法真正使用 UCSC 的基因定義來(lái)對(duì)突變序列進(jìn)行解釋。基因解碼在進(jìn)行基因序列分析必須堅(jiān)持使用相同的坐標(biāo)體系。為了更好地解釋這一點(diǎn)，當(dāng)基因測(cè)序以FASTQ 文件形式獲取原始序列數(shù)據(jù)時(shí)，如果將數(shù)據(jù)與 UCSC 編譯的參考基因組進(jìn)行比對(duì)（通常文件名類似于 hg19.fa，并且有一些染色體的名稱如 chrx_random），那么可以直接使用ANNOVAR將所有的突變序列一起注釋。線粒體突變序列將是那些與 chrM 相符的突變序列，2013 年 2 月版本的 ANNOVAR 可以正確注釋它們。基因解碼研究人員編寫了一個(gè)用于兩個(gè)參考序列之間位置轉(zhuǎn)換的程序文件，并用它來(lái)將 GRCh37 文件匹配到 hg19 文件。通過在 hg19 參考序列 (AF347015.1) 上使用retrieve_seq_from_fasta.pl，將為基于 hg19 的線粒體注釋生成后續(xù)的解釋文件。

許多基因檢測(cè)及測(cè)序機(jī)構(gòu)沒有意識(shí)到的一個(gè)伴隨性的結(jié)果，Ensemble 對(duì)線粒體基因存在注釋錯(cuò)誤（通常是幾個(gè)堿基對(duì)），因此不應(yīng)使用 Ensembl 的基因注釋。舉個(gè)簡(jiǎn)單的例子，你可以在 UCSC 基因組瀏覽器中搜索 ENST00000389680：當(dāng) Gencode 列出位置為 chrM:650-1603 時(shí)，Ensembl 注釋顯示為 chrM:646-1599，這里有個(gè)4bp的差異。由于這些原因，當(dāng)調(diào)用 hg19 坐標(biāo)上的基因突變序列時(shí)，應(yīng)該使用佳學(xué)基因解碼提供的文件進(jìn)行線粒體注釋，以確何線?；蛲蛔冃蛄袡z出的正確性。

為了生物信息分析人員更容易做到這一點(diǎn)，基因解碼提供兩個(gè)文件：ANNOVAR中humandb/ 目錄中的 hg19_MT_ensGene.txt 和 hg19_MT_ensGeneMrna.fa。 -buildver 是 hg19_MT，-dbtype 是 ensGene。

但是，如果將原始 FASTQ 文件與具有 NC_012920 的參考基因組（例如 1000 Genomes Project 提供的基因組，通常文件名類似于 human_g1k_v37.fasta）進(jìn)行比對(duì)，那么需要使用具有 NC_012920 的自定義基因定義文件 NC_012920 的正確線粒體基因定義。基因解碼提供了此類基于Ensemble定義的文件。請(qǐng)注意，染色體名稱通常應(yīng)為 MT（2013 年 6 月之前，基因解碼操作說明文件中使用 chrM，這導(dǎo)致一些 ANNOVAR的生物信息技術(shù)人員感到困惑，因此基因解碼隨后將其更改為 MT 并使用 GRCh37 的標(biāo)準(zhǔn)）。在這種情況下，應(yīng)該使用以下命令來(lái)注釋線粒體變體：annotate_variation.pl -buildver GRCh37_MT -dbtype ensGene mt.avinput humandb/。

為了讓基因檢測(cè)機(jī)構(gòu)的生物信息分析更容易做到這一點(diǎn)，基因解碼現(xiàn)在在 ANNOVAR 包 humandb/ 目錄中提供了兩個(gè)文件 GRCh37_MT_ensGene.txt.gz 和 GRCh37_MT_ensGeneMrna.fa.gz。 -buildver 是 GRCh37_MT，-dbtype 是 ensGene。

(責(zé)任編輯：佳學(xué)基因)