天天看點

Database in BioInformation

很多資料庫都可以通過下面的網站下載下傳:http://annovar.openbioinformatics.org/en/latest/user-guide/download/

一、NHLBI-ESP(Exome Sequencing Project)

 國家心肺和血液研究所外顯子組測序計劃(NHLBI-ESP project),這個計劃中的esp6500si_all資料庫中包含SNP變異、InDel變異和Y染色體上的變異的所有個體中,突變堿基的等位基因頻率,通過注釋,我們可以了解到突變在ESP6500的變異頻率,并過濾突變頻率大于0.01的資料。

 下載下傳位址:http://evs.gs.washington.edu/EVS/

 注意:Have any of the ESP variants been validated by Sanger sequencing?

  Large scale validation of the variants was not performed. However, sequencing validation of a small number of singleton (~200) and high frequency SNP calls (~800) was performed and reported in Tennessen et. al. as published in Science online May 21, 2012 (PMID: 22604720). None of the INDEL calls was validated, In general, the INDEL calls are less robust than the SNP calls and have a higher false positive rate. When applying the ESP data to research studies, users are advised to keep this difference in mind.

 所述上述資料庫,并不是每個位點都經過了sanger驗證。

 下載下傳位址:http://www.openbioinformatics.org/annovar/download/hg19_esp6500siv2_all.txt.gz

二、ExAC

 ExAC資料庫的全稱是(the Exome Aggregation Consortium,外顯子組整合資料庫),包含了六萬多人的外顯子變異情況,這些個體來源于大量疾病研究和群體遺傳學研究,能夠用做嚴重疾病研究的參考資料庫。目前ExAC資料庫中包括ALL,AFR(African),AMR(Admixed American),EAS(East Asian),FIN(Finnish),NFE(Non-finnish European),OTH(other),SAS(South Asian)

 下載下傳方式:perl annotate_variation.pl -downdb -webfrom annovar -buildver hg19 exac03 ./

 下載下傳位址:http://www.openbioinformatics.org/annovar/download/hg19_exac03.txt.gz

三、KAVIAR

 Kaviar (~Known VARiants) is a compilation of SNVs, indels, and complex variants observed in humans, designed to facilitate testing for the novelty and frequency of observed variants. 

 下載下傳方式:perl annotate_variation.pl -downdb -webfrom annovar -buildver hg19 kaviar_20150923 ./

 下載下傳位址:http://www.openbioinformatics.org/annovar/download/hg19_kaviar_20150923.txt.gz

四、1000 Genomes project

 下載下傳方式:perl annotate_variation.pl -buildver hg19 -downdb -webfrom annovar 1000g2015aug ./

 下載下傳位址:http://www.openbioinformatics.org/annovar/download/hg19_1000g2015aug.zip

五、ensembl

 Ensemble( ensembl.org網站是常用真核生物參考基因組來源之一 )能夠對人類基因自動進行注釋,包括人類,小鼠,斑馬魚,豬和大鼠等

 Ensembl是一項生物資訊學研究計劃,旨在開發種能夠對真核生物基因組進行自動注釋(automatic annotation)并加以維護的軟體系統。該計劃由英國Sanger研究所Wellcome基金會及歐洲分子生物學實驗室所屬分部歐洲生物資訊學研究所共同協作營運。

 Ensembl與NCBI的NCBI Map Viewer和UCSC是最為常用基因組檢索資料庫,與NCBI Map Viewer和UCSC最大差別表現在以下5點:

  a.Ensembl的基因資料集是依據mRNA和蛋内序列的資料資訊白動注釋的。資料來源為新的基因組資料,UniProt/SwissProt和UniProt/TrEMBL的蛋白序列,NCBI的RefSeq裡的DNA和蛋白序列和EMBL的cDNA序列。

  b.Ensembl是一個開源(Perl API )的全自動的基因注釋軟體系統,很多網站都采用Ensembl這套軟體系統。

  c.Ensembl擁存其特有的BioMart功能。BioMart可以依據設定的要求對基 因組進行條件性檢索,檢索的結果吋以以圖表的形式給出。

  d.與其它資料庫相整合,比如DAS。

  e.基因組間的比較分析。

 目前從事基因注釋的機構組織有很多,這裡列出的隻是較為常用的幾個。

  Ensembl:目的是做出最好的基因注釋集。

  Havana (VEGA):是桑格中心的一個基因注釋組織,它的目标和Eiisembl—緻,是以,結合得也最緊密。

  HGNC -給出人類基因唯一的名字和符号。

  UniProt 主要集中于蛋白質的資訊注釋。

 Ensembl的通用基因注釋有兩種,一是Ensembl GeneBuild,它是自動化注釋,速度快,實時更新,在不同物種上均适用;另一種是Wellcome基金會的 Havana (VEGA)小組的注釋,它是手工注釋,速度慢,但是準确,它依據的都是已經驗證過的mRNA和蛋白序列來注釋,比較費時。是以Ensembl基因組資料庫 中,會有兩種注釋。

 Havana (VEGA)小組的注釋常有以下幾種類型:詳細資訊:http://vega.sanger.ac.uk/info/about/gene_and_transcript_types.html

  Protein coding: 包括開放閱讀框 (ORF).

  Processed transcript:沒有開放閱讀框(ORF)

  Pseudogene:假基因,是指脫氧核糖核酸(DNA)的堿基序列中,一段與其他生物體内已知的基因序列非常相似的片段。但是這個片段由于移碼突變或者無義突變破壞了ORF,無法發揮原有的基因功能,也就是無法制造出蛋白質

  IG gene:免疫球蛋白家族基因

  TR Gene:T細胞受體基因

  TEC (To be Experimentally Confirmed)

六、miRBase

 網址:http://www.mirbase.org/,衆所周知的microRNA基因注釋資料庫。目前miRBase隻提供了microRNA的靶标的預測軟體的連結(如:PicTar)

七、INSDC

 網址:http://www.insdc.org/

八、MIM

 wget https://omim.org/static/omim/data/mim2gene.txt

九、GWAS

 wget http://www.genome.gov/admin/gwascatalog.txt

十、snp147.txt.gz(該網站包含了Annotation database)

 wget http://hgdownload.soe.ucsc.edu/goldenPath/hg19/database/snp147.txt.gz

  • hg38: http://hgdownload.soe.ucsc.edu/goldenPath/hg38/database/
  • hg19: http://hgdownload.soe.ucsc.edu/goldenPath/hg19/database/

十一、dbNSFP2.9.txt.gz(SnpSift需要改檔案存在索引檔案)

 建構索引:運作結束才會出現dbNSFP2.9.txt.gz.tbi檔案

tabix -s 1 -b 2 -e 2 dbNSFP2.9.txt.gz      

 http://snpeff.sourceforge.net/SnpSift.version_4_0.html#dbNSFP(an integrated database of functional predictions from multiple algorithms (SIFT, Polyphen2, LRT and MutationTaster, PhyloP and GERP++, etc.).)

 https://drive.google.com/uc?export=download&id=0B7Ms5xMSFMYlSTY5dDJjcHVRZ3M

轉載于:https://www.cnblogs.com/always-fight/p/9002252.html