snp关联研究或者gwas研究的阳性位点,大部分时候总能很优秀的落在非编码区。
这些非编码snp到底影响了什么???
别着急,给你推荐2个数据库挖挖看,或许就有收获。
◆encode数据库(encyclopedia of dna elements, https://www.encodeproject.org/):由美国国家人类基因组研究所(nhgri)在2003年发起的一个项目,主要存放了人类、小鼠、果蝇、蠕虫这4个物种的多种细胞和组织类型的各种调控过程的测序结果(the primary goal of the encode project is to determine the role of the remaining component of the genome, much of which was traditionally regarded as "junk.")。这一项目的研究人员对147种细胞系进行了将近1,650次实验,涉及分子转录,转录因子结合,染色体拓扑结构,组蛋白修饰,dna甲基化等多方面表观遗传学内容。2008年,也就是nhgri启动encode计划的五年后,nih又开始了第二项大规模图谱绘制工程:表观基因组学路线图项目(roadmap epigenomics program),这一项目整理了61个“完整”的表观基因组,并且未来还计划进行更多的研究。大量的表观遗传学数据,可能能够为非编码区的snp调控功能提供解释。
haploreg和regulomedb数据库,将encode数据库中的调控数据与基因组中snp数据结合起来,从而实现了对snp调控功能的综合评价。
●网址:
https://pubs.broadinstitute.org/mammals/haploreg/haploreg.php
●数据输入页面
●以rs2854510为例的综合结果展示页面,每个snp的详细注释结果需点击snp的名字
1. siphy cons:序列保守性注释(siphy软件)。
2. promoter histone marks,enhancer histone markers,dnase:来源于dnase和chip-seq实验的调控元件分类注释结果,包括是否处于组蛋白修饰位置(promoter,enhancer等);属于什么染色质状态chromatin states(来自roadmap项目);是否处于染色质开放区域(dhs区域)。
1)chromatin states (core 15-state model)
包括前面8个活跃状态和后面7个抑制状态,具体含义和缩写见下图。
2) chromatin states (25-state model using 12 imputed marks)
具体含义和缩写见下图。
3)h3k4me1, 与基因的转录激活有关,代表此处是转录增强子peak
4)h3k4me3, 与基因的转录激活有关,代表此处是启动子区peak
5)h3k27ac,与基因的转录激活有关,代表此处是转录增强子peak
6) h3k9ac, 与基因的转录激活有关,代表此处是启动子区peak
7) dnase,说明此处对dnaseⅰ表现出高度敏感,处于转录活跃区
3.proteins bound :基于chip-seq 实验,展示在何种细胞中snp处于何种转录因子的结合位点.
具体信息需要查看snp位点详细页面的信息:
4.motifs changed:基于encode 的转录因子chip-seq数据,整理了这些转录因子的基因组结合motif。这里会展示snp的两个碱基对motif的影响。
5.nhgri/ebi gwas hits:基于nhgri catalog,提示该snp是gwas研究的阳性位点
6.grasp qtl hits:基于grasp数据库,提示该snp是某个性状的阳性位点
7.selected eqtl:基于gtex analysis v6, the geuvadis analysis, 和其它10篇文献,提示该snp在xxx组织中调控xxx基因表达
●网址:
https://www.regulomedb.org/regulome-search
●数据输入页面:
●结果综合展示页面
第三列rank的解读:
第四列score解读:
regulomedb概率得分从0到1不等,1代表最可能是调控变异。regulomedb得分基于功能基因组学特征以及实验来源的连续值,如chip-seq信号、dnase-seq信号、信息含量变化和deepsea得分等。详细信息可参考最新文献:
dong s and boyle ap. predicting functional variants in enhancer and promoter elements using regulomedb. human mutation 2019, 40:1292-1298. pmid: 31228310.
概率得分和第三列的rank之间总体上是正相关的,但也有一些例外,因为1)预测概率得分时增加了一些额外的特征数据。2)概率评分中使用的特征与rank评分的权重不同。
●点击rs3768324,获得详细注释信息
细节数据基本是和haploreg重叠的,展示的细节略有区别,建议老师们两个数据库都进行查询和参考。
扩展阅读:
基于haploreg和regulomedb数据库的生信挖掘文章:liao, x., lan, c., liao, d. et al. exploration and detection of potential regulatory variants in refractive error gwas. sci rep 6, 33090 (2016). https://doi.org/10.1038/srep33090
snp位点基于haploreg和regulomedb数据库进行功能注释:song j, yang y, mauvais-jarvis f, wang yp, niu t. kcnj11, abcc8 and tcf7l2 polymorphisms and the response to sulfonylurea treatment in patients with type 2 diabetes: a bioinformatics assessment. bmc med genet. 2017;18(1):64. published 2017 jun 6. doi:10.1186/s12881-017-0422-7
天昊生物
帮您更好的完成实验,
帮您认识更好的数据库!
欢迎联系太阳成tyc7111cc!
电话:18964693703(微信同号)
公司网址:www.geneskybiotech.com
邮箱:techsupport@geneskies.com