• 免费服务热线
  • 400-065-6886
  • 电话:86(0)512-6295 9990
  • 传真:86(0)512-6295 9995
新闻中心

新闻媒体-太阳成tyc7111cc

发稿时间:2020-06-23来源:天昊生物

前言

全外显子测序中重要的步骤就是遗传分析,可以针对家系或者散发样本,按照相应的遗传模型来筛选候选基因。但是如果他们亲缘关系有误,比如无关样本中混入有血缘关系的样本,或者理论上有血缘关系的样本实际上没有关系等等都必然会导致后续遗传分析假阳性或者假阴性。样本亲缘关系不对通常可能是由以下几个原因导致:1. 取样有问题2.实验过程中样本搞错3.分析时样本相互标错。在外显子测序分析中,为了避免以及及时发现这些错误,我们可以使用king软件,基于样本的突变检测结果,对他们进行亲缘关系鉴定。


功能

基于基因型数据,计算样本间亲缘关系系数,可以根据相应的系数范围来判断样本之间的亲缘关系。 软件下载链接:king  http://people.virginia.edu/~wc9c/king/download.htm ; plink2  https://www.cog-genomics.org/plink/2.0/ 可根据需要下载相应的版本。


使用方法

1. 文件准备

全外显子测序结果的vcf格式压缩文件

2. 运行

1) 二进制文件转换,此步骤需要plink软件完成。 “plink2  --vcf  a.vcf.gz  --make-bed  --out a”结果生成a.bed , a.bim以及a.fam 。

2) 关系系数计算   “king  -b  a.bed  --kindship  --prefix  relationship ”

结果

fid 表示family id, id 是个体id,两者组合可以表示一个唯一个体。kindship是亲缘关系系数,可用于判断两个个体间的亲缘关系。


结果可视化

首先需要将上一步骤生成的文件进行转换,手动转换成如下图矩阵的形式,并保存成文本格式,这里定义成“relationship.txt”用于后面绘图。

亲缘关系系数绘图使用的是r 的pairs() 函数,具体如下:

relation=read.table("relationship.txt",sep="t",header=t,row.name=1,check.names=f)
relation=as.matrix(relation)
relation
zd     mu     fuzd  1 0.2525 0.2498
mu na 1.0000 0.0010
fu na     na 1.0000
pdf("relationship.pdf")
panel.cor <- function(x, y, digits=2, prefix="", cex.cor, ...){usr <- par("usr"); on.exit(par(usr)); par(usr = c(0, 1, 0, 1)); z=x[!is.na(y)]; txt=as.numeric( sprintf( "%0.4f", z[length(z)] ) ); if(missing(cex.cor)) cex.cor <- 0.8/strwidth(txt); color=1; if(txt>=0.354) color=2; if(txt>=0.177 && txt<0.354) color=3; if(txt>=0.0884 && txt<0.177) color=4; if(txt>=0.0442 && txt<0.0884) color=5; text(0.5, 0.5, txt, cex = cex.cor,col=color)}
pairs(relation,lower.panel = null,font.labels = 2,main="sample relationship (based on king software)",upper.panel = panel.cor)
info=c(">0.354                = duplicate/mz twinn", "[0.177, 0.354]     =, 1st-degreen", "[0.0884, 0.177]   = 2nd-degreen", "[0.0442, 0.0884] = 3rd-degreen")
mtext(info,side=1,adj=0,cex=1.3,line=c(-4,-2,0,2),col=c(2,3,4,5))
dev.off()
null device

     

图中为三口之家,mu,fu分别为zd的母亲与父亲,母亲与父亲之间无血缘关系

duplicate/mz twin : 重复个体或者同卵双胞胎。关系判断阈值[>-0.354]

1st-degree(一级亲属):一个人的父母、子女以及亲兄弟姐妹。关系判断阈值[0.177-0.354]

2nd-degree(二级亲属):一个人和他的叔、伯、姑、舅、姨、祖父母、外祖父母。关系判断阈值[0.0884-0.177]

3rd-degree(三级亲属):表兄妹或堂兄妹。关系判断阈值[0.0442-0.0884]

参考文献:

manichaikul a, mychaleckyj jc, rich ss, daly k, sale m, chen wm (2010) robust relationship inference in genome-wide association studies. bioinformatics 26(22):2867-2873


往期相关链接:

1、r基础篇





2、r进阶

3、数据提交

;

4、表达谱分析

5、医学数据分析

太阳成tyc7111cc copyright © 2012-2021 天昊基因科技(苏州)有限公司    all rights reserved   
网站地图