• 热线电话:010-56107385

常见问题答疑

联系方式

地 址:北京市昌平区北清路生命科学园博雅CC -9号楼2层
电 话:010-56107385
传 真:
邮 箱:support@ori-gene.cn

常见问题答疑

您现在的位置:首页 > 技术支持 > 常见问题答疑
生信分析常见问题

Q-1:覆盖率(Coverage ratio)是什么?覆盖深度(Coverage depth)是什么?测序深度和基因组覆盖率的关系如何?

A-1:覆盖比率,亦简称覆盖率,指被测序到的碱基占全基因组大小的比率。

  覆盖深度,亦简称覆盖度,指每个碱基被测序的平均次数。

  测序深度指平均碱基测序深度(测序的数据总量比上基因组大小)。测序深度与基因组覆盖度之间是一个正相关的关系,测序带来的错误率或假阳性结果会随着测序深度的提升而下降。重测序的个体,如果采用的是双末端或Mate-Pair方案,当测序深度在10-15X以上时,基因组覆盖度和测序错误率控制均得以保证。

Q-2:测序完成后的基因组、基因区域覆盖度是多少?

A-2:基因组覆盖度达到95%以上,基因区域覆盖度98%以上。

Q-3:一致性序列组装和基因组组装有什么不同?

A-3:基因组组装:没有参考基因组,首先需要构建多个不同插入片段长度的双末端文库。根据短readsoverlap关系将其组装成contig,然后利用大片段文库双末端关系和插入片段的大小,将contig又连接成scaffold,每个scaffold可能是由几个contig组成,中间会有gap的存在,然后再进行补洞。如果该物种有比较好的连锁图谱的话,可以将scaffolds定位回染色体。   

  一致性序列组装:根据与参考序列的比对结果,我们利用贝叶斯模型得到测序个体每个位点可能性最大的基因型,并组装出该个体的一致序列。

  一致序列的组装过程中,只有比对参考基因组具有唯一性的reads才能用于生成一致序列,如上面的示意图没有覆盖到部分用N代替。根据比对结果,综合考虑数据特征、测序质量及实验方面的影响因素,利用贝叶斯模型,在实际观察到的数据基础上计算出每个可能的基因型概率。挑选出概率最大的基因型作为该测序个体的特定位点的基因型,并在此基础上给出一个反映该基因型准确的质量值,并且得到一致序列。可见一致性序列的组装必须借助于参考基因组,并且只有唯一比对到参考序列上的reads才保留。

Q-4:重测序都可以检测哪些遗传变异?

A-4:重测序目前能够检测到的遗传变异包括SNPsingle nucleotide polymorphism, 单核苷酸多态性)、Indel(Insertion or deletion, 插入或缺失)、SV(structure variation, 结构变异)等。

Q-5Indel(insertion or deletion,插入或缺失)的定义?分析软件?如何寻找?

A-5:Indel指的是insertion or deletion,Indel包括插入或缺失突变,或两者兼之。Indel可以作为自然群体特别是进化过程中的遗传标记。

  源宜基因基于生成的 bam 文件,使用 GATK 软件识别其中的 SNPInDel 等变异,生成 vcf 格式的变异检测文件。

Q-6:Structure variation的定义?分析软件?

A-6:染色体发生的结构变异主要有4种:

(1)缺失:染色体中某一片段的缺失。

(2)重复:染色体增加了某一片段。

(3)倒位:染色体某一片段的位置颠倒了180度,造成染色体内的重新排列。

(4)易位:染色体的某一片段移接到另一条非同源染色体上或同一条染色体上的不同区域。

Q-7:群体重测序进行信息分析我们能获得什么?

A-7:重测序目前能够检测到遗传变异包括SNPsingle nucleotide polymorphism,单核苷酸多态性)、IndelInsertion or deletion,插入或缺失)、SV(structure variation,结构变异)。除此之外还可以进行连锁不平衡(LD)、系统进化树(phylogenetic tree)、群体遗传结构(Population Genetic Structure)、群体选择分析(Population Selective Analysis)等。

Q-8:什么是全基因组重测序BSA(WG-BSA)?

A-8:对已有参考基因组序列的所有作图群体(F1, F2, RIL, DH, BC1等),对亲本进行个体重测序,对某个极端性状后代进行混池重测序,检测SNPIndel等变异位点,通过关联分析精细定位与目标性状相关的基因区域,获得与性状紧密关联的分子标记,并通过功能注释定位到一些候选基因,BSA分析方法是目前最高效的单一性状功能基因定位方法。

Q-9:全基因组重测序BSA一般最少要求多少样本用于构建混池?

A-9:一般需要20-50个个体。

Q-10:连锁不平衡(Linkage disequilibrium)是什么?分析软件?

A-10:连锁不平衡(linkage disequilibrium, LD)指的是一个群体内不同座位等位基因之间的非随机关联, 包括两个标记间或两个基因/QTL间或一个基因/QTL与一个标记座位间的非随机关联。连锁不平衡与连锁是相关但完全不同的两个概念。连锁不平衡指的是群体内等位基因之间的相关,而连锁指的是位于同一条染色体上的基因联合传递的现象。紧密连锁可导致较高的LD水平,但这种LD纯粹是由突变产生的等位基因出现后紧密连锁座位间所有重组事件的结果。连锁不平衡分析是近年来的一个研究亮点和热点。基于LD的作图方法不仅是新基因发掘的有效途径,而且也是联系结构基因组学和表型组学的一座桥梁。LD分析软件有Haploview等。

Q-11:系统进化树是什么?有哪些分析方法或软件?

A-11:系统发生树(phylogenetic tree,又称evolutionary tree进化树)就是描述群体间进化顺序的分支图或树,表示群体间的进化关系。系统分析过程就是指构建群体之间的进化树,推测其亲缘关系的远近。分析软件有MEGA4.0PHYLIP 3.68等。

Q-12:什么是主成分分析(Principal component analysis)?

A-12:主成分分析(Principal component analysis,PCA)是一种纯数学的运算方法,可以将很多可能相关的变量转变成数量更少的主成分变量。PCA应用到很多学科,在遗传学当中,主要用于聚类分析,它是基于个体基因组SNP差异程度,按照不同性状特征将个体按主成分进行聚类成不同的亚群,同时用于和其它方法做相互验证。

Q-13:群体遗传结构(Population Genetic Structure)是什么?分析方法或软件有哪些?

A-13:群体遗传结构是指遗传变异在物种或群体中的一种非随机分布,即遗传变异在群体内、群体间的分布样式以及在时间上的变化。遗传结构的模式提供了对进化过程的见解,并帮助确定了物种群体基因型和表型关联的研究。分析软件有Structure、Frappe 以及Admixture等。

Q-14:群体选择分析是什么?有哪些分析方法或软件?

A-14:选择分析就是筛选那些不同亚群之间(如栽培和野生)之间能够造成这两个亚群在进化上为何分开,以及产生重大差异的一些变异位点,从而扩展到基因层面。选择分析的方法包括Fst value、Heterozygosity、Tajima’s D value、θπ value、HKA test、GORSS test等。

  连锁不平衡(LD)分析、系统进化树(phylogeny tree)分析、主成分分析(PCA)、遗传结构分析和群体选择分析都是基于SNPs进行的分析,寻找群体差异。例如野生群体和家养群体之间的相似或者差异较大的区域,相似非常高的可能说明在这段区域在这个物种中可能相对保守,而差异较大的区域可能就是由于受人工选择或者自然选择的敏感区域,这些区域可能与选择密切相关,可能是野生群体和家养群体产生差异的主要原因。

Q-15:常染色体和性染色全基因组重测序测序深度的差异问题?

A-15:如果所测样本为女性(XX),那么常染色体和性染色体重测序深度基本没有差异;如果所测样本为男性,因为性染色为 XY,因此在计算测序深度时是分开计算,其深度基本只有常染色体的一半;但由于 X 染色体和 Y 染色体同源性比较高,XY之间也会出现差异较大的情况。

Q-16:选择性消除分析的常用算法及软件有哪些?

A-16:选择消除分析是通过比较不同群体的差异,分析各亚群的多态性、受选择区域等,进而挖掘出与群体性状相关基因区域,开发相关分子标记。

  目前文章中常用的算法包括Fst分析(比较亚群分化程度)、Tajima’D分析(分析是否为中性进化或受正向选择)、pi分析(分析DNA多态性水平)等。常用软件Vcftools软件即可对这三种指标进行计算,进而分析群体间受选择的区域。

Q-17:群体进化的实验设计思路?

A-17材料选择:通常需要两个亚群以上,每个亚群选取10个样本左右(推荐动物≥10个,植物≥15个,珍稀物种可适当减少个体),总体建议不少于30个样本。

  测序策略:目前基于Illumina Hiseq 4000平台进行双末端测序PE150测序。建议群体进化研究的测序深度不低于10X

  研究方法:一般群体进化的分析包括遗传多样性分析、基因交流情况分析、功能基因挖掘以及群体进化动态分析。

Q-18:如果结题项目的结果文件中excel文件过大,如何打开?

A-18:可以使用UltraEdit、Editplus、Notepad++等文本编辑器打开。

Q-19GO分析样本如何来解读判断

A-19Gene Ontology (简称GO):是一个国际化的基因功能分类体系,提供了一套动态更新的标准词汇来描述生物体中基因和基因产物的属性。包括3Ontology分别描述基因分子功能(molecular function),所处的细胞位置(celluar component),参与的生物学过程(biological process)。

Q-20:如何避免基因组中的重复序列造成的组装错误?

A-20:应用新一代高通量测序技术,构建170bp、500bp、2Kb、5Kb、10Kb、20Kb等不同大小的DNA测序文库,进行双末端大量测序,可以避免基因组中的重复序列造成的错拼。当测序数据量达到基因组大小的60倍以上时,即可保证基因组的完整性和序列中单碱基的准确性。

Q-21:如何检测基因组组装的准确性?

A-21:目前,主要可以通过以下几种方法来检验基因组组装的准确性。

 

①通过构建BACFosmid文库,并进行常规测序,将所得序列与拼接好的Contigs做比对以判断基因组组装的准确率。

 

②将已知的基因序列与拼接好的Scaffolds做比对,查看两者是否吻合,吻合度越高,表明基因组组装越好,而且已知的基因序列越多,评价结果越可靠。

③估计组装后基因组的单碱基准确度,利用新一代测序技术,如果95%以上的基因组单碱基覆盖度超过20×,则认为该基因组的单碱基准确度较高。


2018精品视频自拍,2019最新国产不卡a,香蕉影视在线观看免费,香蕉电影在线观看免费,伊人大蕉香蕉在线官网