• 热线电话:010-56107385

联系方式

地 址:北京市昌平区北清路生命科学园博雅CC -9号楼2层
电 话:010-56107385
传 真:
邮 箱:support@ori-gene.cn

技术资料

您现在的位置:首页 > 技术支持 > 技术资料
系统发生树的构建方法

 常用的建树方法

建树方法前提是需要设定一个进化模型。建树标准在一定程度上依赖比对和取代模型。统计学方法、生物信息学方法的应用,计算机的快速发展以及对系统发生认识的进步,人们研究系统发生树的方法也越来越多,包括距离法、简约法、似然法、Hadamard结合法与神经网络法等等。目前常用的建树方法有最大距离法、最大简约法、最大似然法和贝叶斯法等。

距离法主要是考察数据组中所有序列的两两比对的差异决定进化树的拓扑结构与树枝长度,常用的方法如UPGMA、F-M法、Farr法、NJ法和ME等。

同源DNA序列比对确定后,系统发生树的重建有两种途径:一是先把多序列比对的数据合并成一组,然后在全并的基础上使用标准的建树方法进行建,此方法一般能得到比较好的结果,但是存在的问题是合并的序列比对中必须包括一组相同的物种,而且只能使用一个核苷酸替换模型对合并的序列比对进行分析;二是先根据各个基因序列分别构建各自的系统发育树,然后将这些系统树通过一定的优化技术,如MRP方法合并成一个“super-tree”,此方法可以重建包含较多物种生物类群的完整系统发育树的方法。建树的方法虽然很多,不同的方法在不同情况下应用所得到的结果存在差异。了解各种建树方法的优缺点并根据实际需求选择合适的方法进行建树是非常重要的。

  • 邻接法(Neighbor-Joining method,NJ)

NJ法是基于是最小进化原理,被认为是最小进化法ME的简化版。在重建系统发生树时,它取消UPGMA法所作的假定,认为在进化分支上,发生的趋异次数可以不同。此方法通过研究距离最近的成对分类单位来使系统树的总距离达到最小。优点:建树相对准确,假设少,计算速度快,只得一棵树;缺点:将序列的所有位点等同对待,且分析序列的进化距离不能太大。NJ法适合进化距离不大,信息位点少的短序列。

  • 最大简约法(Maximum parsimony method,MP)

根据离散型性状包括形态学性状和分子序列(DNA,蛋白质等)的变异程度,构建生物的系统发育树,并分析生物物种之间的演化关系。在最大简约法的概念下,生物演化应该遵循简约性原则,所需变异次数最少(演化步数最少)的演化树可能为最符合自然情况的系统树。MP法基于进化过程中所需核苷酸(或氨基酸)替代数目最少的假说,对所有可能正确的拓扑结构进行计算并挑选出所需替代数最小的拓扑结构作为最优系统树,也就是通过比较所有可能树,选择其中长度最小的树作为最终的系统发生树,即最大简约树(maximum parsimony tree)。与其他建树方法相比,MP法无需引入处理核苷酸或者氨基酸替代时所必需的假设(替代模型)。同时,MP法对于分析某些特殊的分子数据(如插入序列和插入/缺失)有用。在分析的序列位点上没有回复突变或平行突变,且被检验的序列位点数很大的时候,MP法能够获得正确的(真实)系统树。但MP法推导的树不是唯一的,在分析序列上存在较多的回复突变或平行突变,而被检验的序列位点数又比较少的时候,最大简约法可能会出现建树错误。MP法适用于序列残基差别小,具有近似变异率,包含信息位点比较多的长序列。

  • 最大似然法(maximum likelihood method,MI)

20世纪60年代末期由于对地生物信息学分析实践震波和水声信号等处理的需要而发展起来的一种非线性谱估计方法。MI法对所有可能的系统发育树都计算似然函数,似然函数值最大的那棵树即为最可能的系统发育树。利用最大似然法来推断一组序列的系统发生树,需首先确定序列进化的模型,如Jukes—Cantor模型、Kimura二参数模型及一般二参数模型等。在进化模型选择合理的情况下,MI法是与进化事实吻合最好的建树算法。缺点是计算强度非常大,极为耗时。

  • 贝叶斯法(Bayesian method,BI)

近年来发展起来的一种新的利用贝叶斯演绎法预测种系发生史的系统进化分析方法,它既保留了最大似然法的基本原理,又引进了马尔科夫链的蒙特卡洛方法,来模拟演化树的较晚期可能性分布,并使计算时间大大缩短。贝叶斯法根据多种分子进化模型,利用马尔科夫链的蒙特卡洛方法产生所有参数的后验概率估计值,这些参数包括拓扑结构、分支长度和替代模型各参数的估计。贝叶斯法得到的系统进化树不需要利用自引导法进行检验,其后验概率直观地反映了系统进化树的可信程度,是一种系统进化分析的好方法,它既能根据分子进化的现有理论和各种模型用概率重建系统进化关系,又克服了最大似然法计算速度慢、不适用于大数据集样本的缺陷。贝叶斯法和最大似然法相似,都是选定一个进化模型,然后通过程序搜索模型和序列数据一致的最优系统树;但二者的不同在于,最大似然法是以观察数据的最大概率来拟合系统树,贝叶斯法是通过系统树对数据及进化模型的最大拟合概率而得到系统树;最大似然法给出的是数据的概率,而贝叶斯法给出的是模型的概率;最大似然法搜索单一的最相似系统树,贝叶斯法得到的是具有大致相等似然的系统树集合。

比较以上几种主要的构树方法,通常情况,若有合适的分子进化模型可供选择,用最大似然法构树获得的结果较好;对于近缘物种序列,通常情况下使用最大简约法;而对于远缘物种序列,一般使用邻接法或最大似然法。对于相似度很低的序列,邻接法往往出现长支吸引现象,有时严重干扰进化树的构建。

对于各种方法重建进化树的准确性,Hall(2005)认为贝叶斯法最好,其次是最大似然法,然后是最大简约法。邻接法和最大似然法是需要选择模型的。蛋白质序列和DNA序列的模型选择是不同的。蛋白质序列的构树模型一般选择Poisson correction(泊松修正),而核酸序列的构树模型一般选择Kimura 2-parameter(Kimura一2参数)。如果对各种模型的理解并不深入,最好不要使用其他复杂的模型。参数的设置推荐使用缺省的参数。

在重建进化树过程中,均需选择bootstrap进行树的检验。一般bootstrap的值>70,则认为重建的进化树较为可靠。如果bootstrap的值太低,则有可能进化树的拓扑结构有错误,进化树是不可靠的。因此,一般推荐用两种以上不同的方法构建进化树,如果所得到的进化树类似,且bootstrap值总体较高,则得到的结果较为可靠。


系统发育分析常用软件



如果您有软件或者进化分析方面的需求,欢迎给我们发邮件沟通哦!软件下载链接


参考文献

[1] 吴祖建, 高芳銮, 沈建国. 生物信息学分析实践[M]. 科学出版社, 2010.

[2] 徐广, 方庆权, James,等. 分子系统进化关系分析的一种新方法——贝叶斯法在硬蜱属中的应用[J]. 动物学报(Current Zoology), 2003, 49(3):380-388.

[3] 张丽娜, 荣昌鹤, 何远,等. 常用系统发育树构建算法和软件鸟瞰[J]. Zoological Research, 2013, 34(6):640-650.

[4] Hall P, Wang J Z. Bayesian likelihood methods for estimating the end point of a distribution[J]. Journal of the Royal Statistical Society, 2005, 67(5):717–729. 


2018精品视频自拍,2019最新国产不卡a,香蕉影视在线观看免费,香蕉电影在线观看免费,伊人大蕉香蕉在线官网