• 热线电话:010-56107385

常见问题答疑

联系方式

地 址:北京市昌平区北清路生命科学园博雅CC -9号楼2层
电 话:010-56107385
传 真:
邮 箱:support@ori-gene.cn

常见问题答疑

您现在的位置:首页 > 技术支持 > 常见问题答疑
生物信息分析之聚类分析

         今天给大家讲一下聚类分析。聚类分析在生物信息中用的比较多,但是反应在文章里其实没有单独的图表,所以大家对它的感受不深,一般也很少关注。所以这篇文章看起来远远不如前面的热图和PCA分析来的好玩儿,但是作为信息分析的基础内容,不讲不合适。

聚类分析已经在很多领域得到了广泛应用,如数据挖掘、统计学、图形分割、机器学习、生物信息学等等。在生物学上,聚类用于推导植物动物和微生物的分类,以及对基因进行分类,目前基因数据聚类已经成为聚类分析中的一个前沿分支学科,主要包括基因表达数据聚类和基因序列数据聚类。如果有同学是做一些育种等方向的研究,或者具有SAS和SPSS的使用经验,应该对聚类还是比较熟悉的,在一些对生物环境,生物个体等的统计分析中,聚类也是常用的方法。

聚类分析事先并不知道样本的类别,通过某种算法把一组未知类别的样本划分为一些类别,这种在机器学习中称为无监督学习。

上图就是一个简单的二维数据聚集过程,我们能清楚的看到数据怎么聚类的。在二维和三维的数据集中,我们能比较容易的通过目测就可以进行简单的分类。在多变量大数据的聚类分析中,基本原理是相同的,根据样本自身的属性,用数学方法按照某种相似性或差异性指标,定量地确定样本之间的亲疏关系,并按这种亲疏关系程度对样本进行聚类。通俗的讲,聚类分析就是根据事物彼此不同的属性进行辨认,将具有相似属性的事物聚为一类,使得同一类的事物具有高度的相似性。反映在数据上,就是对数据的数学特征对数据进行分类,这些特征包括不限于:平均值、相关系数、协方差矩阵的本征值……

在基因表达聚类方面,从数学的角度,聚类得到的基因分组,一般是组内各成员在数学特征上彼此相似,但与其它组中的成员不同。从生物学的角度,聚类分析方法所隐含的生物学意义或基本假设是,组内基因的表达谱相似,它们对某种处理具有相似的反应,在某个层面上是同一个类别。或者对一些未知功能的基因,具有相似表达谱的基因可能具有相同的功能,共享相似的转录模式。虽然这个不一定是正确的,有许多意外的情况存在,大量功能相关的基因在相关的一组条件下会有非常相似的表达谱,特别是被共同的转录因子共调控的基因,或者产物构成同一个蛋白复合体,或者参与相同的调控路径。因此,在具体的应用中,可以根据对相似表达谱的基因进行聚类,从而指派未知基因的功能。同理,在微生物中,可以根据得到的OUT对样本进行聚类分析,从而对样本进行类别区分;在疾病的分型中也可以使用类似的方法。


聚类分析过程:

1.数据预处理——标准化。

在前面介绍热图的时候,简单的讲过z-score标准化,这种是方差标准化。除此之外,还有多种标准化方法,有兴趣的同学请自行查阅,不然标准化方法也得讲一章。大家还记得为什么要做标准化么?因为变量的量纲不同或者数量级差别很大,为了能放在一起进行比较,所以要做一些变换。

2.构造关系矩阵——描述样本间亲疏关系。

描述样本或者变量间的亲疏程度的指标一般有两种:相似系数和距离。相似系数这个比较容易明白,距离这个是什么意思呢?把每一个样品或者变量看作是n维空间的一个点,在这个空间里计算点之间的距离。距离较近的点就是一类的。大家想一下在PCA里面提到的,是不是比较容易理解了,简化为二维平面的话,就是前图描述的那样子,凑在一起的点是一起的。不过就是n维空间的距离计算方式和低维空间的不一样而已。一般来说,我们用欧式距离来衡量。n维欧氏空间里的点X可以表示为 (x[1],x[2],…,x[n]) ,其中 x[i](i = 1,2,…,n) 是X在每个维度的坐标。两个点 A = (a[1],a[2],…,a[n]) 和B = (b[1],b[2],…,b[n]) 之间的距离L(A,B) 这么算:L(A,B) =(∑( a[i] - b[i] )^2)1/2。如果是基因表达谱,不同的样本,我们可以把一个基因的表达量作为一个维度,计算样本间在这个多维空间的距离,然后对其进行分类。

3.聚类——根据不同方法进行分类。

聚类分析方法有很多,分几个大流派,每个流派里又有多种算法。这里不进行展开介绍。在上周的热图详解文章中,热图旁边的聚类是层级聚类方法得到的。还有一种也很常用的聚类方法是k-means聚类,这也是聚类分析中两种主要的计算方法。简单的介绍下这两种算法。

层级聚类也称为层次聚类、系统聚类、谱系聚类。在基因表达谱聚类分析中是常用方法,得到的结果用树状图的形式表示,非常容易理解和实现,能够直观的观察基因之间的相互关系,尤其是不同类之间的关系。其基本思想是让每个样品自成一类,计算出相似性测度。此时类间距离与样品间距离是等价的,把测度最小的两个类合并,也就是最近的那些样本合为一类。然后按照某种聚类方法计算类间的距离,再按最小距离准则合并类。这样每次减少一类,持续下去直到所有样品都归为一类为止。所以,现在你知道为什么是一个树状图了。下图是R自带的鸢尾花数据聚类结果。 

K-Means,即K-均值聚类也称为快速聚类法,不考虑类的分层结构问题,该算法使待聚类的所有向量到聚类中心的距离的平方和最小。基本算法是:任意选取K个基因表达谱向量作为初始聚类中心,也即是选择随机的凝聚点。然后对所有的基因表达谱向量进行迭代计算,距离凝聚点近的归为一簇,通过反复计算,检查归类是不是合理,重新分配凝聚点。迭代结束后,得到最终结果。聚类中心的个数 K 、初始聚类中心的选择、基因排列的顺序 以及基因表达谱数据的分布影响聚类的结果,当基因表达谱类别之间分离较远时,该算法可以取得令人满意的聚类分析结果。

到这里,聚类分析的基础讲完了。不知道大家是不是还觉得比较抽象呢。生信分析完毕后肯定也不是给大家一堆纯数据,现在讲究的是数据可视化。前面讲过的热图就是聚类分析的一种可视化形式。还有一种形式是点线图。如果大家用过STEM软件就会对这种图比较熟悉。左下图是聚类结果,右下图是某个类中的样本的基因表达情况。一条曲线就表示了一个基因在不同条件下的表达水平,对于时间相关的数据,可以在一定程度上反应基因的动力学行为。

可视化方法对于我们对数据的理解非常重要,尤其是分析和理解生物学意义具有不可替代的作用。除了上述两种主要的表示方法外,还有一些方法可以直观地显示基因之间的相互关系,昨天的主成分分析其实也是一种展示形式。

要对聚类结果进行评价,标准肯定是能否发现生物学知识,即从数据出发,能够找到新的生物学知识或得到明确的对某些生物学问题的答案,例如,能预测未知功能的基因,明确样本的肿瘤分型,获得基因之间的调控关系等等。能够在生物医学中得到应用,该方法就是有效的好方法。但是,对方法进行生物学评价是非常困难的。聚类方法作为一种探索性的知识发现方法,它的结果是预测性的,而生物学知识还是非常不完备的,很难从理论上来证明,因此必须通过生物学实验的验证才能证明其预测的正确性。目前来说,这个的难度还是不小的。


2018精品视频自拍,2019最新国产不卡a,香蕉影视在线观看免费,香蕉电影在线观看免费,伊人大蕉香蕉在线官网