
alpha什么意思
-庭外调解
2023年2月23日发(作者:辽的组词)群落多样性之Alpha多样性(⼀)
学习⽣物学,⼀项很重要的事情就是理解概念。
有⼀种⽅法就是直接从名字上理解概念。
⼩RNA,是不是就是很⼩的RNA?
宏基因组,是不是就是很“宏”的基因组?
……
答案很统⼀:必须是啊!
这可以总结出⼀套理解⽣物学概念的⽅法,就是顾名思义。
今天呢,我们继续感受⼀下宏基因组中的“宏”,介绍⼀个⼴泛应⽤于宏基因组分析中的⽣态学概念——Alpha多样性Alpha多样性。先请看下⾯的BOX中的
三个定义。
-----------------------------------------BOX1:群落多样性-----------------------------------------
微⽣物群落物种多样性指标共分为三种分别为:
Alpha多样性:指特定群落或⽣境内的物种多样性,主要关注群落内的物种多样性。
Beta多样性:是⽣境之间的物种多样性,⽤以衡量群落之间的差别。
Gamma多样性:在⼀个地区内不同⽣境的总多样性。
--------------------------------------------BOX1END------------------------------------------------
跟宏基因组不⼀样的是,此概念不那么容易顾名思义。
什么是Alpha、Beta和Gamma多样性?
它们有什么区别?
感觉没那么容易搞清楚,上⾯字我全都认识,连起来看我就没怎么看明⽩。
史学界和法律界中都有这么个说法,叫做“孤证不⽴”。
仅仅我⾃⼰没看明⽩,并不⾜以证明此概念不好理解。
于是乎,我把此概念分享给⼀个执⾏过宏基因组学分析的同事,然后出了道判断题。
-------------------------------------------BOX2:⼀道判断题----------------------------------------
我带着摄像头去⾮洲⼤草原的3个地区拍摄,回来研究视频,在3个地区观察到以下动物:
地点A:1头猎豹、1头狮⼦、1头野猪,2只长颈⿅,11头野⽜,15只⼟狼。
地点B:1只鬣狗、1头狮⼦、2只狒狒,8条鳄鱼,10头野猪,18头⽔⽜。
地点C:3头猎豹、1头狮⼦、20匹斑马、1条蛇、1只乌龟,10只河马。
问:⽬测⼀下,三个地点的Alpha多样性是否是⼀致的?
------------------------------------------------BOX2END---------------------------------------------
同事的回答是:“不相等……吧。”
“为什么?”
“感觉吧!”
“这个感觉有点问题。如果不考虑为什么的话,你这道题怎么回答都是值得商榷的!”
“alpha多样性主要⽤于推测特定群落内的多样性,alpha多样性的⼀个最简单的指标就是数⼀下样本中的物种数量,那么,三个地点的物种数各
是多少呢?”
“都是6个!”同事有种恍然⼤悟的感觉,“哦,那他们的alpha多样性是相等的啊!”
其实,就凭前⾯很勉强的回答“不相等……吧。”和“感觉吧”,我基本上可以做出判断:这哥们跟我当年最初接触宏基因组学的时候⼀样,做过
类似的分析,但是并不完全清楚Alpha多样性。
如此说来,这就是不光我⼀个⼈弄不明⽩得问题了,不算“孤证”了。
看来详细点介绍这个概念,还是有必要的。
Alpha多样性主要⽤于评估特定群落内的多样性。
其中⼀个最简单的指标就是数⼀下样本中的物种数量。
那么,三个地点的物种数各是多少呢?
6个,从观察到样本的物种数量上看,他们的Alpha多样性是相等的。
这么简单?其实没这么简单!
对于特定群落或⽣境内的物种多样性,最简单的理解就是,群落或⽣境内看到的物种多,就是多样性⾼。最简单的理解就是,群落或⽣境内看到的物种多,就是多样性⾼。⼜由于我们进⾏宏基因组学研究的
时候,⼀般在特定群落采集⼀个样本或者⼀组样本(⼀般为3到5以上),群落或⽣境内也可理解为样本或组内,即withinsampleor群落或⽣境内也可理解为样本或组内,即withinsampleor
withingroup。⽬前,Alpha多样性最常⽤的有5种指标,即ObservedSpecies(Obs),Chao1,ACE,Shannon和
Simpson。
这五种指标涵盖了三⼤问题。
1.物种丰富度(Richness)----不考虑丰度,即样本中有多少个物种,衡量指标包括Obs,Chao1和Ace。
2.物种多样性(Diversity)----将物种个数和物种的丰度全部考虑在内的多样性,衡量指标包括Shannon和Simpson。
3.物种均匀度(Eveness)----这些物种的丰度分布情况,衡量指标包括Shannon和Simpson等。
这五个指标说的都与⽣境内多样性有关,但⼜各有各的不同。
ObservedSpecies是最简单的计算⽅式,就是数⼀下这个样本中有多少类物种。
那么物种怎么数呢?
微⽣物⼜不能像上⾯说的狮⼦和野猪⼀样直接去数,难道要在显微镜下数么?
别说这还真有可能是个好主意,也许有⼀天⼈⼯智能发展到⼀定程度,可根据形态学特征⼀个个数出来。
未来的事情未来再说,先说眼下,好在现在我们有⾼通量测序⼿段解决这个问题,就是说测完了序,数序列,推断物种的Alpha多样性。
数序列,其实数的就是操作分类单元(OperationalTaxonomicUnits,OTU)。
OTU就是能够标志分类单元(属或物种等)的⼀种DNA序列。
如果想对OTU是什么怎么来的有个⼤概的了解,请看下⾯分割线中这段;如果不想,直接跳过就是。
--------------------------------------BOX3:OTU是怎么来的--------------------------------------
以16S序列分析为例,我们从微⽣物DNA⾼变区扩增⼦序列测序得到双末端测序数据(Pair-endReads,PEReads)。
经⼀定条件过滤后,将每对PEReads的Read1和Read2根据重叠序列拼接成Tag序列,然后再过滤,得到CleanTags序列。理论上,每⼀条
CleanTag序列来⾃⼀个菌。
再将相似度⼤于97%或95%的CleanTags序列归为同⼀个序列单元,这种序列单元就叫做操作分类单元(OTU)。
实际上,OTU是在系统发⽣学研究或群体遗传学研究中,为⽅便分析,⼈为给某⼀个分类单元设置的同⼀标志,其中分类单元可以是门、纲、
⽬、科、属、种、品系以及分组等。
在宏基因组研究中,⼀个OTU不⽌可能能标志种,也可能标志属,还可能标志科等不同的分类等级,所以它叫操作分类单元,⽽不是叫做操作种
单元或操作属单元。
这⾥要注意Taxonomic和Species/genus的关系,谁是谁的充分条件,谁是谁的必要条件。
-----------------------------------------------BOX3END----------------------------------------------
好了,得到了OTU序列。那就数⼀下呗。
不过这⾥要注意,OTU即可代表物种,⼀条OTU能够标志⼀个物种。OTU即可代表物种,⼀条OTU能够标志⼀个物种。
甚⾄为⽅便理解,采⽤佛家“⾊即是空,空即是⾊”的表达⽅式,我们可以更过分⼀点:OTU即是物种,物种即是OTU。
数完了,我们得到⼀个数字,⽐如50。
没错,这个数字就是该样本的alpha多样性之⼀,ObservedSpecies。
那么问题来了,你能保证你所观察到的OTU序列就是环境样本中的全部物种么?
显然这个是保证不了的,总会有漏⽹之鱼没有被观察到。这需要具备⼀个抽样的思想,任何我们观察到的物种都看成是抽样,并⾮总体。也就是
说,眼见未必为实。
因此我们需要⽤数学的⽅法基于样本来估计总体。
于是乎,1984年Chao[1]开发了⼀个算法⽤以估计真实总体的物种数,计算公式如下:
:最终估计的OTU数⽬。
:观察到的OTU数⽬。
:只含有1条序列的OTU数⽬,即只被观察到1次的物种(暂定义为痕量物种)的数量。
:只含有2条序列的OTU数⽬,即只被观察到2次的物种(暂定义为微量物种)的数量。
由于有可能为0,⽽导致公式第⼆部分没有意义,所以有⼈把这个公式修正了⼀下:
为⽅便表达,我们定义n为某⼀OTU(物种)包含的序列(个体)数,即OTU(物种)种的绝对丰度。
的公式包括两部分,第⼀部分就是现在我们观察到的物种数(),显然第⼆部分就是没观察到的物种数(),
就是基于和推算出来的。
这⾥,我们可以尝试计算⼀下BOX2中地点A、B和C的。
地点A:
地点B:
地点C:
A、B和C3个地点的都是6,但分别为1.5,0.5和3。
A和B⽐较,的增加可使呈现⼆次⽅增长。这就是说当观察结果存在越多的痕量物种()时,就表明还可能有更多的物种没有被
观察到。
A与C⽐较,对贡献起到⼀定的反⽐例抑制作⽤。可理解为,当多种微量物种被观察到时,观察到的痕量物种未必会是真正的痕量
物种,有可能是微量物种,所以微量物种的存在将使得痕量物种对多样性的贡献⼒度⼤打折扣。
当然对于在这个公式中起到的意义,这句只是我的理解,具体有⼀个详细的推导过程,可参见Chao在1984年的那篇经典⽂章,欢迎数学功
底深厚的同学讨论。
再者,可以⽐较⼀下的分⼦和分母,要⽐变化速度更快,即对痕量物种更加敏感。
⾼丰度的物种()的数量对并⽆任何作⽤。
举例说就是,不论地点A有11头野⽜和200头野⽜,对A地的Chao1指标的⼤⼩并⽆影响。
极端假设⼀下,如果⼀个群落样本中全部都是⾼丰度物种,即抽样调查中物种被抽到2次以上,则表明很可能观察到的物种数就是真实的物种数。
由此可见,是度量物种类别多样性的指标,是针对总体物种数量的推测,与丰度、均匀度⽆关,对稀有物种很敏感。
根据Chao1的公式不难看出,对未观察到物种的估计仅仅考虑到丰度为1和2的物种。那么,仅仅考虑丰度为1和2的物种会不会有些问题?丰度为
3的呢?丰度为4的呢?……
1992年,Chao等[2]⼜开发出⼀个新的⽅法⽤来估计物种的丰富度——ACE指数。这个指数对微量物种的考虑范围扩⼤到了10,也就是说考虑
到了丰度为10以内的物种(定义为稀有物种),公式如下:
为稀有物种的数量(),为⾼丰度物种的数量(),这⾥观察到物种的总数。参数
⽤于衡量丰度且的物种丰度总覆盖率。为所有稀有物种丰度之和;为丰度为的物种的数量。
因此,为应⽤丰度且的物种估计的稀有物种数量。
另⼀个参量⽤于估计的变异系数,的意思就是如果,这个式⼦就等于0。
接下来,咱们该解释⼀下啦!
其实就⼀句话:为应⽤丰度为1()的物种推算出的稀有物种数量。
三者相加就是ACE的指标。
继续⽼套路,我们再尝试计算⼀下⼀个地点A、B和C的:
地点A:
地点B:
地点C:
这么⼀看,Chao1和ACE两个指标算出来的结果并不是很⼀致,两者都会低估样本物种容量较低时的真实物种类别丰富度。例如,当⼀个样本中
只有⼀个丰度为2的物种且其他的物种丰度都是1的时候,的值为。因此,会与样本物种容量⼤
⼩有很强的相关性,除⾮达到2倍的真实物种类别丰富度的平⽅根[3]。⽽不管是微⽣物宏基因组学研究中样本的物种容量还是真实的⾃
然⽣态系统中的可观察物种远远多于举例中的三个地点,因此应该是⾜够的。
物种类别丰富度指标Chao1和ACE,即可⽤于估计野猪和狮⼦等⽣存的⼤型⽣态环境,也可⽤于估计肠道和⼟壤等的微环境。
以野猪的视⾓来看,整⼤型个⽣态系统的物种类别丰富度,可形象谓之为上帝视⾓,够“宏”吧?
以⼤肠杆菌的视⾓来看,肠道的物种类别丰富度,亦为上帝视⾓,够“宏”吧!
到此为⽌物种类别丰富度指标我们已然介绍完毕。
⾄于囊括丰度和均匀度的Shannon和Simpson指标……
呃……现在已然是2019年3⽉30⽇1点60,
咦,我好像听到了鸡叫,
管他呢,困了,天⾊已晚,洗洗睡……
备注:此⽂于2019年3⽉29⽇发于e媛微⽣态。