您的当前位置:肠菌群失调 > 疾病病因 > 区域变异限制了肠道菌群健康参考范围和疾病
区域变异限制了肠道菌群健康参考范围和疾病
编译者按
近期,医院与广东省疾控中心、广东省公共卫生研究院合作在NatureMedicine发表了题为“Regionalvariationlimitsapplicationsofhealthygutmicrobiomereferencerangesanddiseasemodels”的论文,这是广东省开展的迄今为止规模最大的人群肠道菌群与慢病项目——广东省肠道菌群计划(GGMP)。
以肠道菌群为代表的人体微生物组已成为众多疾病新的干预靶标,菌群检测也具有疾病诊断和风险评价的潜在价值。但准确确定特定疾病相关的菌群紊乱谱,仍存在许多挑战。既往研究中,对于同一类疾病,报道的相关菌谱不一致甚至出现矛盾冲突屡见不鲜,该现象不仅限制了菌群用于疾病诊断的可靠性,并且动摇相关菌群与疾病机制研究的信心。该论文通过对GGMP数据挖掘,发现区域因素对菌群的影响显著大于年龄、疾病、生活方式等其他因素。而传统的疾病特征菌以及基于机器学习的菌群疾病模型具有明显的区域性,外推到其他地区结果不理想。该论文比较了四类代谢性疾病,发现脂肪肝相关菌群特征更为普适。从应用角度,该研究对当前未经大人群数据确认的商业化菌群检测提出了风险警示,指出大人群研究是菌群这类复杂靶标研究的重要基础和必经之路。
摘要
有学者提出肠道菌群失调(即肠道菌群偏离健康状态)可作为疾病发生和进展的强有力生物标记物[1-3],可用于炎症性肠病(Inflammatoryboweldisease,IBD)的诊断和预后[4]、结直肠癌的筛查[5]和黑色素瘤治疗方案的选择[6]。无创性检查可大范围应用于公众健康,包括代谢性疾病[7]和心血管性疾病[8]的早期诊断和风险评估。为了理解基于肠道菌群诊断模型对代谢性疾病的通用性,我们从中国广东省的14个地区收集了个志愿者的标本,并描述了他们肠道菌群的特征。在收集到的因素中,地理因素与肠道菌群变异的相关性最强。用一个地区样本建立的基于肠道菌群的代谢性疾病模型不能用于其他地区,这提示该模型不能外推。但是模型内推效果较好,尤其是与肠道菌群某些特征具有明显相关的疾病。内推准确性随着地区范围的扩大而降低,提示预测代谢性疾病的患病风险需要本地化基线数据建立本地化的疾病模型。
正文
菌群检测已经开始商业化应用,这种检测通过比较受检者和一小群健康人之间的肠道菌群相对丰度的差异来鉴定肠道菌群是否失调。在不同的研究中,菌群失调的模式并不相同[9-11],并且可能受到地域的潜在影响。先前的研究比较了西方国家和非工业化国家人群的肠道菌群,发现肠道菌群的特征存在很大的差异[12,13]。然而,仅有一小部分的meta分析[14]和小范围调查[15]研究了在不同地域人群中健康肠道菌群基线和疾病模型数据的通用性。除此之外面临的主要挑战是:(i)与不同人群微生物组测序结果的差异相比,测序等技术方法对结果的影响更大[16],(ii)菌群作为诊断生物标志受到一系列混杂因素的影响包括药物[17],(iii)人体肠道菌群存在很大的变异,得出可靠的结论需要很大的样本量。因此,meta分析和小范围调查的结果虽然可以给我们带来启发,但是不一定适用于新的人群[14]。
基于健康与疾病之间的微生物差异建立的诊断方法,要检验其普遍适用性,需要使用区域化研究设计,广泛取样以及标准化实验方案,广东省肠道菌群项目(GGMP)应用了这些原则。广东省是中国最发达的地区之一(年国内生产总值为8.99万亿人民币(1.33万亿美元),与韩国相当),横跨沿海和山区,面积17.98万平方公里,人口1.08亿。我们在广东省随机选择了14个地区,包括各大城市,也包括了欠发达地区(Fig.1a),为了使每个地区的样本更具有代表性,我们首先在每个地区随机选择三个乡镇(街道),然后在每个抽中的乡镇(街道)随机选择两个行政村(居委),最后每个行政村(居委)随机选择45户家庭。在这些家庭中,我们招募了那些愿意参加这个项目且≥18岁的志愿者,并签署知情同意书。在所有的调查对象中,我们使用了相同的样本采集方法并将样品冻存运输。基于16SrRNAV4区测序,我们用QIIME[18]软件分析了个样本的肠道菌群及其与72个宿主因素[18]的关联(补充材料Fig.S1和TableS1)。在研究人群中,观察到了高水平的变形菌门(Fig.1a),根据分析,这不是由不正确的样本运输和DNA提取方法造成的(方法和补充材料Fig.S2)。
Fig.1
采样地区和肠道菌群的地区差异概况。
a.采样地区概况展示了在广东省选取的14个地区。饼图展示了每个地区肠道菌群门水平丰度,背景颜色表示当地人均GDP(¥),根据厚壁菌门丰度排序展示个体间门水平的差异。
b.条形图展示前30种与肠道微生物变异显著相关的宿主因素(基于加权UniFrac距离),条形图根据宿主因素所属类别着色。使用PERMANOVA(Adonis)进行统计检验。FDR为5%。DBP:舒张压,TCHO:总胆固醇,FBG:空腹血糖。
c.主坐标分析显示用坐标的均值和标准误展示每个区域的中心(每个地区的样本数量n=±71(均值±标准差)),使用PERMANOVA(Adonis)和PERMDISP进行统计检验。
d.每个地区ROC曲线下面积的条形图。
e.热图展示不同地点间以及疾病与健康之间代谢紊乱生物标志的最大变化倍数。变化倍数分为1-2倍,2-5倍和5倍以上三个组。
我们使用Adonis去探索肠道菌群差异和宿主因素的相关,假阳性发现率(FDR)为5%。基于样本间加权UniFrac距离,51个因素与的肠道菌群变异显著相关(Fig.1b,补充材料Fig.S3为未加权UniFrac距离和BrayCurtis距离,TableS2-4罗列了详细信息),年龄、布里斯托粪便评分、体重指数(BMI)、收缩压(SBP),甘油三酯(TG)和尿酸(UA)是其中重要的解析因素,这与西方人群的研究结论一致[17,19]。这些因素中,地理因素对肠菌变异的解释度最高(Fig.1b),远远超过其他因素的效应。我们使用另外四种分析方法(包括ANOSIM,MRPP,db-RDA和envfit)也证实了地理因素是解释度最高的因素(补充材料Fig.S4)。基于坐标降维显示也提示地理效应不是由地区组内离散程度差异[20]或单个地区样本离群引起的。社会经济状态的影响包括职业、教育等在不同地域间存在差异(补充材料Fig.S5)。接着我们用Kruskal-Wallis检验比较了14个地区中肠道菌群可操作分类单位(OTUs)的相对丰度,FDR为5%。我们发现个OTUs中的个(占总肠道菌群的99.1%)可明显区分14个地区(补充材料TableS5),仅仅基于粪便肠道菌群数据的随机森林模型即可识别研究对象所在的地域(曲线下面积(AUC)为86.9-98.8%;Fig.1d)。我们嵌套式研究的设计可以让我们确定,地理因素影响了14个地区中的13个地区和42个乡镇(街道)的25个乡镇(街道)人群的肠道菌群,提示在我们的研究人群中,这种效应在同一乡镇(街道)的不同行政村(居委)就已经出现了(补充材料Fig.S6)。
临床检测发展的一个共同途径是给健康人群建立正常范围,但是在原始参考人群以外的人群应用则要求人群的参考范围一致。在我们研究人群中,个研究对象是健康个体(他们没有报告疾病,空腹血糖(FBG<6.1),BMI<24以及在捐赠粪便标本一个月内没有服用抗生素),但是地理因素对这些健康人群的肠道菌群变异的影响依然占主导地位(补充材料Fig.S7和TableS6-8)。地理差异对肠道菌群产生的影响超过了代谢性疾病(包括II型糖尿病、代谢综合征、肥胖和脂肪肝)的影响。个OTUs至少与一种代谢性疾病显著相关(FDR设5%),但是这些OTUs在不同地区间也存在显著差异(补充材料Fig.S8和TableS9-12)。在我们的研究人群中,这些生物标志在健康个体和代谢性疾病患者之间相差1到2倍,但是40.1%的生物标志在不同地区之间相差超过5倍(Fig.1e),因此,肠道菌群的健康参考基线可能高度依赖于地理因素,对单一参考人群得到的结论进行外推是危险的。
即使通过整合多个微生物组生物标志也不能解决这个问题。我们基于微生物组数据建立每个地区T2DM随机森林模型(AUC0.63-0.85,平均值为0.74;Fig.2a),将一个地区建立的疾病模型运用到另一个地区时,AUC极大地降低到约0.5,与随机猜测相当(Fig.2a),这种现象不是由于研究对象服用二甲双胍[11]导致的,因为疾病模型排除了服用药物的研究对象。此外,先前的一项研究甚至在阐明二甲双胍的作用后也无法外推T2DM疾病模型[11],这和我们的研究结论一致。将相同的模型运用于肥胖(Fig.2b)、代谢性疾病(Fig.2c)和脂肪肝(Fig.2d)也得到了相似的结果。因此,我们证明了在一个地区基于肠道菌群建立的代谢性疾病模型并把该模型应用到其他地区,将导致错误预测数量显著增加(补充材料Fig.S9-12)。因为不同地区人群之间的肠道菌群存在差异,这些结果提示在一个地区建立的代谢性疾病的诊断模型不应该应用到其他地区。
Fig.2
评价基于肠道微生物的疾病模型在不同地区人群的交叉适用性。
a-d.在每个地区建立的T2DM(a)、代谢综合征(b)、肥胖(c)和脂肪肝(d)疾病模型的区分效率和及其在不同地区之间的交叉应用(n=14)。因为脂肪肝在其他地区的患病率较低,脂肪肝模型仅仅基于四个地区进行建模和交叉应用(n=4)。点线图展示每一个地区建模时10倍交叉验证AUC与模型应用于其他地区的AUC。采用双侧配对Wilcoxon秩和检验比较两组间的差异(a-d)。
虽然疾病模型外推到其他地区不能有效预测疾病,但是在更大的地理范围内建立疾病模型应用到该地区内部可能会有更好的效果。例如在省这一级建立的疾病模型进行内推,T2DM模型的AUC为0.56,代谢性疾病为0.64,肥胖为0.66,脂肪肝为0.74,AUC的递增趋势与四种疾病5倍以上差异的生物标志的数量一致(Fig.1e和补充材料Fig.S13),这表明如果找到不同地区间疾病与健康差异的一致信号,可以用该模型提取信号并用于模型内推。这个分析暗示了,在较小范围内的内推比外推得到更好的结果,而在较大范围内的内推得到中等质量的结果(Fig.3a)。嵌套式设计可以让我们在不同地域水平上的代谢性疾病模型中检验这个原则,我们发现所有水平都符合这一原则(Fig.3b和补充材料Fig.S14)。有研究指出因为IBD和结直肠癌肠道菌群变化比代谢性疾病要大,他们的肠道菌群模型可以通过meta分析在不同人群之间外推[23]。在这里我们之所以没有阐述这两种疾病是因为在我们研究人群中这两种疾病的样本量太少而不能产生一个可靠的结果,因此我们建议未来的研究应逐一评估胃肠道疾病模型一般适用性。
Fig.3
阐述代谢综合征模型内推和外推难度梯度的示意图。
a.模型应用的难易梯度原理表明,在较小范围内内推要比在它们之间进行外推容易得多,而在较大范围内内推则介于两者之间。同时还阐述了实现有效内推和外推的条件。
b.在我们的嵌套研究设计中,我们从广东省选取了14个地区,每个小区有3个乡镇,每个乡镇有2个行政村(居委)。图中展示每个地理水平上的代谢性疾病内推和外推AUC的均值。详见补充材料Fig.S14。
以上数据提示地理因素在解释人类肠道菌群的变异发挥了很大的作用,这部分解释了在其他小范围调查得到不一致的肠菌失调模式[9-11]。虽然代谢疾病模型很难在不同地区之间外推,但从更大的地理范围收集样本建模内推可能会奏效,效果取决于识别到的一致信号,且效果会随地理范围扩大变差。因为地域效应在小范围地理尺度上就可出现并引起疾病信号发生偏倚,因此病例对照研究中应该仔细考虑地理这一因素。地域效应还提示了一个有趣的问题:肠道菌群的地区特征是否与不同地区疾病流行病特征存在关联?未来,在地域层面探索人类肠道微生物群、经济发展、生活方式变化和疾病流行病学之间关系的研究将为公共卫生科学提供有启发性的数据。值得注意的是,在美国肠道计划(AGP)中,除了小规模的距离衰减效应外,没有观察到强烈的地域效应[24],但是这种地域效应在厄瓜多尔人群中观察到了,这提示这种效应是否是普遍现象依然存在争议的。但是我们注意到AGP并没有采用可优化统计能力的分层抽样方式来解决本研究中提出的问题。我们报告的这种地域效应是来自于宿主因素,还是通过微生态过程产生的如分散、漂移、局部多样化或宿主与环境微生物的相互作用?这还需要进一步研究[26]。我们的研究人群具有高度同质性的血统(所有参与者都是中国人,99%是汉族人),因此我们研究地理因素对肠道菌群影响时不受种族因素干扰。但相反地,我们没有能够研究种族因素如何影响地域效应,这个问题应该在遗传背景更加多样化的地区进行研究,理想的情况是在多个地理位置上具有相同种族群体的地区。
简而言之,我们的数据强调了为肠道菌群建立区域参考基线时,需要采用一致的采样方法,疾病模型在新人群中的应用必须经过详细检验。当开展肠道微生物组分析,用于建立健康人群参考数据和建立疾病模型的人群必须清楚的描述,特别是用于指导临床应用的研究。
Fig.S1
GGMP采样和数据收集概览。
GGMP项目在中国广东采集了7,份粪便样本。样本来自14个地区、42个乡镇(街道)和84个行政村(居委),共76个宿主因素纳入分析。
Fig.S2
验证粪便样本处理过程。
a.比较GGMP中广州市样本(n=)医院体检中心样本(n=20)变形菌门丰度(双侧成组比较秩和检验)。
b.比较新鲜粪便样本(n=12)与冰盒储存24h样本变形菌门丰度(n=12)(双侧成组比较秩和检验)。
c.基于非加权的UniFrac距离的PCoA图分析PCR步骤操作人员和仪器是否影响菌群结构。
d.基于非加权UniFrac距离(左下)、BrayCurtis距离(右上)、加权UniFrac距离(右下)的PCoA图分析不同DNA提取试剂盒是否影响菌群结构。
e.堆积图展示不同DNA提取试剂盒得到菌群中差异的属。
f.对基于BrayCurtis距离的PCoA图进行Procrustes分析,线两端连接的是不同DNA提取试剂盒的菌群结果,线越短代表菌群结果越相似。
Fig.S3
经Adonis检验与肠菌变异显著相关的前30个宿主因素。
分别基于非加权UniFrac距离(a)和加权UniFrac距离(b)。
Fig.S4
经除了Adonis检验外的其他统计方法检验与肠菌变异显著相关的宿主因素。
(a-c)Anosim,(d-f)MRPP,(g-i)db-RDA,(j)R软件vegan包中的envfit。分别是基于加权的UniFrac距离(a,d,g),非加权的UniFrac距离(b,e,f),BrayCurtis距离(c,f,i)
Fig.S5
堆积图展示14个地区职业(a)和受教育社会平(b)构成。
Fig.S6
条形图展示在不同地理层级地理因素对肠菌变异的解释度。
用Adonis基于加权UniFrac距离进行统计分析。横轴左侧展示乡镇(街道)对菌群变异的解释度。横轴右侧展示行政村(居委)对菌群变异的解释度。颜色代表是否有统计显著性,条图的长度代表解释度的大小。
Fig.S7
健康志愿者样本经Adonis检验与肠菌变异显著相关的前23个宿主因素。
基于加权UniFrac距离。
Fig.S8
代谢性疾病相关生物标志在14个地区样本、健康样本、二型糖尿病、
代谢综合征、肥胖、脂肪肝样本中丰度的均值。
热图颜色代表均值经过z-score转换后的数值,红色代表平均丰度较高,蓝色代表平均丰度较低。
Fig.S13
条形图展示在代谢性疾病与健康中差异的OTU数量。
a.统计差异倍数在5倍以上的OTU数量。
b.统计差异倍数在5倍以下的OTU数量。4个代谢性疾病分别指脂肪肝、肥胖、代谢综合征、二型糖尿病。
Fig.S14
箱式图展示各个地理层级代谢综合征疾病模型内推和外推的模型效率。
蓝色代表代谢综合征疾病模型内推的AUC值,红色代表外推的AUC值。从左到右分别代表84个行政村(居委)代谢综合征疾病模型内推和外推的AUC值,42个村镇(街道)模型内推和外推的AUC值,14个地区模型内推和外推的AUC值,广东省人群模型内推的AUC值,广东省人群模型应用于韩国人群(Limetal,Gut,)的AUC值。
预览时标签不可点收录于话题#个上一篇下一篇