【宏基因组学】微生物宏基因组学论文摘要集锦
创始人
2024-02-29 17:58:02
0

微生物宏基因组学论文摘要集锦

  • 62. A human gut microbial gene catalogue established by metagenomic sequencing.
  • 182. “Available upon request”: not good enough for microbiome data!
  • 183. An integrated metagenomics pipeline for strain profiling reveals novel patterns of transmission and global biogeography of bacteria
  • 184. Bioinformatic Approaches Reveal Metagenomic Characterization of Soil Microbial Community
  • 185. Enhancing Metagenomics Investigations of Microbial Interactions with Biofilm Technology
  • 186. Functional analysis of metagenomes and metatranscriptomes using SEED and KEGG
  • 133. Inferring Aggregated Functional Traits from Metagenomic Data Using Constrained Non-negative Matrix Factorization: Application to Fiber Degradation in the Human Gut Microbiota
  • 187. Machine Learning Meta-analysis of Large Metagenomic Datasets: Tools and Biological Insights
  • 188. MetaComp: comprehensive analysis software for comparative meta-omics including comparative metagenomics
  • 145. Metagenomic systems biology of the human gut microbiome reveals topological shifts associated with obesity and inflammatory bowel disease
  • 58. Metagenomics meets time series analysis: unraveling microbial community dynamics
  • 189. metaSPAdes: a new versatile metagenomic assembler
  • 190. Microbial Community Profiling of Human Saliva Using Shotgun Metagenomic Sequencing
  • 191. Microbial strain-level population structure and genetic diversity from metagenomes
  • 9. Microbiome, Metagenomics, and High-Dimensional Compositional Data Analysis
  • 157. SmashCommunity: A metagenomic annotation and analysis tool
  • 167. The metagenomics RAST server – a public resource for the automatic phylogenetic and functional analysis of metagenomes

62. A human gut microbial gene catalogue established by metagenomic sequencing.

62.通过宏基因组测序建立的人类肠道微生物基因目录。
摘要:为了理解肠道微生物对人类健康和福祉的影响,评估其遗传潜力至关重要。这里,我们描述了基于Illumina的宏基因组测序,330万个非冗余微生物基因的组装和表征,来自124个欧洲人个体的粪便样品,从576.7千兆碱基序列中提取。该基因数据集大约是人类基因补充的150倍,含有绝大多数的流行(更常见)的群组微生物基因,可能包括大部分流行的人类肠道微生物基因。这些基因大部分是在群组中共享的。超过99%的基因是细菌,表明整个群组中存在1,000到1,150种流行细菌物种,每个个体至少有160种这样的物种,这也是大部分上共享的。我们定义和描述最小的肠道宏基因组和最小的肠道细菌基因组的功能方面分别在所有个人和大多数细菌存在。

据估计,我们体内的微生物总数有超过100万亿个,是人类细胞数量的十倍,而且它们的编码基因是我们人类自己的基因的100倍。大多数微生物生存在肠道,对人体生理和营养有着深远的影响,对人类生活至关重要。

宏基因组测序是用于分析复杂微生物群落的rRNA测序的强有力的替代方法[13-15].

数据:从丹麦和西班牙(补充表1)收集了124名健康,超重和肥胖的成年人以及炎症性疾病患者的粪便标本。
肠道中细菌功能对于生命的重要性:来自人类肠道的细菌基因的广泛的非冗余目录能够有助于在这种环境中识别对于生命重要的细菌功能。细菌在肠道环境中(即“最小肠道基因组”)和那些参与整个生态系统稳态的细菌在许多物种(“最小肠道宏基因组”)中编码是必需的。

肠道宏基因组和人类基因组的功能互补性
肠道宏基因组与人类基因组之间的互补性的详细分析超出了目前工作的范围。为了提供一个概述,我们考虑了两个因素,最小宏基因组功能的保存和功能的存在/不存在(补充表11)。肠道细菌主要使用发酵来产生能量,将糖类转化为短链脂肪酸(SCFA),被宿主用作能源。醋酸盐对于肌肉,心脏和脑细胞很重要[31],丙酸盐用于宿主肝脏新生糖过程,而丁酸盐对肠道细胞也很重要[32]。除了SCFA之外,许多氨基酸对于人类是不可或缺的[33]并且可以由细菌提供[34]。类似地,细菌可以向宿主提供某些维生素[3](例如生物素,phylloquinone)。这些分子的所有生物合成步骤均由最小的宏基因组编码。
大量的共有物种支持普遍存在的人类微生物群是有限的而不是过大的观点。

方法
使用公共数据。在GenBank中保藏的测序细菌基因组(总共806个基因组)从2009年1月10日从NCBI数据库(http://www.ncbi.nlm.nih.gov/)下载。已知的人类肠道细菌基因组序列从HMP数据库(http://www.hmpdacc-resources.org/cgi-bin/hmp_catalog/main.cgi),Genbank(67基因组),圣路易斯华盛顿大学(85基因组,2009年4月版,http:// genome。 wustl.edu/pub/organism/Microbes/HumanGutMicrobiome/),并由MetaHIT项目(17个基因组,2009年9月版,http://www.sanger.ac.uk/pathogens/metahit/)测序。本项目所使用的其他肠道宏基因组数据包括:1)美国个人测序的人类肠道宏基因组数据8,从NCBI下载,登录号为SRA002775; 2)来自日本个人的人类肠道宏基因组数据,这是从EMBL的Bork’s小组下载的(http://www.bork.embl.de)。我们在本研究中构建的综合性NR数据库包括GenBank NR数据库(2009年4月版)和来自已知的人类肠道细菌基因组的所有基因。

基因预测和构建非冗余基因集。我们使用MetaGene,它利用由给定序列的GC含量估计的双密码子频率,并且基于匿名基因组序列预测整个范围的ORF,从124个样品的每一个的重叠群以及来自合并装配的重叠群。
然后使用BLAT将预测的ORF对齐。一对具有超过95%的同一性和比对长度的基因覆盖了超过90%的较短基因被分组在一起。然后合并共享基因的组合,每个合并组中最长的ORF被用来代表该组,并且该组的其他成员被视为冗余。因此,我们通过排除冗余来组织来自所有预测基因的非冗余基因集。最后,对长度小于100bp的ORF进行过滤。我们使用NCBI遗传密码11将ORF翻译成蛋白质序列。

基因鉴定。为了在鉴定低丰度基因和降低鉴定错误率之间取得平衡,我们研究了在个体微生物群体中鉴定基因所需的读取覆盖率设定的阈值的影响。当鉴定所需的读数从2增加到6时,基因数量减少了大约两倍,并且此后缓慢地变化(补充图6a)。尽管如此,为了将罕见的基因纳入分析,我们选择了2个读数的阈值。

基因分类指派。预测基因的分类学分配使用针对整合NR数据库的Blastp比对进行。对大于1E-5的e值的Blastp比对结果进行过滤,对于每个基因,通过顶部命中的e值<10×e值定义的显着匹配被保留以区分分类群。然后,我们通过在MEGAN42中实施的基于LCA的算法来确定每个基因的分类水平。基于LCA的算法以指定分类群的分类水平反映基因保守水平的方式将基因分配到分类群中。例如,如果一个基因在许多物种中是保守的,它被分配到最低的共同祖先(LCA),而不是一个物种。

基因功能分类。我们使用Blastp在eggNOG数据库和KEGG数据库中搜索预测基因的蛋白质序列,其中e值<1E-05。 基因被标注为具有最低e值的NOG或KEGG同系物的功能。 eggNOG数据库是COG和KOG数据库的集成。COG注释的基因分为25个COG类别,KEGG注释的基因分为KEGG通路。

物种共存网络。 对于至少有一个个体,由Illumina基因组覆盖的155个物种的阅读量≥1%,我们计算了整个124个个体的测序深度(丰度)之间的成对物种间Pearson相关性。从所得到的11,175个物种间相关性中,使用Cytoscape43在图中显示小于-0.4或大于0.4(n = 342)的相关性,显示每个物种的平均基因组覆盖度作为图中的节点大小。

182. “Available upon request”: not good enough for microbiome data!

182.“根据要求提供”:对于微生物数据不够好
摘要:开放的数据是免费的,没有限制的公开可用性对于任何科学学科的进步都是至关重要的,并且是健全和可重复的基因组学研究的基石。微生物研究仍然是一个相对年轻,蓬勃发展,活跃的研究领域,具有巨大的生物医学潜力。作为一个大型的数据驱动的研究领域,微生物项目可以包括数百甚至数千的参与者,样本和相关背景(“元数据”)参数。处理这些数据,识别有意义的关联以及确定显着性取决于复杂的,往往是非标准化的生物信息学和生物统计学协议。这些协议的可重复性,透明度和可扩展性,以审查,评估,并建立在这项工作是至关重要的履行微生物研究的承诺和维护可信度。在绝对最低限度内,需要不受限制地访问原始测序数据和相关元数据,并且已经得到科学界,一些期刊和资助机构的认可和实施。 在实践中,获取数据处理和分析的开放协议对于促进现场的重现性和进步也很重要,但很少提供。不幸的是,似乎越来越多的研究甚至不能满足社区公认的基本标准。

183. An integrated metagenomics pipeline for strain profiling reveals novel patterns of transmission and global biogeography of bacteria

183.一种用于菌株分析的综合宏基因组管道揭示了细菌传播和全球生物地理的新型模式
摘要:我们提出宏基因组物种多样性分析系统(MIDAS),这是一个集成的计算管道,用于量化细菌物种丰富度和应变水平的基因组变异,包括基因含量和单核苷酸多态性,从猎枪宏基因组。我们的方法利用了大于30,000个细菌参考基因组的数据库,我们将这些数据库归入物种组。它们覆盖了人类微生物组中大多数丰富的物种,但在其他环境中仅包括一小部分微生物,包括土壤和海水。 我们将MIDAS应用于98名瑞典母亲及其婴儿的粪便宏基因组,并使用罕见的单核苷酸变体来揭示出生时菌株的广泛垂直传播,但是在稍后的时间点用不可能从母亲衍生的菌株定植。 这种模式在物种水平的分析中被忽略了,因为随着时间的推移,婴儿肠道微生物组成成分朝着成人收敛。我们还将MIDAS应用于198个全球分布的海洋宏基因组,并使用基因内容显示许多流行的细菌物种具有与地理位置相关的群体结构。宏基因组中存在的应变水平的遗传变体清楚地显示了当以更高的分类学分辨率分析数据时被掩盖的广泛的结构和动力学。

为了探索当前基因组序列如何覆盖来自不同环境的宏基因组中存在的多样性,我们开发了一种新的方法,用于估计在物种水平上含有测序代表的宏基因组中微生物基因组(包括古细菌和真核生物,但不包括病毒)的比例在参考数据库(Methods)中。这个我们称之为“数据库覆盖率”的比例表明了样本中的物种与新型的相关程度。

我们下一步开发了MIDAS,这是一个软件工具,处理鸟枪宏基因组以敏感地和自动地量化我们的数据库中的物种丰富度和菌株水平任何细菌物种的基因组变异。

184. Bioinformatic Approaches Reveal Metagenomic Characterization of Soil Microbial Community

184.生物信息学方法揭示土壤微生物群落的宏基因组特征
摘要:众所周知,土壤是一个复杂的生态系统,蕴藏着地球上最原始的生物多样性。近年来,高通量测序技术的出现极大地促进了土壤生态学研究的进展。然而,如何有效地了解大规模测序数据的基本生物学特征是一个新的挑战。在本研究中,我们使用了来自不同土地(即草地,森林土壤,沙漠,北极土壤和红树林沉积物)的33个公众可获得的宏基因组,并集成了一些最先进的计算工具来探索系统发育和功能特征土壤中的微生物群落。在宏基因组水平上,全面阐述了土壤中的微生物组成和代谢潜能。包含46个分类群和33个代谢模块的宏基因组生物标志物的谱图被检测为显着差异,可以用作区分五个土壤群落中的至少一个的指标。复杂的微生物组成和功能之间的共现关联由基于网络的方法推断。我们的研究成果与已建立的生物信息学管道应该为将来研究土壤生物多样性与生态系统功能的关系奠定基础。

由于最近出现了高通量测序(HTS)技术,宏基因组测序方法已被用于研究各种土壤微生物群落的特征,包括编码16S rRNA的系统发生标记基因的靶序列[7],[8]和整体-宏基因组鸟枪测序[9]-[13]。然而,大多数基于16S rRNA基因的研究致力于解释群落组成,但是很少关注微生物群落中的功能和代谢特性[14]。另外,对于高度多样化的土壤生态系统,微生物群落分类学,代谢重建和相互作用网络的综合生物信息学分析似乎较少研究。

最近,随着人类微生物群体项目的快速发展,为复杂微生物群落的分类和代谢分析的有效解释和可视化开发了许多计算工具和方法[19],[20],并可应用于分析土壤微生物群落。尤其是一些可以更好地解释微生物群落复杂性和异质性的杰出计算技术,在微生物群落研究中应用较少,如宏基因组生物标志物预测和基于网络的相关分析[21,22 ]。在这项研究中,我们旨在通过整合当前最先进的生物信息学工具来探索土壤微生物群的特征。在定制的宏基因组数据挖掘管道中调查了33个公众可获得的土壤宏基因组的收集数据集,以解释和显示微生物组成和代谢潜力。推测了一系列宏基因组生物标志物和分类群共生模式网络,希望对土壤微生物群落中复杂生态关系的潜在机制提供一些新的见解。

方法:
宏基因组数据集的收集和质量控制。本研究共收集到来自5个自然土壤环境的33个宏基因组样本,其中14个来自草地,7个来自森林土壤,9个来自沙漠,2个来自北极土壤,另一个来自红树林沉积物。所使用的宏基因组数据集可以根据表S1所示的序列登录号或网页链接列表进行下载。使用Roche 454或Illumina平台,通过全基因组鸟枪法测序产生所有数据集。表1列出了关于这些选择的宏基因组的更多参考信息。对于没有质量控制的FASTQ格式化序列读数的数据集,我们使用Biopieces软件包( http://www.biopieces.org )对碱基进行质量检查。每次读取的低质量结束被trim_seq修整。进行修剪直到3-bp片段中的所有碱基都具有最小质量得分20。如果满足以下标准,则保留高质量读数:在20bp的滑动窗口中最小平均质量得分为15; 最小读取长度为50 bp。
估计微生物组成。MetaPhlAn v1.7[24]和BLAST v2.2.22[25]被用于分析宏基因组数据集中的分类进化枝。简而言之,首先使用BLASTN将宏基因组读取映射到由独特的分化特异性标记基因组成的MetaPhlAn参考数据库。用于BLASTN测序相似性搜索的非默认参数如下:ee值截止值为1e-10,字长为12,最小对齐长度为75nt。然后通过MetaPhlAn评估从域级到物种级的所有分类学级别的相对丰度评分。在文中,所提到的分类群显示丰度的平均值。为了评估来自不同微生物群落的土壤样品之间的组成相似性,使用Beta多样性的Bray-Curtis度量[26]来比较每个样品对之间使用vegan包中的R函数vegdist的所有成对分类学丰度[27]。然后估计基于置换的多变量方差分析(PERMANOVA)和二维应力值。基于得到的Bray-Curtis相似距离矩阵,采用非度量多维尺度(NMDS)对群落结构的分散进行可视化。使用vegan包[27]和R( http://www.R-project.org )[28]进行多变量分析。
宏基因组的代谢重构。代谢重建使用HUMAnN方法设计用于功能分析的meta’omics [29] 。 高质量的读取最初使用加速翻译的BLAST程序USEARCH v6.0.307[31]映射到特征蛋白质功能数据库KEGG Orthology v54[30]。将截断E值设定为1e-6,然后使用最佳命中值通过HUMAnN v0.98估计KEGG直系同源(KO)基因家族的相对丰度。基于得到的KO信息,MinPath被用来计算手动定义的功能单元的KEGG模块的覆盖率和相对丰度[32]。表示微生物分类学组成和代谢模块的圆形包装图通过使用独立的图形工具GraPhlAn v0.9.5( http://huttenhower.sph.harvard.edu/GraPhlAn )来实施。
宏基因组生物标志物的检测。为了进一步测试某些分类单元/代谢模块在个体土壤栖息地中是否显着过多,根据推断的相对丰度进行统计分析。通过线性判别分析(LDA)效应大小(LEfSe)的方法确定了差异性丰度的特征,并且可以用作宏基因组生物标志物[21]。由于样本量在这个测试中并不是很大,因此Krushkal-Wallis(KW)检验的alpha参数的显着性阈值设定为0.01,截断对数LDA评分为2.0。这些分析是通过Galaxy服务器进行的[33]。此外,使用R函数cor.test,使用Spearman等级相关性的非参数检验,每个KO入口和分类单元的相对丰度被用来估计群落组成和功能特征的共变化。
检测微生物相互作用。最近开发的计算方法被用来研究土壤内部和土壤之间的微生物共生和共排斥关系[22]。 通过Cytoscape插件CoNet 1.0b2( http://psbweb05.psb.ugent.be/conet/ )构建了显着的共现和共排斥相互作用的微生物网络。使用MetaPhlAn估算的分类丰度来准备由三个地点(草地,沙漠和森林土壤)的数据组成的输入矩阵。使用下面列出的非默认参数进行分析:50个初始顶边和底边; 四种相似性测量(Spearman,Pearson,Kullbackleibler和Bray Curtis); 随机化例程的edgeScores; 1000个排列和bootstraps。由此产生的网络根据Simes方法[34]和Benjamini-Hochberg错误发现率(FDR)校正[35]进行合并。FDR截止值设定为0.05。Cytoscape 2.8 [36]显示了集合共现网络。

结果与讨论
微生物组成与功能的相关性。类似于Segata等人提出的方法[38]。我们评估微生物组成和功能富集之间的相关性。结果显示,在土壤微生物群落中检测到分类进化枝与功能基因家族之间的某些显着关联(Spearman非参数检验; Benjamini-Hochberg校正的p值<0.01)(图S2)。值得注意的是,上述个别微生物群落所具有的几个分类学生物标志物进一步被基因家族与分类进化枝之间的强相关性所证实。
土壤微生物相互作网络。为了进一步破译个体土壤微生物群落中复杂的生态关系,根据估计的分类学概况推断微生物关联网络。在这种情况下,我们打算把重点放在单一土壤栖息地即森林土壤,草地和沙漠中的微生物联系。由此产生的宏基因组范围网络包括在属于或超过属的66个系统型(126)显着关联(Benjamini-Hochberg校正p值<0.05)(图5)。在这些显着的系统发育型相关性中,54%被检测到共同存在,其余的被相互排除。有趣的是,我们发现四分之三(~74%)的共生模式是由同一门内的分类群构成的; 而几乎所有共排斥模式(〜90%)由不同门类的分类群组成。本文提供的证据可以再次支持以前的观点,即具有密切进化关系的系统型通常倾向于共同发生[8]

结论 在这项研究中,差异土壤微生物群落的比较宏基因组表征通过一个综合的生物信息学分析管道详细描述。在宏基因组水平上对土壤的复杂的系统发育和代谢网络与一系列分类和功能生物标志物进行了全面的说明。也推断来自不同土壤生态系统的微生物之间的合作或竞争关联,以理解土壤宏基因组中的复杂微生物相互作用。本研究为土壤生物多样性与生态系统功能的关系提供了新的视角,为研究土壤微生物群落提供了可行的分析和可视化方法。

185. Enhancing Metagenomics Investigations of Microbial Interactions with Biofilm Technology

185.生物膜技术促仅微生物相互作用的宏基因组研究
摘要:通过应用独立培养技术,微生物生态学和多样性的调查得到了极大的增强。一种这样的方法,宏基因组学,涉及来自土壤,水和其他环境的样品收集。对大量环境样品中的提取的核酸进行测序和分析,这允许在生物信息学计算的基础上推断微生物相互作用。在大多数环境中,微生物相互作用主要发生在表面附着的生物膜群落中。在这篇综述中,我们介绍了宏基因组学样品和生物膜生物学,并提出了一个实验策略,通过在样品采集过程中加入生物膜富集步骤,可以增强宏基因组的分辨能力。

微生物的全球分布是令人印象深刻的,从陆地的深层地表[1]和海洋环境[2]到高层大气[3]。 尽管培养技术正在改进,但是包括土壤在内的自然环境中的绝大多数微生物尚未被培养。使用包括宏基因组学在内的多种非培养的方法进行微生物组成,多样性甚至生态学相互作用的估算[4]。早期分子研究的一个非常显着的成就是鉴定了三个生命领域,古细菌,细菌和真核生物[5]。测序技术从传统Sanger协议到高通量技术,更经济的方法(如焦磷酸测序和基于Illumina的测序)的发展已经导致了大量数据的产生,因此这些系统生物学方法需要大量的生物信息学分析和基因组序列构建[7]。宏基因组学研究发现了一系列非常显着的结果,包括发现了“Candidatus Pelagibacter ubique ”菌株HTCC1062,最初被认为是深海中最丰富的微生物[8]。基于基因组分析,“Ca. P. ubique”被鉴定出来,这种极端的寡营养现在可以在确定的培养基上培养[9]。

从微生物群体中提取和处理宏基因组DNA的方法有两种,直接和间接提取。在Ogram 等人开创的直接提取方法中[11],任何细胞外的DNA首先通过用碱性缓冲液处理从环境样品中分离出来。然后对基质中的细胞进行直接机械(例如珠粒敲打)裂解,接着提取从这些细胞释放的DNA。然后将通过离心回收的DNA在克隆之前浓缩并纯化。相反,间接方法涉及从样品中回收微生物细胞。将回收的细胞进行细胞裂解(化学和酶促),然后进行DNA提取和纯化[12]。尽管间接提取方法耗时很长,可以防止样品中可能存在的非细菌DNA污染[13]。直接提取方法提供较高产量的较小尺寸DNA片段,而间接方法提供较低产量较大尺寸DNA片段。两种方法都有明显的优势和局限性,选择应该基于预期的下游应用和研究的目的。

可以进行宏基因组DNA的直接测序,然后进行序列分析。下一代测序技术领域正在迅速增长,为测序提供了大量的选择,如454焦磷酸测序和Illumina等。每个平台都提供不同的覆盖范围和阅读时长,并且随着这一领域的快速发展,每个测序基础的成本可能会变得更加可承受。
宏基因组学RAST(MG-RAST)服务器是一个优秀且免费的公共资源,它将蛋白质和核苷酸数据库进行比较,以生成宏基因组序列数据的系统发育和功能概要[26]。MEGAN(Metagenome Analyzer)是一种用于分析高通量宏基因组序列数据和基因预测的另一种生物信息学工具,它使用BLAST [27]等比较工具比较DNA阅读和数据库。使用这里提到的工具对生物膜中的微生物群落进行宏基因组序列分析可以用于鉴定和预测基因功能,并且可以提供不同的视角来研究生物膜环境中的微生物伙伴之间的动态相互作用。

表面粘附的微生物群落,现在被称为生物膜[10],在大多数环境中很常见。生物膜的突出性很容易在流动的系统(如河流[30]或管道[31])中解释,其中表面粘附力使微生物能够在剪切力的作用下坚持下去。营养物质吸附在表面上,因此微生物会被营养来源所吸引-这种现象有时被称为瓶效应[32]。生物膜内生物靠近生长时,代谢和遗传相互作用得到促进。

生物膜的另一个特点是细胞专业化的一个标志。这在社会细菌,黄色粘球菌形成的生物膜中有着特别突出和明显的描述,其中一些细胞参与繁殖,另一些细胞参与营养获取,另外一些则具有结构性作用[59]。其他生物体中也有类似的类比[43]。当然,包括营养水平,pH和氧气水平(需氧生物膜)在内的化学梯度会导致生理梯度[60]。生物膜内的结构和专业化已经被比作一个城市[61](图2),具有不同的生理功能,甚至组分种类(微菌落)。利用生物膜的城市隐喻[60],个体小菌落可以起到一个公寓建筑的作用,并且与邻近的小菌落(“公寓楼”)具有生态相互作用(协同作用,拮抗作用,合成代谢作用,基因交换等)。

在大多数环境中,微生物以表面粘附的生物膜群落形式存在[10]。在生物膜内,发生许多微生物相互作用和过程。自然发生的生物膜群落包括可培养和不可培养的微生物[4]。宏基因组学等基础广泛的分子生物学方法为识别新生物体和潜在的相互作用提供了非常宝贵的见解,而通常用于获得遗传物质的方法从相对较大的样本中获取样本,因此数据和解释基于样本平均,其中将包括生物膜和浮游生物种群,以及可能的细胞碎片和细胞外DNA。
理想情况下,基于广泛的宏基因组学方法识别生物体和基因,以及RNA-seq [74],代谢组学[75]和蛋白质组学[76]等方法来识别基因表达和微生物活性,单细胞水平或小集团内。

186. Functional analysis of metagenomes and metatranscriptomes using SEED and KEGG

186.使用SEED和KEGG对宏基因组和宏转录组进行功能分析
背景:宏基因组学是使用测序直接应用于环境样品的微生物生物体的研究。新一代测序方法的技术进步推动了宏基因组项目数量和范围的迅速增加。宏基因组学提供有关基因内容的信息,而宏转录组学则旨在了解微生物群落中的基因表达模式。宏基因组或宏转录组的初步计算分析提出三个问题:(1)谁在那里?(2)他们在做什么?(3)不同的数据集如何比较?需要新的计算工具来回答这些问题。2007年,MEGAN(MEtaGenome ANalyzer)被发布,作为一个独立的交互式工具,用于分析单个宏基因组数据集的分类学内容。 该计划随后得到扩展,以支持多个数据集的比较分析。
结果:本文的重点是报告MEGAN的新功能,该功能允许基于SEED层级和KEGG路径对多种宏基因组(和宏转录组)进行功能分析。我们已经将我们的结果与不同数据集的MG-RAST服务进行了比较。
结论:MEGAN程序现在允许交互式分析和比较多个数据集的分类和功能内容。作为一个独立的工具,MEGAN为科学家们提供了一个替代门户网站的选择,这些科学家担心将未发布的数据上传到网站。

宏基因组学试图通过DNA测序来了解微生物群落。更严格的测序和更好的参考数据库正在推进这种分析的潜力和成功。虽然宏基因组学提供了有关微生物群落基因内容的信息,但是宏转录组学有望在特定的时间和地点揭示该群落的实际代谢活动,以及这些活动如何随着环境力量或生物相互作用而改变。

MEGAN易于安装和使用,只需要一个BLAST输出文件作为输入来操作。该计划旨在允许在NCBI分类标准的不同级别上汇总数据的高级分析,以及深入到个别读取和BLAST匹配的详细分析。本文的目标是描述MEGAN的新功能,可以对微生物群落进行功能分析。这种类型的分析可以帮助理解生物化学过程或估计环境变化对生物球的影响。MEGAN的下一个主要版本允许使用基于给定的BLAST文件的SEED分类对宏基因组和宏基因组数据集进行功能分析。为了便于比较,可以将多个数据集同时映射到SEED层次结构上,并根据其SEED内容计算数据集上的距离矩阵。

对于通路分析,系统生物学领域已经拥有一个高质量的数据库,即“京都基因与基因组百科全书”(KEGG)[15]。MEGAN提供了一个KEGG分析窗口,用于报告哪个KEGG通路出现在数据集中,然后允许检查这些通路;例如,MEGAN可以捕获所有映射到给定感兴趣通路的reads。
用MEGAN进行SEED分析。MEGAN通过将reads映射到NCBI分类中的不同分类群中来对数据集进行分类学分析,这取决于reads包含的基因的系统发生足迹(使用[12]中描述的最低通用祖先算法)。结果显示为根树,其中节点表示不同的分类单元,并且通过分配给分类单元的读数的数量进行缩放和标记。

现在,作为一个新功能,MEGAN使用SEED分类[1]进行功能分析。在这个分类中,基因被分配到功能角色,不同的功能角色被分成子系统。SEED分类可以由一棵有根树来表示,其中内部节点表示不同的子系统,叶子代表功能角色。请注意,如果角色出现在不同的子系统中,那么这棵树就是“多重标记的”,即不同的叶子可能代表相同的功能角色。目前的SEED树约有10,000个节点。
为了进行功能分析,MEGAN在BLAST比较中将最高得分基因的功能作用分配给蛋白质数据库。

使用MEGAN进行KEGG分析。为了进行KEGG分析,MEGAN试图使每个reads与KEGG ortholog(KO)登记号匹配,使用最佳命中的KO登记号已知的参考序列。MEGAN然后计算每个KEGG通路的命中数并将这些数字报告给用户。用户可以请求查看给定路径的命中,并且通过基于KEGG映射对路径着色来生成路径的适当图像。MEGAN允许一起分析几个数据集,使用不同的颜色来显示哪个数据集中存在哪个路径部分。因为不同生物体中存在的微生物联合体中的不同基因往往不能在单一途径中一起运作,所以MEGAN允许将通路分析限制在NCBI分类学中的一个或多个分类群中[15]。

比较不同数据集的功能内容。MEGAN支持分类内容的同时分析和比较,现在也支持多种数据集的功能内容。一套宏基因组的功能内容可以用一个新的基于SEED的树视图来模拟地打开和比较(见图2)。此外,可以使用六个不同的生态指标,即UniFrac测度[2]和不同的距离分析技术(详见[14])对数据集进行比较。
数据准备:对于第一个案例研究,我们使用了由热液孔微生物群落获得的来自FLX-titanium焦磷酸测序数据集(Roche-454)的1408个序列组成的小亚组。我们使用了来自普利茅斯海洋实验室的八个海洋数据集,其中包括四个宏基因组(DNA)和四个来自挪威卑尔根(Bergen)进行的细胞间实验的转录组(cDNA)(详情见[16])。在本文中,我们将这些称为PLM-Bergen数据集。使用BLASTX工具[18]将所有的宏基因组和元转录组与NCBI-NR数据库进行比对。然后将结果导入MEGAN [12](使用默认参数),使用“从BLAST导入”选项并保存为MEGAN自己的’rma文件’。
基于MEGAN-SEED的功能分配:MEGAN使用LCA算法,基于为读取提供的BLAST匹配,将给定数据集的每次读取放置到NCBI分类法的一个分类群(或“节点”)中。为了以类似的方式进行功能分配,MEGAN使用SEED分类提供分层表示。通常,读取被映射到NCBI分类法,并且程序提供分配给任何给定节点的读取的确切数目以及以该节点为根的子树中的任何节点的命中数目。以功能分析的类似方式,使用来自SEED服务器的’seed2ncbi.gz’文件将读取映射到SEED子系统。

使用功能内容的多重宏基因组比较
多重比较树视图:在MEGAN中打开所有样品后,我们使用“比较”菜单项目比较分类内容,以在新窗口中获得比较结果。从比较窗口中选择’SEED’菜单,我们可以直接在新窗口中对样本进行功能比较(图2)。
多重比较网络视图:为了比较6个PLM-Bergen海洋样本,根据其功能内容,我们从MEGAN的SEEDviewer的’Option’菜单中选择’Networks’来查看正在考虑的多个数据集的网络比较视图(图3)。此外,还有六种不同的距离度量方法来计算网络(详见[14])。
MEGAN和MG-RAST作业的比较:MG-RAST是功能注释的领先服务。为了测试MEGAN的功能分配,我们将MEGAN的功能分配与MG-RAST的分配相比较,两个数据集使用以下两个案例研究进行描述。

我们首先在一个未公开的1408序列(454 FLX-钛焦磷酸测序)的数据集上从一个热液孔微生物群落获得的转录组进行了MEGAN-SEED注释,并将它们与MG-RAST获得的平行分配进行了比较。然后,我们用已发表的海洋数据集(来自Bergen数据库的Time1-Bag1-DNA样本; 209,073个序列)进行了相同的研究,并将结果与MG-RAST的作业进行比较。
基于KEGG的途径分析:MEGAN包含一个名为“KEGGviewer”的模块,用于分析途径中的宏基因组数据。它被设计成使用RefSeq登记号列表,并将它们映射到KEGG正交(KO号码)。该程序的功能已经与MG-RAST进行了比较,MG-RAST也通过选择不同的代谢途径为上述一些PLM-Bergen海洋样品提供了基本的途径分析方法。

133. Inferring Aggregated Functional Traits from Metagenomic Data Using Constrained Non-negative Matrix Factorization: Application to Fiber Degradation in the Human Gut Microbiota

133.使用有约束的非负矩阵分解从宏基因组数据中推断聚合功能特性:在人类肠道微生物群对纤维降解的应用
摘要:全基因组鸟枪法(WGS)宏基因组学已越来越多地用于从分类学和功能角度研究复杂微生物生态系统的结构和功能。其他未经培养的微生物群落的基因清单使微生物群落的直接功能分析成为可能。群落聚合性状的概念已经从环境和植物功能生态学改变为微生物生态学的框架。通过计算相关标记基因的丰度,从WGS数据量化群落聚集性状。它们可以用来研究生态系统层面的关键过程,并将环境因素与生态系统功能相关联。在本文中,我们提出了一种新的基于模型的方法来推断表征生态系统代谢过程的聚合性状的组合。我们制定了这些组合聚集功能性状(CAFTs)的模型,该模型考虑了与微生物基因组相关的基因的等级结构,其在生态系统水平上通过复杂的共现或相互作用进一步连接。该模型完成了特别设计的约束利用可用的基因组信息,以支持生物相关的CAFTs。通过求解约束非负矩阵分解(NMF)问题来获得CAFT结构以及它们在生态系统中的强度。我们为CAFT的数量制定了一个多准则选择程序。我们阐述了我们的方法在人类肠道微生物纤维降解的生态系统功能性状上的建模。 我们使用了来自几个高通量测序项目的1408个基因丰度样本,发现仅需要四个CAFT来代表纤维降解潜力。这种数据缩减强调生物学一致的功能模式,同时提供原始数据的高质量保存。我们的方法是通用的,可以应用于肠道或其他生态系统中的其他代谢过程。

我们提出了一种新的基于模型的方法,将卫星数据分析和系统生物学相结合。我们专注于特定的生态系统代谢过程,可能由很多基因或功能标记丰度来描述。我们的目标是推断表征这些过程的有限数量的组合功能特征,以及它们在生态系统中的强度。

我们的方法依赖于非负矩阵分解(NMF),这是一种流行的数据和图像分析机器学习技术。 NMF与PCA一起属于为解决盲源分离问题而设计的一系列数据分析方法。这些问题被广泛应用,涵盖了所有来自不同未知来源的信号的混合物(这里是样品中的基因丰度),并且希望将它们分开并确定来源(组合的功能性状)和混合系数。

NMF以前用于基因组数据挖掘的微阵列数据分析[12,13]。最近,它是在宏基因组学的框架[14]中引入的,或者是分析各种生态系统的数据集。特别是蒋和共同作者将这种方法用作不同生态系统中的“软”聚类工具。他们研究了不同环境生态系统中的途径丰度[15],比较了使用蛋白质家族概况的海洋生态系统中的栖息地[16]和利用系统发育和功能数据[17]的人体遗址。

在文献[18]中,利用网络结构的先验知识,在二分网络重构的背景下开发了耦合源分离分析与先验知识的思想,并将其应用于从微阵列数据重构调控信号。

我们工作的原创性在于设计一个受约束的NMF方法,其约束旨在选择生物相关的组合功能特征(来源)来描述生态系统层面的过程。约束条件是从贝叶斯观点的可用先验知识中导出的。此外,我们提出了一个谨慎的多标准选择程序,以选择相关数量的组合功能性状。

作为一个概念证明,我们应用我们的方法建立了基于1408个基因丰度样本的人类肠道菌群对纤维降解的生态系统功能性状的建模。

一个组合的聚合功能特性的模型
定量宏基因组学可以在生态系统层面研究代谢过程,通过功能注释生产甲基丙烯酸丰度。 利用这些信息,我们考虑一个生态系统中发生的代谢过程。我们假设这个过程是通过一系列生物化学反应来描述的,每个生化反应都与我们所说的功能性标记相关联。功能标记是一组基因,或基因中的模块化元件,能够控制参与反应的酶的产生。典型的功能标志是Kegg Orthologies(KO)。功能性标记的丰度被定义为被鉴定为属于该组的所有的元素的丰度的总和。

我们的第一个建模假设是生态系统中潜在的功能标记丰度模式的存在。事实上,在微生物生态系统中,基因可以以分层的方式进行观察。它们首先与微生物基因组相关,后者在生态系统一级进一步分为微生物亚群落。这些子社区涉及数百种不同的细菌物种,通过复杂的共生或相互作用相连。而且它们受环境因素(如营养物质或温度)的影响。这些子共同体内的一组功能性标记丰度在生态系统中形成了一个特征模式。
我们的第二个建模假设是由这样一个事实所驱动的,即即使在许多微生物群落中,微生物种类组成随着时间和样品的变化而变化,在群落水平上的代谢过程无处不在,并且在时间上更加稳定。因此,我们假设上述模式由生态系统的所有样本共享,因为它们是由特定的环境约束来选择的。例如,对于肠道生态系统,这些包括来自宿主饮食的厌氧条件,温度或消化残留物组成。

我们的建模框架的第一个重要结果是基因组信息可以转化为对CAFTs结构的约束。
两个额外的假设。首先,我们假定所考虑的代谢过程中的一部分反应是众所周知的,从而可以提取由每个反应消耗或产生的代谢物的列表。其次,我们假设代谢物分为两类。第一个对应于已知从细胞中输出的代谢物,来自实验证据或已发表的数据。第二个收集实际上已知留在微生物细胞内的代谢物,以及强烈怀疑的代谢物。为了方便起见,这两个类别将被称为细胞外和细胞内代谢物,尽管在某些情况下这可能是误导的。

参数的选择:最小化问题需要选择CAFT数目k和调整参数α的值。在NMF生物数据的大多数应用中提出的参数选择程序是基于用于解决问题的迭代算法的几个初始化的权重矩阵W的稳定性[12,13,15,16],特别是关于样本的聚类。由于我们的NMF的使用集中在提取以特征矩阵H为特征的可再生生物机制,所以我们相对于数值解更关心生物稳定性。因此,我们提出对[16]开发的一致性指数进行修改,即对两个矩阵之间的一致性进行评估,以评估独立数据集上计算的CAFT的一致性。在我们的方法中,通过反复分裂生物样品组,对每个子集进行NMF分解,并通过一致性指数评估两个性状基质之间的相似性,来模拟H在新数据集上的再现性。即使索引公式与[16]提出的索引公式相同,但由于作者评估了在整个数据集上实施的NMF算法的各种初始化之间的可重复性,所以解释是不同的。请注意,正如前一节所述,我们的算法也包括重复的随机初始化,并且通过选择提供最佳重构的初始化来获得在数据的子集上计算的每个NMF分解。为了加强解释,这个标准是与两个更经典的:重建误差的斜率变化和双交叉验证误差[20]。选定的值是在确保其他标准可接受的同时优化H的一致性的值。
应用:纤维分解代谢CAFT在人类肠道微生物中
数据和代谢过程描述:我们利用来自8个不同健康状况和人群(欧洲,中国,美国)不同研究的1408个全基因组鸟枪法宏基因组样本中的基因频率[3,21-27]。 对于每个样品,基因频率是通过对由990万个非冗余基因组成的综合基因组目录(IGC)[ 21 ]的样品读数进行计数而获得的。 纤维分解代谢的功能标记由Kegg Orthologies(KO)[ 28,29 ]以及糖苷水解酶(GH)和果胶裂解酶(PL)家族定义[ 30 ]。 仔细地手动选择86个相关标记物(25个GH-PL和61个KO,列于表11和2中 ) 2 ),其被仔细地手动选择为与人类肠道微生物群中的纤维分解代谢特异性相关。 最后,通过对相应的基因频率求和得到1408×86矩阵的标记频率A. 代表糖发酵的图显示在图4中 。 它包含43个主要代谢物,其中25个已知或被认为是细胞内的,18个已知是细胞外的。 它是根据生物分解代谢途径从纤维的水解导致单糖随后发酵成短链脂肪酸(SCFA)和甲烷。

讨论
我们的工作重点是NMF的不同方面。而不是聚类生物样品,我们旨在提取生物相关的代谢过程相关的特征,基于生态模型。因此,我们的主要兴趣,从数学的角度看,是一个生物学解释特质矩阵的推论H而不是通过权重矩阵样品分析W。

我们提出了一个具体的栖息地微生物生态系统的功能多样性建模为从子群落贡献,各自的特征在于功能性标记物的频率的轮廓的混合物。这些配置文件被命名为结合的凝集在参考功能性状为[10],因为它们是在从微生物的随机样本社区级测量,无论其分类学身份。更精确地从它们两者的功能的标记物组合,以形成连贯的并且可操作的代谢途径,和个人的集合以形成其特征在于,该性状的子群落导致。

我们的主要贡献是一种新型的设计约束的NMF模型CAFT推断。标准NMF方法被推广生物数据分析,主要是因为通常的降维技术,如截断奇异值分解(SVD),或密切相关的主要Componant分析(PCA)往往会导致负系数,它不提供直接的解释。然而,虽然SVD或PCA提供一个独特的和良好限定的减小的数据集,在最佳ℓ 2 -error感,NMF是具有多个的解决方案的固有问题。

我们的做法是在本质上贝叶斯,旨在采取的先验信息,当可用的优势,探索数据。我们建议,利用有关的基因组结构和代谢建立相关的约束的知识的方法。基因频率不是随机分布在宏基因组和从微生物基因组中编码的代谢关联造成的。因此,从这种代谢结构化造成的制约扩大在社区一级,应在CAFT的决心来解释。我们设计了局部约束,仅涉及在代谢过程中的曲线图表示相邻的功能的标记。因此,约束不强的限制,仍然留下一个相当大的自由度组装反应建CAFT矩阵,从来没有强迫通路的艰苦重建。

我们考虑一种新的方法来选择CAFTs的数量,基于生物的重现,而不是数值稳定性通常在文学考虑。我们提出了评估计算上独立的数据集CAFTs之间的一致性的标准,并与古典相结合的程序它。

我们实现了我们对梅塔日内斯丰度的方法从人的肠道菌群的样本1408,以确定在远端肠道相关联的纤维降解CAFTs。
我们发现我们的CAFTs的生态模型是与数据一致,以及由人肠道微生物的纤维降解宏基因组潜力可能被解释为4个CAFTs混合物,由不同比例的所有样本共享。

187. Machine Learning Meta-analysis of Large Metagenomic Datasets: Tools and Biological Insights

187. 大规模宏基因组数据集的机器学习元数据分析:工具和生物学见解
摘要:人类相关微生物组的鸟枪宏基因组分析提供了在人类疾病和健康状况的背景下用于预测和生物标志物发现的丰富的微生物特征。然而,使用这种高分辨率微生物特征带来了新的挑战,缺乏用于学习任务的有效计算工具。此外,分类规则在独立研究中几乎没有得到验证,对整个队列中疾病预测模型的普遍性和泛化提出了疑问。在本文中,我们全面评估基于宏基因组学的预测任务的方法和定量评估潜在的微生物组学表型关联的强度。我们使用定量微生物组概况开发预测任务的计算框架,包括物种水平的相对丰度和菌株特异性标记的存在。综合荟萃分析,特别强调跨群体的概括,在824个大型研究的2424个可公开获取的宏基因组样本中进行。交叉验证显示出良好的疾病预测能力,这通常通过特征选择和使用菌株特异性标记而不是物种级分类学丰度来改善。在交叉研究分析中,在研究之间转移的模型在某些情况下比通过研究内交叉验证测试的模型不准确。有趣的是,将来自其他研究的健康(对照)样本添加到训练集提高了疾病预测能力。一些微生物物种(最显着的是咽峡炎链球菌(Streptococcus anginosus))似乎表征微生物群的一般生态失调状态,而不是与特定疾病的关系。我们在建模“健康”微生物组特征方面的结果可以被认为是定义一般微生物失调的第一步。数千个样品的软件框架,微生物组概况和元数据可以在http://segatalab.cibio.unitn.it/tools/metaml上公开获得。

188. MetaComp: comprehensive analysis software for comparative meta-omics including comparative metagenomics

188. MetaComp:比较宏组学,包括比较宏基因组学,综合分析软件
摘要:背景:在过去的十年中,高通量核酸测序和质谱分析技术的发展使得通过宏基因组学,宏转录组学,宏蛋白质组学和代谢组学数据表征微生物群落成为可能。为了揭示微生物群落的多样性以及生物条件与微生物之间的相互作用,有必要在综合上述四类数据的基础上进行比较分析。比较宏组学,特别是比较宏基因组学,已被确定为常规过程,以突出微生物群样品中分类群组成和功能基因丰度的显着差异。同时,生物学家越来越关注宏组学特征与环境因子的相关性,这可能会进一步破译微生物群落的适应策略。结果:我们开发了一个名为MetaComp的图形综合分析软件,包括一系列统计分析方法和宏基因组学以及其他元数据比较的可视化结果。该软件能够读取各种上游程序生成的文件。数据加载后,进行多元统计分析,双样本,多样本以及两组样本的假设检验和环境因素的新型功能回归分析。在这里,回归分析把元元素作为自变量和环境因素作为因变量。此外,MetaComp能够根据输入丰度概况的特点自动选择适合的两组样本测试。我们进一步评估其选择的性能,并展示宏基因组学,宏蛋白质组学和代谢组学样品的应用。结论:MetaComp是一种可应用于所有元数据的综合软件,通过回归分析,初步提取了生活环境对微生物群落的影响。此外,由于自动选择的两组样本测试被证实是胜过了,MetaComp对于没有足够的统计培训的用户是友好的。这些改进旨在克服所有宏组学数据在大数据时代的新挑战。MetaComp可在http://cqb.pku.edu.cn/ZhuLab/MetaComp/和https://github.com/pzhaipku/MetaComp/获得。

145. Metagenomic systems biology of the human gut microbiome reveals topological shifts associated with obesity and inflammatory bowel disease

145. 人类肠道微生物组的宏基因组系统生物学揭示了与肥胖和炎症性肠病相关的拓扑变化
摘要:人类微生物组在广泛的宿主相关过程中起着关键作用,对人类健康有着深远的影响。人类微生物组的比较分析揭示了与各种疾病状态有关的物种和基因组成的显着变化,但可能不能全面了解这种变化对社区和宿主的影响。在这里,我们介绍了宏基因组系统生物学计算框架,将宏基因组数据与代谢网络的计算机模拟的系统级分析相结合。围绕肠道微生物群,我们分析了124个无关个体的粪便宏基因组数据,以及6个同卵双生子对和他们的母亲,并生成了微生物群的群落水平代谢网络。在这些网络的背景下放置基因丰度的变化,我们确定与肥胖和炎症性肠病(IBD)相关的基因水平和网络水平的拓扑差异。我们显示与这些寄主状态相关的基因倾向于位于代谢网络的外围,并富集拓扑来源的代谢“投入”。这些发现可能表明瘦和肥胖的微生物群体主要在其与宿主的接口以及它们与宿主新陈代谢相互作用的方式。我们进一步证明,肥胖微生物组合较少模块化,适应低多样性环境的标志。我们还将这些拓扑变化与社区物种组成联系起来。这里提出的系统级方法为研究人类微生物组及其对人类健康的影响提供了一个独特的框架。

58. Metagenomics meets time series analysis: unraveling microbial community dynamics

58.宏基因组学遇见时间序列分析:解开微生物群落动态
摘要:最近微生物时间序列研究的数量增加为从世界海洋到人类微生物群的微生物群落的稳定性和动力学提供了新的见解。专用的时间序列分析工具可以充分利用这些数据。这些工具可以揭示周期性模式,有助于建立预测模型,或者相反,量化使社区行为不可预测的违规行为。微生物群落可以突然改变,以响应小的扰动,与变化的条件或多个稳定状态的存在相关联。用足够的样本或时间点,可以检测到这种替代状态。另外,微生物相互作用的时间变化可以用时变网络捕获。在这里,我们将这些技术应用于多个纵向数据集,以说明其在微生物群研究中的潜力。

189. metaSPAdes: a new versatile metagenomic assembler

189.metaSPAdes:一种新的多功能宏基因组组装器。
摘要:虽然宏基因组学已经成为分析细菌种群的首选技术,但宏基因组数据的组装仍然具有挑战性,从而扼杀了生物学的发现。此外,最近的研究表明,复杂的细菌种群可能由数十个相关菌株组成,从而进一步放大了宏基因组装的挑战。metaSPAdes利用计算思想解决了宏基因组装的各种挑战,这些计算思路被证明在单细胞和高度多态性二倍体基因组的装配中是有用的。我们将metaSPAdes与其他最先进的宏基因组装体进行对比,并证明它可以在不同的数据集中实现高质量的组装。

190. Microbial Community Profiling of Human Saliva Using Shotgun Metagenomic Sequencing

190.使用霰弹枪宏基因组测序技术分析人唾液微生物群落
摘要:人类的唾液是口腔和一般健康的临床信息。由于下一代霰弹枪测序(NGS)现已被广泛用于鉴定和定量细菌,我们调查了两名健康志愿者的唾液微生物菌群的细菌菌群以及来自人类微生物组计划的五个数据集,以及包含来自细菌的短NGS读数的对照数据集代表人类唾液细菌菌群的物种。GENIUS是一种使用未装配的短NGS读数鉴定和定量细菌物种的系统,用于鉴定包含唾液样品和数据集的微生物组的细菌物种。在几分钟内达到的结果和超过90%的准确度显示超过175种细菌种类包括人类唾液的细菌菌落,包括已知为共生的人类菌群的细菌,还有流感嗜血杆菌,脑膜炎奈瑟菌,肺炎链球菌和伽玛蛋白细菌。基本的局部比对搜索工具(BLASTn)并行分析报告比实际包含计算机模拟样品的物种多五倍。GENIUS和BLAST的唾液样品分析确定了包含唾液细菌菌群的主要属,但GENIUS提供了更精确的物种组成的描述,鉴定在大多数情况下应变,并且递送结果至少快10,000倍。因此,GENIUS为宏基因组样品中细菌种类和/或菌株的鉴定和定量提供了一个简便而准确的系统。

191. Microbial strain-level population structure and genetic diversity from metagenomes

191.宏基因组的微生物菌株水平种群结构和遗传多样性
摘要:在与微生物群落相关的人类健康状况中,表型通常仅与致病微生物群体中的一部分菌株相关。虽然几十年来微生物生理学对个别菌株的表征至关重要,但是在使用不依赖培养物的高通量宏基因组学方面,这是具有挑战性的。我们引入StrainPhlAn这一新的宏基因组应变鉴定方法,并将其用于描述来自北美,南美,欧洲,亚洲和非洲国家的1500个肠道宏基因组中> 125个物种的数千个菌株的遗传结构。该方法依赖于物种特异性标记基因内的每样本显性序列变异重建。它主要鉴定了受试者特异性菌株变异(<5%跨受试者菌株共享),并且我们确定单个菌株通常主导每个物种并随时间保留(对于> 70%的物种)。微生物种群结构与宿主种群的地理结构有几个不同的关联。在一些情况下,离散亚种(例如直肠真杆菌和普雷沃氏菌)或连续微生物遗传变异(例如用于Faecalibacterium prausnitzii)与地理上不同的人类群体相关,而在多个不相关的群体中发生少量菌株。我们进一步估计了肠道微生物的遗传变异性,其中拟杆菌属物种表现出显着一致性(菌株间核苷酸变异体的中值数目为0.45%),而假单胞菌属是最具塑性的肠道菌落。因此,我们在此描述以前难以接近的肠道微生物的群体遗传学,提供肠道微生物多样性的综合应变水平基因概述。

9. Microbiome, Metagenomics, and High-Dimensional Compositional Data Analysis

9.微生物组学、宏基因组学和高维成分数据分析
摘要:人类微生物群体是人体内和人体内所有微生物的总和,其在健康和疾病中的重要性日益得到认可。高通量测序技术最近使科学家能够对构成微生物组的所有微生物进行无偏量化。通常,单个样品可以产生数亿个短序列读数。然而,新技术产生的数据的独特特征以及这些数据的巨大程度使得从微生物组学研究中有效的生物学推断变得困难。对这些大数据的分析带来了巨大的统计和计算挑战。**重要问题包括相对分类群,细菌基因和代谢丰度的正常化和量化;将系统发育信息纳入宏基因组学数据分析;和高维成分数据的多变量分析。**我们回顾现有的方法,指出它们的局限性,并概述未来的研究方向。

157. SmashCommunity: A metagenomic annotation and analysis tool

157. SmashCommunity:一个宏基因组注释和分析工具
摘要:SmashCommunity是独立的宏基因组注释和分析管道,适用于Sanger和454测序技术的数据。它支持基本宏基因组任务(如组装和基因预测)的最先进的软件。它提供了估计宏基因组的定量系统发育和功能组成的工具,比较多个宏基因组的组成,并产生这种分析的直观视觉表示。
可用性:SmashCommunity源代码和文档可在http://www.bork.embl.de/software/smash。

167. The metagenomics RAST server – a public resource for the automatic phylogenetic and functional analysis of metagenomes

167.宏基因组学RAST服务——一个宏基因组自动系统发育和功能分析的公共资源
摘要:背景:随机社区基因组(宏基因组)现在通常用于研究不同环境中的微生物。在过去的几年中,与宏基因组学相关的主要挑战从发电转向分析序列。高通量,低成本的新一代测序技术为广泛的研究人员提供了宏基因组学的途径。结果:已经构建了一个高吞吐量的管道,为有兴趣使用宏基因组学的所有研究人员提供高性能计算。该管道通过比较蛋白质和核苷酸数据库来产生宏基因组中序列的自动功能分配。生成宏基因组的系统发育和功能概要,并将比较宏基因组学的工具纳入标准视图。用户访问受到控制以确保数据的私密性,但支撑该服务的协作环境提供了一个用于在多个用户之间共享数据集的框架。在宏基因组学RAST中,所有用户都可以完全控制自己的数据,并且可以以各种格式下载所有内容。结论:开源的宏基因组学RAST服务为宏基因组的注释和分析提供了新的范例。通过对多个数据源的内置支持以及包含抽象数据类型的后端,宏基因组学RAST是稳定的,可扩展的,并可供所有研究人员免费使用。这项服务已经消除了宏基因组序列分析中的主要瓶颈之一——用于注释数据的高性能计算的可用性。http://metagenomics.nmpdr.org

相关内容

热门资讯

喜欢穿一身黑的男生性格(喜欢穿... 今天百科达人给各位分享喜欢穿一身黑的男生性格的知识,其中也会对喜欢穿一身黑衣服的男人人好相处吗进行解...
发春是什么意思(思春和发春是什... 本篇文章极速百科给大家谈谈发春是什么意思,以及思春和发春是什么意思对应的知识点,希望对各位有所帮助,...
网络用语zl是什么意思(zl是... 今天给各位分享网络用语zl是什么意思的知识,其中也会对zl是啥意思是什么网络用语进行解释,如果能碰巧...
为什么酷狗音乐自己唱的歌不能下... 本篇文章极速百科小编给大家谈谈为什么酷狗音乐自己唱的歌不能下载到本地?,以及为什么酷狗下载的歌曲不是...
家里可以做假山养金鱼吗(假山能... 今天百科达人给各位分享家里可以做假山养金鱼吗的知识,其中也会对假山能放鱼缸里吗进行解释,如果能碰巧解...
华为下载未安装的文件去哪找(华... 今天百科达人给各位分享华为下载未安装的文件去哪找的知识,其中也会对华为下载未安装的文件去哪找到进行解...
四分五裂是什么生肖什么动物(四... 本篇文章极速百科小编给大家谈谈四分五裂是什么生肖什么动物,以及四分五裂打一生肖是什么对应的知识点,希...
怎么往应用助手里添加应用(应用... 今天百科达人给各位分享怎么往应用助手里添加应用的知识,其中也会对应用助手怎么添加微信进行解释,如果能...
苏州离哪个飞机场近(苏州离哪个... 本篇文章极速百科小编给大家谈谈苏州离哪个飞机场近,以及苏州离哪个飞机场近点对应的知识点,希望对各位有...
客厅放八骏马摆件可以吗(家里摆... 今天给各位分享客厅放八骏马摆件可以吗的知识,其中也会对家里摆八骏马摆件好吗进行解释,如果能碰巧解决你...