生命之树是进化生物学的核心,但由于 不完全谱系排序(ILS)、杂交 和 多倍化 等复杂过程,解析深层且难解的系统发育关系仍然是一个挑战。**豆科(Leguminosae)**这一物种丰富且生态多样化家族的理解,但在族级及更高层次的许多深层关系依旧未能解决。研究结合 231 个物种的新测序 genome skimming 数据 与已有的 叶绿体基因组、线粒体基因组和转录组数据,基于 完整叶绿体基因组、39 个线粒体基因和 1559 个低拷贝核基因 重建了豆科系统发育树,涵盖了几乎所有已知族和主要未定位类群。通过 核基因树四分分析 并结合最大似然树与 ASTRAL 结果,对 22 个有争议节点 提出了最可能的系统关系解释。研究表明:ILS 是主要冲突来源,基因流(gene flow) 是一个被低估但重要的次要因素。这些过程可能解释了 Papilionoideae 中 50-kb 倒位类群 等顽固难解的系统发育关系。总体而言,本研究通过多数据分区与多方法结合,解析了豆科的关键系统发育争议,建立了一个稳健的系统发育框架,为进一步研究这一在生态与经济上都极其重要的家族提供了新基础。
文章来源:https://doi.org/10.1093/sysbio/syaf057
研究背景
豆科约 22,520 种、796 属,广泛分布于全球几乎所有生境,在生态(固氮作用)和经济(大豆、豌豆、苜蓿等重要作物和药用/木材植物)上极其重要。
由于其快速多样化(尤其在白垩纪—古近纪交界时期),豆科深层次系统发育关系一直难以解决。
主要挑战:不完全谱系排序(ILS)、基因流(introgression/hybridization)、多倍化(polyploidization)、基因树估计误差(GTEE) 导致的基因树与物种树冲突。
研究方法
1. 样本与取样策略
覆盖范围:几乎所有豆科亚科(6 个)与族(49 个)。
新增数据:
235 个样本(231 个物种),利用 genome skimming 获得叶绿体和线粒体数据。
样本来源包括新鲜叶片、硅胶干燥样品和标本馆标本。
数据整合:
叶绿体基因组(plastome):696 个样本(677 个物种,433 属,约覆盖已知属的 54.4%)。
线粒体数据:459 个样本,包含 39 个线粒体蛋白编码基因。
核基因数据:1559 个低拷贝核基因(来源于转录组和基因组数据,463 个物种,333 个属)。
外群选择:包括同目内的其他科(如 Polygalaceae、Quillajaceae、Surianaceae),以及若干其他被子植物科。
2. DNA 提取与测序
DNA 提取:
新鲜/硅胶干燥叶片 → 改良 CTAB 法。
标本馆样品 → DNeasy Plant Mini Kit(针对降解 DNA 适配)。
文库构建:
DNA 片段化,筛选 350 bp 插入片段。
Illumina HiSeq 4000/X-Ten 平台测序(2 × 150 bp)。
3. 基因组装与注释
叶绿体基因组:
使用 GetOrganelle(调用 Bowtie2、SPAdes、BLAST+)进行组装。
组装图用 Bandage 可视化和人工修正。
注释使用 PGA 和 Geneious,以大豆基因组为参考。
线粒体基因:
使用 SPAdes + GetOrganelle 获取线粒体 contig。
对照已发表的豆科线粒体基因组进行比对和人工修正。
核基因数据:
引用 Zhao et al. (2021) 的数据集(1559 个低拷贝核基因)。
基因主要功能:DNA 修复、RNA 剪接、蛋白结合等 housekeeping genes。
4. 数据处理与比对
叶绿体:提取 203 个片段(81 coding + 122 noncoding),分别比对(MAFFT)并拼接为不同矩阵。
线粒体:保留 39 个基因,拼接为 MG39 矩阵。
核基因:1559 个基因分别比对和拼接为 Nucl1559 数据集。
低质量或缺失严重的片段会被 trimAl 过滤。
5. 系统发育推断
最大似然树(ML):
使用 PartitionFinder2 确定分区方案。
RAxML 推断树(GTR+G 模型),1000 bootstrap。
物种树推断:
使用 ASTRAL-III(基于基因树四分法,适用于 ILS 情况)。
主要对核基因和叶绿体数据应用,线粒体数据由于信息量有限未用于冲突分析。
冲突分析:
核基因树Quartets分析:检测基因间冲突。
ILS 与基因流检测:使用局部支持值、Reticulation Index 等方法分离不同冲突来源。
研究结果
1. 系统发育框架
六个亚科的单系性得到强烈支持。
49 个已承认族单系得到确认。
在蝶形花亚科(Papilionoideae)内,识别出 10 个潜在新族(tribes) 候选群体,建议提升为正式族级单位。
一些关键关系得到澄清:
ADA 类群(Angylocalyceae + Dipterygeae + Amburaneae) 与其他 Papilionoideae 的关系。
Baphieae、Dalbergioid、Genistoid 等重要类群的相对位置。
对长期未定位的属(如 Austrosteenisia、Dermatophyllum)提出分类学参考。
图1豆科696个质体基因组的编码区和非编码区串联的最大似然树
图2 豆科核基因和质体基因组系统发育树在族级分支层面存在的核质冲突
图3 叶绿体和核基因的单基因树支持度频率分布
2. 冲突模式
ILS 是主要冲突来源:解释了大多数深层次分支的不一致。
基因流(introgression):
在 ADA 类群、Wisterieae、Mimoseae、Caesalpinieae 等分支表现突出。
主要造成 细胞核-叶绿体冲突。
基因树估计误差(GTEE):在 Papilionoideae 的 50-kb inversion clade 中尤为明显。
定量结果:
~71% 的冲突节点与 ILS 相关;
18% 主要受基因流驱动;
31% 由 ILS 与基因流共同作用。
图4 基于豆科核基因系统发育树的不完全谱系分选(ILS)、基因树估计误差(GTEE)及基因流(RI)信号的量化
图5 不完全谱系选、基因树估计误差以及基因流对豆科植物系统发育树结构的影响