大豆巢式关联作图群体蛋白质含量的遗传解析-论文范文-奥鹏易百

奥鹏网院作业 发表于 2021-10-17 13:39:26

大豆巢式关联作图群体蛋白质含量的遗传解析

大豆巢式关联作图群体蛋白质含量的遗传解析
李曙光1,2，曹永策1，贺建波1，王吴彬1，邢光南1，杨加银2，赵团结1，盖钧镒1

（1南京农业大学大豆研究所/国家大豆改良中心/农业部大豆生物学与遗传育种重点实验室/作物遗传与种质创新国家重点实验室/江苏省现代作物生产协同创新中心，南京 210095；2江苏徐淮地区淮阴农业科学研究所，江苏淮安 223001）

摘要：【目的】大豆是重要的经济作物，是人类植物蛋白质和油脂的主要来源。蛋白质含量作为大豆育种的主要目标之一，属于多基因控制的复杂数量性状，并且受环境条件的影响。通过对大豆巢式关联作图群体的蛋白质含量进行全基因组关联分析，解析其遗传构成，为高蛋白质含量的大豆品种育种提供理论基础。【方法】以蒙8206为共同亲本，对临河×蒙8206、正阳×蒙8206、蒙8206×通山与蒙8206×WSB分别杂交，通过单粒传法自交7代衍生的4个重组自交系群体，共计623个家系，整合为一个大豆巢式关联作图群体，利用RAD-seq技术进行SNP标记基因分型，并于2012年至2014年将该群体种植在5个不同田间环境，在大豆完熟期R8时测定蛋白质含量，利用限制性两阶段多位点全基因组关联分析方法（RTM-GWAS）来解析蛋白质含量的遗传构成。【结果】试验群体的蛋白质含量变异较大，蛋白质含量性状遗传率较高，遗传变异可解释85.00%的表型变异。多环境联合方差分析表明，蛋白质含量的基因型、环境以及基因型×环境均达到差异极显著水平。全基因组关联分析共检测到90个蛋白质含量QTL，其中新检测到20个QTL，每个QTL的表型变异解释率为0.06%—3.99%，贡献率总和为45.60%。每个QTL包含2—5个等位变异，等位变异效应为-2.434%—2.845%，大多数等位变异效应为-1.000%—1.000%，表明大多数等位变异的效应较小。根据检测的90个蛋白质含量QTL，预测了73个蛋白质含量相关基因，其中Glyma20g24830参与甘氨酸与芳香族氨基酸代谢，Glyma18g03540参与半胱氨酸生物合成，推测其为重要蛋白质含量候选基因。根据试验群体的蛋白质含量QTL-allele矩阵，预测出潜在杂交组合的纯系后代的蛋白质含量育种潜力高达56.5%。【结论】检测到90个大豆蛋白质含量QTL，新检测到20个QTL，预测到73个蛋白质含量相关基因，表明大豆蛋白质含量是由多基因控制的数量性状。

关键词：大豆；巢式关联作图群体；蛋白质含量；限制性两阶段多位点全基因组关联分析

0 引言
【研究意义】大豆（Glycine max (L.) Merr.）是世界上重要的经济作物，是植物蛋白质和油脂的主要来源之一，提高大豆蛋白质含量是大豆重要的育种目标。解析大豆蛋白质含量的遗传构成对大豆分子设计育种具有重要意义。【前人研究进展】研究表明，大豆蛋白质含量是典型的数量遗传性状，由多基因控制，并且容易受环境条件的影响。近年来，随着基因组测序技术和遗传统计方法的迅速发展，前人分别利用双亲本衍生分离群体和自然群体，对大豆蛋白质含量的遗传构成进行了大量研究。根据大豆SoyBase数据库及相关文献，迄今为止，至少有248个大豆蛋白质含量QTL（quantitative trait loci）已被报道，分布在大豆的20条染色体上。基于连锁定位方法，Karikari等利用Linhefenqingdou×Meng8206衍生的重组自交系（recombinant inbred line，RIL）群体检测到一个位于第7染色体上的多环境下稳定表达的大豆蛋白质含量QTL（qPro-7-1），可以解释13.59%—26.22%的表型变异；Zhang等利用Huapidou（ZDD09982）×Qihuang26（ZDD23189）衍生RIL群体，在大豆第1、10和15染色体上检测到3个表型变异解释率14.00%以上的蛋白质含量QTL。基于关联分析方法，Li等以185份来自国内外的大豆种质为材料，采用MLM（mixed linear model）方法，在第1、13和20染色体上检测到3个遗传贡献率13.00%以上的稳定表达的QTL；Wang等利用235份国内外收集的大豆品种，以FarmCPU（fixed and random model circulating probability unification）方法，检测到12个多环境下稳定表达的与蛋白质含量显著关联的SNP。另一方面，以双亲本衍生分离群体为材料进行QTL定位，不能检测双亲本间不具多态性的关键基因位点；以自然群体为材料进行关联分析，个体亲缘关系导致的群体结构可能会导致关联分析的假阳性；相比之下巢式关联作图（nested association mapping，NAM）群体利用了多亲本之间更多的遗传差异，能够相对较好地控制群体结构。因此，NAM群体结合了连锁定位中QTL检测高功效与关联分析中高作图精度的优点，成为解析复杂性状解剖的很有发展前景的多亲本遗传设计。在前期研究中，笔者构建了包含4个RIL群体的大豆NAM群体，并提出了全面解析NAM群体数量性状遗传构成的优化方法。【本研究切入点】由于大豆蛋白质含量是典型的复杂数量遗传性状，人们对其遗传构成还有待进一步深入了解。【拟解决的关键问题】本研究以大豆NAM群体为研究对象，利用RAD-seq进行基因分型并在5个环境下进行田间试验，采用前期研究鉴定的适合于NAM群体的最佳QTL定位方法，来解析大豆NAM群体的蛋白质含量的遗传结构以及推测相关候选基因，并从中探索构建该群体的5个亲本的重组潜力，为高蛋白质含量的大豆品种育种提供理论基础。

1 材料与方法
1.1 试验材料
以蒙8206（M8206）为共同亲本，临河×蒙8206（Linhe×M8206，LM，104 RILs）、正阳×蒙8206（Zhengyang×M8206，ZM，126 RILs）、蒙8206×通山（M8206×Tongshan，MT，289 RILs）、蒙8206×WSB（M8206×WSB，MW，104 RILs）分别得到F1代，通过单籽传法自交7代获得4个RIL群体，共计623个家系，整合为一个NAM群体。本研究NAM群体由南京农业大学国家大豆改良中心创制和保存。

1.2 田间试验设计
NAM群体及亲本分别于2012年、2013年和2014年在南京农业大学国家大豆改良中心江浦试验站（江浦，简称JP2012、JP2013和JP2014），属于北亚热带季风性湿润气候，雨量充沛、日照充足，无霜期230 d，年均气温15.3℃，降水量1 102.2 mm，年日照2 165.2 h；2012年在安徽科技学院凤阳试验田（凤阳，简称FY2012），属于北亚热带向温带渐变气候，气候温和，光照充足，无霜期212 d，年均气温14.9℃，年降雨量904.4 mm，年日照2 248.7 h；2014年在江苏沿海地区农业科学研究所（盐城，简称YC2014），属于亚热带与暖湿带的过渡地带气候，气温适中，雨量充沛，无霜期213 d，年平均气温14.1℃，常年降水量1 042.2 mm，年日照2 238.9 h；共计5个环境进行田间试验。每公顷施用三元复合肥（N-P2O5-K2O）225 kg，其中N 15%、P2O5 15%、K2O 15%，总养分含量≥45%。采用完全随机区组设计，3次重复，单行区，行长1 m，行距0.5 m，株距10 cm，常规田间管理。

1.3 蛋白质含量测定及数据统计分析
大豆自然成熟（完熟期R8）时，每个小区植株收获后脱粒，通风晾干并在35—40℃烘干至恒重，选取籽粒大小一致、饱满的种子，采用FOSS公司生产的近红外谷物分析仪InfratecTM 1241 NIR Grain Analyzer（Sweden）测定大豆种子蛋白质含量，样品测定为近红外透射技术，波长范围570—1 100 nm，完全整粒无损分析，无需磨粉，仪器内置大豆模型，直接显示蛋白质含量测定结果。分别对NAM群体在每个环境下的3次重复进行蛋白质含量检测。

采用SAS 9.3（SAS Institute Inc. 2011）的PROC UNIVARIATE、PROC MEANS软件进行表型数据的描述性统计，包括频数分布、平均值、正态分布检验等。采用PROC GLM进行多环境联合方差分析，随机效应模型为width=104.25,height=14.55，基因型、环境、重复（环境）、基因型与环境互作设为随机效应，其中，μ为群体平均值，αi为为第i个基因型的效应，βj为第j个环境的效应，(αβ)ij为基因型与环境互作效应，ɛij为残差。

根据公式：width=114.75,height=14.9，计算联合多环境下的遗传率，其中，width=11.8,height=14.35、width=13.8,height=14.2、width=12.7,height=12.7分别代表遗传方差、基因型与环境互作方差、误差方差，n代表环境数，r代表环境内重复次数。根据公式：width=80.3,height=14.85，计算单环境下的遗传率。

1.4 SNP基因型分析与SNPLDB标记构建
NAM群体的SNP基因型与SNPLDB标记来源于Li等文献。利用Restriction-site associated DNA sequencing（RAD-seq）技术对NAM群体进行SNP标记基因分型。由于一个SNP标记位点只有2种等位变异，又称为双等位变异标记，SNP不适合NAM群体中存在复等位变异的基本特征。因此，本研究把位于一个连锁不平衡（linkage disequilibrium，LD）区段内紧密连锁的多个SNP，作为该基因组区域的一段序列，划分为一个SNP连锁不平衡区块（SNP linkage disequilibrium block，SNPLDB），简称为SNPLDB标记。并且用NAM群体的亲本单倍型作为其等位变异，增加每个标记位点的单倍型/等位变异的数量，来匹配NAM群体的复等位变异特征。基于以上分析，NAM群体共鉴定了55 936个SNP和6 137个SNPLDB标记。

1.5 全基因组关联分析
采用贺建波等提出的限制性两阶段多位点全基因组关联分析方法（restricted two-stage multi-locus genome-wide association analysis，RTM-GWAS），基因型数据为NAM群体的6 137 SNPLDB标记，表型数据为5个环境下蛋白质含量的小区观测值（含每个环境下的3次重复数据）。RTM-GWAS方法分两阶段进行：第一阶段，基于简单线性模型进行单位点关联检验，对SNPLDB标记进行初步筛选，使用常规显著水平0.05作为筛选阈值；第二阶段，对第一阶段筛选到的显著位点，利用多位点模型分析进行QTL检测，并估计等位变异效应，显著水平设为0.01。在这两个阶段中，将基于SNPLDB标记的个体间遗传相似系数矩阵的前10个特征向量作为协变量进行群体结构控制。

根据McCouch等提出的QTL命名法，以“q”+性状名称+染色体编号+QTL序号，用斜体表示。如qProt-6-1，q表示QTL，Prot表示大豆种子蛋白质含量，6表示该QTL定位在第6染色体上，1表示该染色体上第1个蛋白质含量QTL。

1.6 候选基因预测
根据检测到的蛋白质含量QTL，推断其候选基因体系。首先，利用大豆基因组数据库SoyBase（http://soybase.org），检索关联SNPLDB标记（±100 kb）物理范围内的注释基因；然后在这些基因中，鉴定出NAM群体中该物理区间内SNP所在的基因；最后，使用卡平方（c2）独立性测验（test for independence），显著性水平设置为0.05，检验SNPLDB标记（复等位变异）和注释基因中SNP（双等位变异）之间是否显著相关。当这二者存在显著相关时，则该SNP所在的注释基因被认为是候选基因。大豆参考基因组Williams 82（Glyma.Wm82.a1.v1.1）用于基因功能注释。

2 结果
2.1 蛋白质含量表型数据分析
NAM群体的蛋白质含量变异较大，在5个环境下平均值的变异幅度为36.6%—46.0%，在5个单环境之间的变异幅度为31.5%—47.8%。NAM群体的共同亲本（M8206）的蛋白质含量为36.3%，低于其他4个亲本（临河、正阳、通山和WSB），这4个亲本的蛋白质含量分别为47.8%、44.7%、45.1%和42.9%。蛋白质含量广义遗传率较高，即遗传变异可以解释85.00%的蛋白质含量表型变异（表1）。多环境联合方差分析结果表明，蛋白质含量在NAM群体中不同基因型之间存在显著差异，同时环境、重复之间、基因型×环境互作也达到了差异极显著水平（P＜0.01），表示蛋白质含量受到外在环境条件影响较大，但是基因型间均方远大于基因型×环境互作的均方（表2）。

表1 大豆NAM群体中蛋白质含量（%）的次数分布和描述性统计

Table 1 Frequency distribution and descriptive statistics for protein content (%) in the soybean NAM population

a：试验环境。平均值是5个环境FY2012、JP2012、JP2013、JP2014和YC2014蛋白质含量的平均值。b：变异系数

a: environment. Mean is the average over five environments FY2012, JP2012, JP2013, JP2014 and YC2014.b: Coefficient of variation

表2 大豆NAM群体中蛋白质含量的多环境联合方差分析

Table 2 Joint analysis of variance for protein content under multiple environments in the soybean NAM population

2.2 全基因组关联分析
利用RTM-GWAS方法解析NAM群体中蛋白质含量的遗传构成，共检测到90个蛋白质含量QTL，分布在大豆20条染色体上，每条染色体上具有1个（第9、12和17染色体）至12个（第6染色体）QTL，单个QTL的表型变异解释率为0.06%—3.99%，共解释45.6%表型变异（图1和表3）。其中，qProt-6-1、qProt-7-2、qProt-20-8、qProt-19-3、qProt-6-4、qProt-2-2、qProt-5-5、qProt-18-1、qProt-8-5和qProt-14-2等10个蛋白质含量QTL的表型变异解释率分别为3.99%、2.46%、2.42%、1.85%、1.74%、1.71%、1.64%、1.45%、1.30%和1.02%，贡献均超过1.00%的表型变异，为大贡献QTL（large-contribution QTL），共解释19.60%的表型变异；其余80个小贡献QTL（small-contribution QTL），共解释26.00%的表型变异。

width=446.85,height=123.65
水平虚线为0.01显著性水平，-lgP范围介于2.0—89.2，大于10的值以8—11的值显示

The horizontal dashed line indicates significance level of 0.01, where the -lgP values are ranged from 2.0 -89.2. The -lgP values greater than 10 were shown as values randomly sampled from 8-11

图1 大豆NAM群体蛋白质含量全基因组关联分析曼哈顿图与QQ图

Fig. 1 Manhattan and quantile−quantile plots for genome-wide association study of protein content in the soybean NAM population

表3 大豆NAM群体中检测到的蛋白质含量QTL

Table 3 QTLs associated with the protein content detected in the soybean NAM population

表型贡献大于1.0%和小于1.0%的QTL，分别称为大贡献（LC）QTL和小贡献（SC）QTL。R2：每个QTL位点的遗传贡献率。a：Soybase报道的相对一致的蛋白质含量（seed protein content） QTL。67(119)表示本研究检测到的67个QTL与Soybase中119个QTL相邻近。b：GWAS QTL 指文献报道的关联分析QTL；33(45)表示本研究检测到的33个QTL与以前报道的关联分析文献中的45个QTL相一致

Those with phenotypic contribution more than 1.0% and less than 1.0% are called roughly as large-contribution (LC) QTL and small-contribution (SC) QTL, respectively. R2: genetic contribution of a QTL.a: SoyBase QTL means the loci are relatively consistent with the seed protein content QTL found in SoyBase; 67 (119) indicates that 67 QTLs detected in this study were located in or around 119 QTLs by linkage mapping in SoyBase. b: GWAS QTL means the QTLs detected in previous GWAS literature; 33 (45) indicates that 33 QTLs detected in this study were consistent with 45 QTLs reported in previous GWAS literature

根据多环境联合方差分析，遗传变异解释的蛋白质含量表型变异，即性状遗传率为85.00%。本研究检测到的90个蛋白质含量QTL表型变异贡献率为45.60%，推测剩余的39.40%的遗传变异的来源于未定位到的微效QTL，QTL×环境互作与试验误差解释15.00%蛋白质含量表型变异。

2.3 蛋白质含量QTL-等位变异矩阵
NAM群体检测到的90个蛋白质含量QTL中，每个QTL包含2—5个等位变异，共鉴定了303个等位变异效应，其中增效等位变异156个，减效等位变异147个，增效等位变异的效应值为0.007%—2.845%，减效等位变异的效应值为-0.012%—-2.434%，90.8%的等位变异效应值为-1.000%—1.000%，表明大多数等位变异的效应值较小，具有极高或极低表型效应的等位变异较为少见（图2）。

NAM群体的623个家系中90个QTL的303个等位变异效应，组成了一个蛋白质含量QTL-等位变异矩阵（QTL-allele matrix），全面显示了该群体蛋白质含量的遗传构成信息。图2为NAM群体的蛋白质含量QTL-allele矩阵图，每个QTL的等位变异效应以颜色的深浅表示。从蛋白质含量QTL-allele矩阵图中可以看到，不存在等位变异效应完全是减效或增效的NAM家系。蛋白质含量高低的差异在于不同家系中的减效或增效等位变异的构成比例，高蛋白质含量值家系比低值家系具有更多的增效等位变异。此外，高蛋白质含量家系存在一定数量的减效等位变异，而低蛋白质含量家系也存在某些增效等位变异，表明蛋白质含量改良存在很高的重组潜力，并且在育种利用中低蛋白质含量家系的优异变异不应被忽略。

2.4 NAM群体5个亲本的蛋白质含量育种潜力
利用NAM群体的蛋白质含量QTL-allele矩阵来预测5个亲本（临河、正阳、通山、WSB和蒙8206）的蛋白质含量的育种潜力。表4为NAM群体的5个亲本之间潜在的10个杂交组合的蛋白质含量预测结果。根据RTM-GWAS法检测到的5个亲本的蛋白质含量QTL-等位变异效应值，计算潜在杂交组合F2单籽传衍生的10 000个纯系后代蛋白质含量预测值。分别以5%分位数和95%分位数作为预测组合纯合基因型后代的低值和高值。

width=301.55,height=172.55
横轴表示以蛋白质含量（%）升序排列的种质材料，纵轴表示以增效等位变异频率升序排列的QTL。每行表示一个QTL在不同材料中的等位基因分布，而每列表示一份材料在所有QTL上的等位基因构成。等位基因效应以颜色表示，等位变异效应以颜色表示，即具有暖色的格子代表增效等位变异，而具有冷色的格子代表减效等位变异，颜色的深浅代表等位变异效应的大小

The horizontal axis indicates accessions arranged in ascending order of protein content (%), while the vertical axis indicates QTL arranged in ascending order of their positive allele frequency. Every row indicates the allele distribution among accessions at a QTL, while every column indicates the allele constitution of an accession over all QTLs. Allele effects are expressed in color cells where warm colors indicate positive effects, cool colors indicate negative effects, and color gradient indicates effect size

图2 大豆NAM群体RTM-GWAS方法检测到的蛋白质含量QTL等位变异矩阵

Fig. 2 Graphical representation of QTL–allele matrix of protein content detected in the soybean NAM population

表4 大豆NAM群体5个亲本之间潜在杂交组合后代的蛋白质含量预测值

Table 4 The predicted protein content value of progenies derived from the possible crosses among the five parental lines in the soybean NAM population

width=481.6,height=197.25
Y1和Y2分别为2个亲本的表型观测值；P5和P95分别表示第5和第95个百分位数

Y1 and Y2 represent the observed phenotypic values of the two parents; P5 and P95 represent the 5th and 95th percentile

在连锁模型预测下，构成大豆NAM群体的4个RIL群体对应的4个杂交组合，临河×蒙8206、正阳×蒙8206、蒙8206×通山和蒙8206×WSB组合在5%—95%百分位数（预测5%范围）的蛋白质含量预测值分别是37.8%—46.3%、37.1%—43.9%、37.5%—43.9%和36.4%—42.7%，而这4个RIL群体的实际表型观测值范围是38.4%—46.0%、36.7%—44.4%、36.7%—45.4%和37.1%—43.2%，表明如不打破连锁，现实的变异潜力与预测的变异潜力相差不大。

如果在独立模型下发生进一步遗传重组，基因组将会发生更大的潜在分离重组。5个亲本之间的10个潜在杂交组合后代的5%—95%百分位数范围，在连锁模型下预测值为36.4%—50.9%，在独立模型下为33.1%—56.5%，比个别杂交组合变异更加广泛。因此，RTM-GWAS构建的QTL等位基因矩阵，提供了一个亲本材料基因分型与预测亲本之间遗传潜力的方法。

2.5 蛋白质含量相关候选基因体系
根据NAM群体中检测的90个蛋白质含量QTL，推断73个蛋白质含量相关候选基因，共解释39.90%的表型变异。根据候选基因的功能注释，这些候选基因归为6类生物学过程，包括蛋白质代谢、DNA代谢、信号转导、代谢过程、胚发育和未知过程等（图3）。

第Ⅰ组，具有27个氨基酸和蛋白质代谢相关候选基因，解释18.70%表型变异，包括参与甘氨酸与芳香族氨基酸代谢（Glyma20g24830）、半胱氨酸生物合成（Glyma18g03540）、氨基酸生物合成和分解代谢（Glyma06g14220、Glyma20g38570、Glyma01g40420和Glyma15g43289）、蛋白磷酸化（Glyma07g00670、Glyma08g10810、Glyma12g33230等）、依赖泛素的蛋白质分解代谢（Glyma06g07920、Glyma09g29030）、蛋白水解（Glyma06g18400、Glyma18g43390、Glyma18g53880）的基因。

第Ⅱ组，具有17个DNA代谢相关候选基因，解释8.80%表型变异，包括参与依赖DNA的转录调控（Glyma01g43350、Glyma08g29010、Glyma13g39431等）、DNA甲基化（Glyma15g06880）的基因。

第Ⅲ组，具有13个信号转导与运输过程相关候选基因，解释6.80%表型变异，包括参与生长素和油菜素内酯刺激的响应（Glyma02g13910）、信号转导（Glyma02g45362和Glyma16g31724）、氨基酸运输（Glyma16g29411）、高尔基体囊泡介导的运输（Glyma04g42246和Glyma06g23570）、跨膜运输（Glyma03g31600）的基因。

第Ⅳ组，具有5个代谢过程相关候选基因，解释1.70%表型变异，包括参与碳水化合物代谢（Glyma10g35490）的基因。

width=267,height=144.7
Ⅰ—Ⅵ：蛋白质含量候选基因的6类生物学过程

Ⅰ-Ⅵ: the six groups of biological processes for the candidate genes of protein content

图3 蛋白质含量相关的候选基因功能注释

Fig. 3 The function annotation of candidate genes for protein content

第Ⅴ组，具有2个胚发育相关候选基因，解释1.10%表型变异，包括参与减数分裂（Glyma16g31320）、种子休眠之前胚发育（Glyma17g30240）的基因。

第Ⅵ组，具有9个蛋白质含量性状间接相关的未知过程候选基因，解释2.80%表型变异，包括Glyma02g04965、Glyma10g32170、Glyma18g06890等基因。

3 讨论
3.1 大豆蛋白质含量表现数量遗传特点
大豆蛋白质含量属于复杂数量遗传性状，由若干遗传效应大小不一的基因控制，并且受到环境条件的影响。本研究NAM群体蛋白质含量的变异幅度为36.6%—46.0%，表现近似正态连续分布的数量遗传特点。根据前人数量性状单基因与多基因遗传模型，盖钧镒等提出了植物数量性状的泛主基因＋多基因混合遗传模型，数量性状可能由多个基因控制，遗传效应大小不等且容易受环境影响；在一般试验条件下可以检测到、效应较大的基因作为主效基因，而在现有试验条件下不能单独检测到、效应相对非常小的基因作为微效基因或多基因；主效与微效基因之间的区别是相对的，取决于试验误差或精度，在一种环境中某一基因可能作为主效基因，而在另一环境中受误差干扰表现为微效基因。因此，数量性状由主基因与多基因共同控制是数量性状遗传的基本模型，而纯主基因或纯多基因的遗传模型只是其个别特例。Zhang等利用多位点复等位变异关联分析方法RTM- GWAS来解析中国大豆地方品种群体蛋白质含量的QTL-allele体系，检测到89个蛋白质含量QTL，遗传贡献率为0.04%—11.30%，本研究利用相同方法来解析大豆NAM群体的蛋白质含量的遗传构成，检测到90个蛋白质含量QTL，遗传贡献从0.06%—3.99%，该结果很好地验证了盖钧镒等提出的泛主基因＋多基因数量性状混合遗传模型假说，更进一步表明大豆蛋白质含量是一个典型的数量遗传性状。

3.2 本研究检测到蛋白质含量QTL与文献报道QTL比较
大豆蛋白质含量是许多微效基因控制的复杂数量性状，同时也受环境条件的影响。基于双亲分离群体的连锁定位和自然群体的关联分析方法，以前的研究已经报道了许多大豆蛋白质含量QTL。目前在大豆基因组数据库SoyBase中公布了248个基于连锁定位的蛋白质含量QTL，其中一些QTL在不同群体中在相同或非常相近的染色体位置被检测到了3次或更多次，表明这些QTL是非常可信的，然而这些已知的QTL在应用到标记辅助育种工作之前需要进一步验证。因此，本研究根据相关标记的参考基因组的物理区域（Glyma.Wm82.a1.v1.1）对本研究检测到的蛋白质含量QTL与前人报道的QTL进行比较。

本研究检测到了90个蛋白质含量QTL，分布在所有20条染色体上，其中67个QTL位于或接近SoyBase中已经报道的119个QTL区间，33个QTL与以前报道的关联分析文献中的45个QTL相一致，其余20个QTL是本研究中新检测到的。在NAM群体中检测到的90个蛋白质含量QTL中，qProt-6-1具有最大的遗传贡献率3.99%，前人通过连锁定位方法检测到的4个蛋白质含量QTL位于该QTL区域附近，包括Seed protein 30-5，cqSeed protein-005、cqSeed protein-007和cqSeed protein-015；前人通过关联分析方法检测到的2个QTL与该QTL相一致，包括Gm06_5660542与Gm06_6067567。并且，还有6个大贡献QTL同时与前人连锁定位与关联分析研究发现的多个QTL相一致，如qProt-7-2（贡献率2.46%）与Seed protein 33-5和Gm07_7058915 的定位区域相临近；qProt-19-3（贡献率1.85%）与Seed protein 2-2、Seed protein 36-31和Gm19_46335384的定位区域相邻近；qProt-6-4（贡献率1.74%）与Seed protein 34-2和Gm06_12914255的定位区域相邻近；qProt-2-2（贡献率1.71%）与Seed protein 21-4和Gm02_7987834的定位区域相邻近；qProt-18-1（贡献率1.45%）与Seed protein 26-12、Seed protein 28-5、Seed protein 36-25和Gm18_2064407的定位区域相邻近；qProt-14-2（贡献率1.02%）与Seed protein 1-6、Seed protein 4-10、Seed protein 45-1和Gm14_7160557的定位区域相邻近。在本研究新检测的20个QTL中，qProt-20-8（2.42%）和qProt-8-5（1.30%）是大豆蛋白质含量的大贡献QTL。

3.3 NAM群体5个亲本的超亲分离潜力
本研究预测了NAM群体5个亲本（临河、正阳、通山、WSB和蒙8206）之间潜在的10个杂交组合的纯系后代的蛋白质含量，其预测值为33.1%—56.5%，表现出明显的双向超亲分离潜力。Zhang等预测了中国大豆地方品种群体潜在杂交组合的纯系后代的蛋白质含量的育种潜力，其分离范围是39.86%—55.71%。预测优异杂交组合是分子设计育种的前提，但是需要作物育种实践来证明。Zhang等报道了利用QTL-allele设计亲本组配以及后代选择创造大豆高蛋白质含量材料，从2个RIL群体中选择了具有超亲蛋白质含量表型的2个家系XG30（45.53%）和WT133（48.39%），并对3个已定位到的大效应加性QTL进行标记分型，WT133×XG30杂交后代表现出较大的超亲分离，选育出蛋白质含量高达54.15%的品系材料，由此证明了QTL-allele矩阵在数量性状的超亲分离中的应用价值。此外，NAM群体蛋白质含量的QTL-allele中，蛋白质含量等位变异效应值从-2.434%—2.845%不等，但是绝大多数等位变异效应比较集中在-1.000%—1.000%，具有极高或低表型效应的等位变异较为少见，具有极端值的稀有等位变异对于选育高蛋白质大豆材料存在积极意义。

4 结论
共检测到90个蛋白质含量QTL，其中新检测到20个QTL，贡献率总和为45.60%，预测了73个蛋白质含量相关基因。根据NAM群体的蛋白质含量QTL-allele矩阵，预测出潜在杂交组合的纯系后代的蛋白质含量为33.1%—56.5%。

References

Hwang E Y, Song Q, Jia G, Specht J E, Hyten D L, Costa J, Cregan P B. A genome-wide association study of seed protein and oil content in soybean. BMC Genomics, 2014, 15(1): 1-12.

Patil G, Mian R, Vuong T, Pantalone V, Song Q j, Chen P y, Shannon G J, Carter T C, Nguyen H T. Molecular mapping and genomics of soybean seed protein: a review and perspective for the future. Theoretical and Applied Genetics, 2017, 130(10): 1975-1991.

Karikari B, Li S g, Bhat J A, Cao Y c, Kong J j, Yang J y, Gai J y, Zhao T j. Genome-wide detection of major and epistatic effect QTLs for seed protein and oil content in soybean under multiple environments using high-density bin map. International Journal of Molecular Sciences, 2019, 20(4): 979.

Zhang Y, Li W, Lin Y, Zhang L, Wang C, Xu R. Construction of a high-density genetic map and mapping of QTLs for soybean (Glycine max) agronomic and seed quality traits by specific length amplified fragment sequencing. BMC Genomics, 2018, 19(1): 641.

Li D m, Zhao X, Han Y p, Li W b, Xie F t. Genome-wide association mapping for seed protein and oil contents using a large panel of soybean accessions. Genomics, 2019, 111(1): 90-95.

Wang Y Y, Li Y Q, Wu H Y, Hu B, Zheng J J, Zhai H, Lü S X, Liu X L, Chen X, Qiu H M, Yang J, Zong C M, Han D Z, Wen Z X, Wang D C, Xia Z J. Genotyping of soybean cultivars with medium-density array reveals the population structure and QTNs underlying maturity and seed traits. Frontiers in Plant Science, 2018, 9: 610.

王建康, 李慧慧, 张学才, 尹长斌, 黎裕, 马有志, 李新海, 邱丽娟, 万建民. 中国作物分子设计育种. 作物学报, 2011, 37(2): 191-201.

WANG J K, LI H H, ZHANG X C, YIN C B, LI Y, MA Y Z, LI X H, QIU L J, WAN J M. Molecular design breeding in crops in China. Acta Agronomica Sinica, 2011, 37(2): 191-201. (in Chinese)

Li H, Bradbury P, Ersoz E, Buckler E S, Wang J. Joint QTL linkage mapping for multiple-cross mating design sharing one common parent. PLoS One, 2011, 6(3): e17573.

Cardon L R, Palmer L J. Population stratification and spurious allelic association. The Lancet, 2003, 361(9357): 598-604.

Buckler E S, Holland J B, Bradbury P J, Acharya C B, Brown P J, Browne C, Ersoz E, Flint-Garcia S, Garcia A, Glaubitz J C, Goodman M M, Harjes C, Guill K, Kroon D E, Larsson S, Lepak N K, Li H, Mitchell S E, Pressoir G, Peiffer J A, Rosas M O, Rocheford T R, Romay M C, Romero S, Salvo S, Sanchez V H, Da S H S, Sun Q, Tian F, Upadyayula N, Ware D, Yates H, Yu J, Zhang Z, Kresovich S, Mcmullen M D. The genetic architecture of maize flowering time. Science, 2009, 325(5941): 714-718.

Li S, Cao Y, He J, Zhao T, Gai J. Detecting the QTL-allele system conferring flowering date in a nested association mapping population of soybean using a novel procedure. Theoretical and Applied Genetics, 2017, 130(11): 2297-2314.

He J, Meng S, Zhao T, Xing G, Yang S, Li Y, Guan R, Lu J, Wang Y, Xia Q, Yang B, Gai J. An innovative procedure of genome-wide association analysis fits studies on germplasm population and plant breeding. Theoretical and Applied Genetics, 2017, 130(11): 2327-2343.

贺建波, 刘方东, 邢光南, 王吴彬, 赵团结, 管荣展, 盖钧镒. 限制性两阶段多位点全基因组关联分析方法的特点与计算程序. 作物学报, 2018, 44(9): 1274-1289.

HE J B, LIU F D, XING G N, WANG W B, ZHAO T J, GUAN R Z, GAI J Y. Characterization and analytical programs of the restricted two-stage multi- locus genome-wide association analysis. Acta Agronomica Sinica, 2018, 44(9): 1274-1289. (in Chinese)

Mccouch S, Cho Y, Yano M, Paul E, Blinstrub M, Morishima H, Kinoshita T. Report on QTL nomenclature. Rice Genetics Newsletter, 1997, 14: 11-13.

Schmutz J, Cannon S B, Schlueter J, Ma J, Mitros T, Nelson W, Hyten D L, Song Q, Thelen J J, Cheng J, Xu D, Hellsten U, May G D, Yu Y, Sakurai T, Umezawa T, Bhattacharyya M K, Sandhu D, Valliyodan B, Lindquist E, Peto M, Grant D, Shu S, Goodstein D, Barry K, Futrell-Griggs M, Abernathy B, Du J, Tian Z, Zhu L, Gill N, Joshi T, Libault M, Sethuraman A, Zhang X C, Shinozaki K, Nguyen H T, Wing R A, Cregan P, Specht J, Grimwood J, Rokhsar D, Stacey G, Shoemaker R C, Jackson S A. Genome sequence of the palaeopolyploid soybean. Nature, 2010, 463(7278): 178-183.

Bandillo N, Jarquin D, Song Q J, Nelson R, Cregan P, Specht J, Lorenz A. A population structure and genome-wide association analysis on the USDA soybean germplasm collection. The Plant Genome, 2015, 8(3):1-13.

Liu Z X, Li H H, Fan X H, Huang W, Yang J Y, Wen Z X, Li Y H, Guan R X, Guo Y, Chang R Z, Wang D C, Chen P Y, Wang S M, Qiu L J. Phenotypic characterization and genetic dissection of nine agronomic traits in Tokachi nagaha and its derived cultivars in soybean (Glycine max (L.) Merr.). Plant Science, 2017, 256: 72-86.

Wen Z, Boyse J F, Song Q, Cregan P B, Wang D. Genomic consequences of selection and genome-wide association mapping in soybean. BMC Genomics, 2015, 16: 671.

Han Y, Zhao X, Liu D, Li Y, Lightfoot D A, Yang Z, Zhao L, Zhou G, Wang Z, Huang L, Zhang Z, Qiu L, Zheng H, Li W. Domestication footprints anchor genomic regions of agronomic importance in soybeans. The New phytologist, 2016, 209(2): 871-884.

Dias D A, Polo L R T, Lazzari F, Silva G J D, Schuster I. Genome-wide association for mapping QTLs linked to protein and oil contents in soybean. Pesquisa Agropecuária Brasileira, 2017, 52(10): 896-904.

Zhang K, Liu S, Li W, Liu S, Li X, Fang Y, Zhang J, Wang Y, Xu S, Zhang J, Song J, Qi Z, Tian X, Tian Z, Li W X, Ning H. Identification of QTNs controlling seed protein content in soybean using multi-locus genome-wide association studies. Frontiers in Plant Science, 2018, 9: 1690.

Fang C, Ma Y m, Wu S W, Liu Z, Wang Z, Yang R, Hu G H, Zhou Z K, Yu H, Zhang M, Pan Y, Zhou G A, Ren H X, Du W G, Yan H R, Wang Y P, Han D Z, Shen Y T, Liu S L, Liu T F, Zhang J X, Qin H, Yuan J, Yuan X H, Kong F J, Liu B H, Li J Y, Zhang Z W, Wang G D, Zhu B G, Tian Z X. Genome-wide association studies dissect the genetic networks underlying agronomical traits in soybean. Genome Biology, 2017, 18(1): 161.

Zhang Y H, He J b, Meng S, Liu M F, Xing G N, Li Y, Yang S P, Yang J Y, Zhao T J, Gai J Y. Identifying QTL–allele system of seed protein content in Chinese soybean landraces for population differentiation studies and optimal cross predictions. Euphytica, 2018, 214(9): 157.

Li Y H, Reif J C, Hong H L, Li H H, Liu Z X, Ma Y S, Li J, Tian Y, Li Y F, Li W B, Qiu L J. Genome-wide association mapping of QTL underlying seed oil and protein contents of a diverse panel of soybean accessions. Plant Science, 2018, 266: 95-101.

Sonah H, O'donoughue L, Cober E, Rajcan I, Belzile F. Identification of loci governing eight agronomic traits using a GBS-GWAS approach and validation by QTL mapping in soya bean. Plant Biotechnology Journal, 2015, 13(2): 211-221.

Liu Z, Li H, Wen Z, Fan X, Li Y, Guan R, Guo Y, Wang S, Wang D, Qiu L. Comparison of genetic diversity between chinese and american soybean (Glycine max (L.)) accessions revealed by high-density SNPs. Frontiers in Plant Science, 2017, 8: 2014.

Zhang J P, Wang X Z, Lu Y M, Bhusal S J, Song Q J, Cregan P B, Yen Y, Brown M, Jiang G L. Genome-wide scan for seed composition provides insights into soybean quality improvement and the impacts of domestication and breeding. Molecular Plant, 2018, 11(3): 460-472.

Vaughn J N, Nelson R L, Song Q J, Cregan P B, Li Z L. The genetic architecture of seed composition in soybean is refined by genome-wide association scans across multiple populations. Genes Genomes Genetics, 2014, 4(11): 2283-2294.

Zhang D, Kan G Z, Hu Z B, Cheng H, Zhang Y, Wang Q, Wang H, Yang Y M, Li H Y, Hao D R, Yu D Y. Use of single nucleotide polymorphisms and haplotypes to identify genomic regions associated with protein content and water-soluble protein content in soybean. Theoretical and Applied Genetics, 2014, 127(9): 1905-1915.

Lee S, Van K, Sung M, Nelson R, Lamantia J, Mchale L K, Mian M A R. Genome-wide association study of seed protein, oil and amino acid contents in soybean from maturity groups I to IV. Theoretical and Applied Genetics, 2019, 132(6): 1639-1659.

盖钧镒. 植物数量性状遗传体系的分离分析方法研究. 遗传, 2005, 27(1): 130-136.

GAI J Y. Segregation analysis of genetic system of quantitative traits in plants. Hereditas (Beijing), 2005, 27(1): 130-136. (in Chinese)

Tajuddin T, Watanabe S, Yamanaka N, Harada K. Analysis of quantitative trait loci for protein and lipid contents in soybean seeds using recombinant inbred lines. Breeding Science, 2003, 53(2): 133-140.

Pathan S M, Vuong T, Clark K, Lee J D, Shannon J G, Roberts C A, Ellersieck M R, Burton J W, Cregan P B, Hyten D L, Nguyen H T, Sleper D A. Genetic mapping and confirmation of quantitative trait loci for seed protein and oil contents and seed weight in soybean. Crop Science, 2013, 53(3): 765-774.

Eskandari M, Cober E R, Rajcan I. Genetic control of soybean seed oil: II. QTL and genes that increase oil concentration without decreasing protein or with increased seed yield. Theoretical and Applied Genetics, 2013, 126(6): 1677-1687.

Mansur l M, Orf j H, Chase k, Jarvik t, Cregan p B, Lark k G. Genetic mapping of agronomic traits using recombinant inbred lines of soybean. Crop Science, 1996, 36(5): 1327-1336.

Mao T T, Jiang Z F, Han Y P, Teng W L, Zhao X, Li W B. Identification of quantitative trait loci underlying seed protein and oil contents of soybean across multi-genetic backgrounds and environments. Plant Breeding, 2013, 132(6): 630-641.

Lu W G, Wen Z X, Li H C, Yuan D H, Li J Y, Zhang H, Huang Z W, Cui S Y, Du W J. Identification of the quantitative trait loci (QTL) underlying water soluble protein content in soybean. Theoretical and applied genetics, 2013, 126(2): 425-433.

Kabelka E A, Diers B W, Fehr W R, Leroy A R, Baianu I C, You T, Neece D J, Nelson R L. Putative alleles for increased yield from soybean plant introductions. Crop Science, 2004, 44(3): 784-791.

Reinprecht Y, Poysa V W, Yu K, Rajcan I, Ablett G R, Pauls K P. Seed and agronomic QTL in low linolenic acid, lipoxygenase-free soybean (Glycine max (L.) Merrill) germplasm. Genome, 2006, 49(12): 1510-1527.

Liang H Z, Yu Y L, Wang S F, Lian Y, Wang T F, Wei Y L, Gong P T, Liu X Y, Fang X J, Zhang M C. QTL mapping of isoflavone, oil and protein contents in soybean (Glycine max L. Merr.). Agricultural Sciences in China, 2010, 9(8): 1108-1116.

Diers B W, Keim P, Fehr W R, Shoemaker R C. RFLP analysis of soybean seed protein and oil content. Theoretical and Applied Genetics, 1992, 83(5): 608-612.

Lee S H, Bailey M A, Mian M A, Jr Carter T, Shipe E R, Ashley D A, Parrott W A, Hussey R S, Boerma H R. RFLP loci associated with soybean seed protein and oil content across populations and locations. Theoretical and Applied Genetics, 1996, 93(5): 649-657.

Akond M, Liu S m, Boney M, Kantartzi S K, Meksem K, Bellaloui N, Lightfoot D A, Kassem M A. Identification of quantitative trait loci (QTL) underlying protein, oil, and five major fatty acids’ contents in soybean. American Journal of Plant Sciences, 2014, 5(1): 158-167.

Zhang Y H, Liu M F, He J B, Wang Y F, Xing G N, Li Y, Yang S P, Zhao T J, Gai J Y. Marker-assisted breeding for transgressive seed protein content in soybean . Theoretical and Applied Genetics, 2015, 128(6): 1061-1072.

Genetic dissection of protein content in a nested association mapping population of soybean
LI ShuGuang1,2, CAO YongCe1, HE JianBo1, WANG WuBin1, XING GuangNan1, YANG JiaYin2, ZHAO TuanJie1, GAI JunYi1

(1Soybean Research Institute, Nanjing Agricultural University/National Center for Soybean Improvement/Key Laboratory of Biology and Genetic Improvement of Soybean (General), Ministry of Agriculture/State Key Laboratory for Crop Genetics and Germplasm Enhancement/Jiangsu Collaborative Innovation Center for Modern Crop Production, Nanjing 210095; 2 Huaiyin Institute of Agricultural Sciences of Xuhuai Region in Jiangsu, Huai’an 223001, Jiangsu)

Abstract:【Objective】Soybean is an important cash crop, a major source of plant protein and oil for human diet. As a major objective of soybean breeding, protein content is a complex trait controlled by multiple genes with varying genetic effects interacting with environment. A genome-wide association study (GWAS) was conducted to dissect the genetic architecture of protein content in a soybean nested association mapping (NAM) population, and the detected genetic constitution can be further used for molecular design in soybean breeding for high protein content. 【Method】Four soybean recombinant inbred line (RIL) populations (Linhe×M8206, Zhengyang×M8206, M8206×Tongshan and M8206×WSB) with a common parent (M8206) as a NAM population were constructed, genotyped with RAD-seq (restriction-site-associated DNA sequencing) and tested under multiple locations in 2012 - 2014. Protein content was measured at full maturity (R8) stage. The restricted two-stage multi-locus GWAS (RTM-GWAS) procedure was used to dissect the genetic architecture of seed protein content of the population. 【Result】The protein content varied widely in the population with trait heritability estimated as high as 85.00%. The analysis of variance for protein content showed significant differences across genotypes, environments and genotype-by-environment interactions. A total of 90 QTLs were detected to be associated with protein content, with 20 loci being novel ones. The phenotypic variation explained by each QTL ranged from 0.06% to 3.99%, with a sum of 45.60%. The number of alleles at each locus ranged from 2 to 5, and the allele effects ranged from -2.434% to 2.845%, while most of them were between -1.000% and 1.000%. From the detected QTLs, 73 candidate genes were annotated. Among these candidate genes, Glyma18g03540 involved in cysteine biosynthetic process, and Glyma20g24830 involved in glycine and aromatic amino acid family metabolic process. The two genes may be selected for further functional study. Based on the QTL-allele matrix of protein content, the predicted transgressive potential of cross progeny was as high as 56.5%. 【Conclusion】A total of 90 QTLs for protein content were detected with 20 loci being novel, from which 73 candidate genes were annotated, indicating that protein content is a complex trait conferred by multiple genes or a gene network.

Key words:soybean ; nested association mapping population (NAM); protein content; restricted two-stage multi-locus genome-wide association analysis

开放科学（资源服务）标识码（OSID）：width=42.5,height=42.5

doi: 10.3864/j.issn.0578-1752.2020.09.005

收稿日期：2019-08-26；

接受日期：2019-11-30

基金项目：国家自然科学基金（31701447，31571695）、国家作物育种重点研发计划（2017YFD0101500，2017YFD0102002）、长江学者和创新团队发展计划（PCSIRT_17R55）、教育部111项目（B08025）、中央高校基本科研业务费项目（KYT201801）、农业部国家大豆产业技术体系CARS-04、江苏省优势学科建设工程专项、江苏省JCIC-MCP项目、淮安市科技计划（HAB201846）、淮安市农业科学研究院院长科研基金（HNY201703）、作物遗传与种质创新国家重点实验室开放课题基金（ZW201713）、江苏省自然科学基金（BK20151285）

联系方式：李曙光，E-mail：dawn0524@126.com。通信作者贺建波，E-mail：hjbxyz@gmail.com。通信作者盖钧镒，E-mail：sri@njau.edu.cn

（责任编辑李莉）

页: [1]

奥鹏易百's Archiver

大豆巢式关联作图群体蛋白质含量的遗传解析