关键词:
甘蓝型油菜
机器学习
农艺性状
全基因组关联分析
全基因组预测
摘要:
全基因组预测是以覆盖全基因组的各种标记为遗传基因型基础,根据大数据的基因型和表型特定模型的优化和验证,以基因型预测各种表型的育种选择方式。基于全基因组遗传信息的选育可以降低环境效应的影响,在植物生长早期可对生长、生殖和成熟阶段多个性状进行表型育种值预测。利用模型预测的方法可以快速获得目标基因型的期望组合,在育种后代中通过基因型分析就可以确定聚合优良性状的育种系,缩短育种周期。
本研究首先基于404份油菜种质资源的基因型数据和表型数据,开展了全基因组关联分析。404份种质资源来源于两个自然群体的整合,群体1由124份品系组成,主要包括中国油菜的育成品系103份,占比83%,具有我国半冬性油菜种质资源的典型特色;群体2由280份品系组成,来自欧洲、亚洲、澳洲和北美洲,来源覆盖世界主要油菜种植区域,具有全球油菜资源广泛代表性。对404份品系5个性状(抗裂角指数、含油量、油酸含量、蛋白质含量和千粒重)的多环境表型数据进行分析,统计发现所有性状基因型效应(G)都极显著(p<0.0001),广义遗传力(H2)为从0.45~0.90。通过最佳线性无偏方法分别计算了它们的育种值(GEBV),获得了稳定的表型值。404份品系的高通量二代测序数据,经过滤后获得23459926个覆盖油菜全基因组的SNP和InDel。基于混合线性模型对这五个性状进行了全基因组关联分析,鉴定出31个QTL关联区域。这些位点中除了两个前人已经鉴定出来的的位点外,还鉴定出29个新位点。
基于404份油菜品系的基因型和表型数据,构建并优化了抗裂角指数、含油量、油酸含量、蛋白质含量和千粒重5个性状的全基因组预测模型。首先利用PCA降维、CDS位点随机挑选、GWAS关联位点挑选三种方法对基因型数据进行降维,然后选择并整合了LightGBM、RF、XGBoost、GBDT、KRR以及SVR这6种代表性机器学习模型进行模型预测。将404份油菜品系合并进行模型数据测算,经过模型参数优化后,根据预测准确度确定每个性状最优的预测模型。在三种输入特征方法中,使用GWAS关联位点进行降维所构建的预测模型的效果整体远优于PCA降维和CDS位点随机挑选这两种特征数据。基于GWAS降维的输入特征方法,6个模型对5个性状的预测准确度为0.36~0.83。综合5个性状特征和模型分析结果发现,对于由主效基因和少数基因控制的性状,例如抗裂角指数和油酸含量,用KRR模型预测效果最优,预测准确度都超过0.80;由多基因控制且每个基因效用较小的性状,例如含油量、蛋白质含量和千粒重等,用GBDT模型预测最为合适,预测准确度一般接近或超过0.80。研究结果对深入开展油菜多性状的全基因组育种有理论探索和实践方法的指导意义。