课题名称:生物信息学基因多序列比对算法若干性能优化方法研究
课题编号:2023HSDS34
课题负责人:杨波
课题组成员:王志坚,徐胜超一、该项目的研究目的和意义
研究的目的:
大规模的基因组数据得以快速获取。这些数据包含了来自不同个体、物种或种群的大量基因序列。对这些基因序列进行比对和分析,可以揭示基因组的演化、功能注释以及相关的遗传变异等重要信息。然而,目前序列分析方法已不能适应海量数据的处理要求。因此,针对多序列比对算法的并行化研究成为了生物信息学领域的新课题,目的是加快计算速度,提供系统的吞吐量。
研究的意义:
在生物信息学中,多序列比对是生物基因分析中的一项基本任务,它对于理解基因的演化历程、发现基因之间的相似性和差异性以及进行基因组的组装等方面都具有重要的价值。序列比对算法发展的历史已经有了40多年了。无论是双序列比对算法还是多序列比对算法都得到了很多的研究,而随着计算机科学的快速发展,更极大地拓宽了比对算法可应用的范围。通过生物基因序列对比可以确 定两个物种之间的关系的远近,以及确定物种间的进化关系,在药物靶标的发现、生物新医药科学领域具有广泛的应用,该选题具有重要科学意义。
二、项目研究的主要成果
序号 |
成果名单 |
成果形式 |
作者 |
刊物、出版时间 |
1 |
基于Spark云计算的生物基因多序列比对方法 |
CSTPCD期刊论文 |
杨波、陈洋广 徐胜超. |
计算机测量与控制.2024年7月 |
2 |
云网融合中分布式网络入侵路径跟踪检测方法 |
CSTPCD期刊论文 |
杨波,蒋金陵 徐胜超,王宏 杰,毛明扬,蒋 大锐. |
计算机测量与控制,2024年8月 |
3 |
一种面向生物基因多序列比对算法的任务调度方法 |
CSTPCD期刊论文 |
杨波,王宏杰, 徐胜超,毛明 扬,蒋金陵,蒋 大锐. |
计算机与现代化,2024年7月 |
4 |
一种基于Yarn云平台的基因启发式多序列比对算法 |
CSTPCD期刊论文 |
杨波,徐胜超, 周继鹏,王志 坚. |
电子技术应用,2024年11月 |
三、研究成果的主要内容
论文“基于Spark云计算的生物基因多序列比对方法”基于获得的生物遗传序列数据,对其进行了优化,并通过计算不同序列间的匹配度,对生物基因多序列比对任务进行动态规划。利用Spark云计算技术,构建Spark集群,并对多个Spark集群的参数进行计算。利用多种生物基因序列之间的相似性与差异性来选择最佳的匹配路径,在此基础上,建立多个生物基因序列比对的并行计算模型,并对其进行求解,得到对应的多个序列对比对的并行算法。
论文”一种基于Yarn云平台的基因启发式多序列比对算法”提出一种基于Yam云平台的基因启发式多序列比对算法。建立核酸替换等价矩阵作为基因启发式数学模型,构建Yarn云平台逻辑架构,通过对基因数据预处理、基因数据存储、基因序列比对、基因数据管理、基因数据分析等步骤,对数据分类保存,划分错误率较高的长序列,得到多个较短的基因片段。对不同片段实施定位,将其中的变长种子生成,进行骨架构建和孔隙填补,可以实现基因启发式多序列比对。结果表明,设计的算法在不同数据集下处理时间缩短,多序列比对SP(SumofPairs)的分值较高,本次实验验证了该多序列比对方法具有很好的应用价值。
论文“一种面向生物基因多序列比对算法的任务调度方法”提出一种面向生物基因多序列比对算法的任务调度方法,以提高生物基因多序列比对的效率。通过Trie树方法对生物基因多序列数据展开分割处理,从而提高后续基因多序列比对过程中数据查找和匹配的效率;构建基因多序列BWT索引,利用BWT索引方法完成生物基因多序列比对;以多序列比对方法为基础,采用CPU与GPU
异构并行系统完成多序列比对的任务调度。实验结果表明,所提的面向生物基因多序列比对算法的任务调度方法效率更高、性能更好、且更适合于实际应用。
四、创新之处
论文基于Spark云计算的生物基因多序列比对方法,实验结果表明:该方法具有更好的并行性,能够有效提高多序列比对的性能。论文”一种基于Yam云平台的基因启发式多序列比对算法”实验验证了该多序列比对方法具有很好的应用价值。论文“一种面向生物基因多序列比对算法的任务调度方法”实验结果表明,所提的面向生物基因多序列比对算法的任务调度方法效率更高、性能更好、且更适合于实际应用。
五、成果的学术价值、应用价值
通过生物基因序列对比可以确定两个物种之间的关系的远近,以及确定物种间的进化关系,在药物靶标的发现、生物新医药科学领域具有广泛的应用。对上述3个技术点的研究可以很好的优化生物基因多序列比对算法的性能,减少算法比对的时间,减低医疗机构的成本,生物基因多序列比对的结果在生物新医药科学、药物靶标的发现等领域具有很好的现实意义与应用价值。