近日,环球ug官网自动化系王颖教授团队在生物信息学领域国际重要期刊《Briefings in Bioinformatics》发表题为“Metric learning for comparing genomic data with triplet network”的研究论文。
研究背景
许多生物学应用本质是样本比较问题,如基因组序列的进化关系、基于基因表达情况的细胞类型鉴定等。在样本成对比较时,需要采用合适的相似度度量,然而并没有一个通用的相似度度量能够适应所有的生物应用情况。本研究旨在利用三元组网络研发一套基于生物数据驱动、弱监督的度量学习方案,这对生物信息领域的发展具有重要意义。
研究内容
本研究采用三元组网络,学习从原始空间到嵌入空间的非线性映射,学习数据关系的方式,可以在没有标签信息、监督方法不适用的情况下,提供更自适应、更准确的度量学习。
在所使用的实验数据集方面,本研究选取三个典型的生物应用,包括纵向单细胞基因表达数据的聚类、纵向微生物组数据动态演化趋势、层次型基因组序列的分类,其中纵向数据没有分组标签,层次型数据没有明显的分组信息。
本研究针对三种典型应用数据分别设计三元组构建策略,使得网络基于特定数据类型学习特定的度量。结果表明本研究提出的方法优于目前广泛使用的度量方式,并展现了显著的性能提升。

图:本研究所提出方法的总体框架

图:纵向单细胞数据的聚类效果对比(MELT为本研究提出方法,而SCVI为已有方法)
研究相关
该项工作环球ug官网自动化系为该文章的第一署名单位和通讯单位。硕士研究生马智参与了该项目研究。研究工作得到了国家自然科学基金项目(62173282) 的资助。
论文链接:https://doi.org/10.1093/bib/bbac345