PolyPaper | 普译生物发表纳米孔测序信号解码工具包BaseNet相关论文
纳米孔测序的核心原理是通过检测单个DNA或RNA分子穿过纳米孔时引起的电流变化来读取序列信息。然而,原始电信号是连续且复杂的,需要通过高效的解码算法将其转化为准确的碱基序列。解码算法通过对电流信号进行分析和处理,识别出每个碱基对应的特征信号模式,从而实现从电信号到碱基序列的转换。解码算法的质量直接影响测序结果的准确性。高质量的解码算法能够更精确地解析复杂的电流信号,减少误读率,提高碱基识别的准确性。
图1. BaseNet工作原理
2024年9月25日,普译生物与中国科学院生物物理研究所合作在《Computational and Structural Biotechnology Journal》杂志在线发表了题为“BaseNet: A Transformer-Based Toolkit for Nanopore Sequencing Signal Decoding”的研究论文。该研究提出了一款基于多种最新Transformer算法的纳米孔测序信号解码工具包BaseNet(图1),包括:
5. 具有线性计算复杂度的Fast-attention。
图2. 交叉注意力分数可视化
并在模型的可解释性上进行了探索,如交叉注意力分数可以映射信号与序列间的对齐关系(图2),语音波形和电流信号在模型的内部表征中存在共同的“通用特征”(图3)。
图3. 不同大模型性能对比
研究团队在相同基准数据集上进行了严格的性能评估,BaseNet所包含的Fine-tuned model优于最新Bonito CRF模型,Joint-CTC model 和Fast-CRF model 性能优于SACall(图4a)。此外,在长读长情况下,BaseNet所开发模型表现出更优异性能(图4b)。上述测试结果表明与现有其他解码算法相比,BaseNet表现出更好的解码性能。
图4. BaseNet与现有Basecaller性能比较
普译生物总经理王大千博士和首席科学家娄继忠研究员为论文的共同通讯作者,普译生物与生物物理所联合博士研究生李清文为论文第一作者,普译生物孙琛参与了该项研究工作。