产品中心
PRODUCT

电 话:0898-08980898
手 机:13877778888
联系人:xxx
E_mail:admin@Your website.com
地 址:广东省清远市
Nat Commun2篇丨罗锐邦团队报道Clair系列基因组变异检测工具——新增两款专用工具
在长读长测序 (Long-read Sequencing) 领域,精准的变异检测一直是科研与临床应用的关键瓶颈。近日,香港大学上接连发表两项成果:针对无配对肿瘤样本体细胞测序数据的变异检测工具ClairS-TO:
作为长读长测序变异检测领域的标杆工具,以Clair3为代表的Clair系列已被广泛应用,并获得牛津纳米孔技术公司 (Oxford Nanopore Technologies, ONT) 官方推荐。凭借出色的稳定性和易用性,Clair系列Docker镜像下载量已突破10万次,成为全球生物信息学家处理长读长数据的常用工具之一。此次ClairS-TO和Clair3-RNA的发布,使Clair系列在基因组学分析场景中实现了更全面的覆盖。
在临床和真实世界研究中,往往难以获取与患者肿瘤样本相匹配的正常组织 (Matched Normal) 作为对照。ClairS-TO使得研究人员仅凭肿瘤样本 (Tumor-Only),即可利用长读长数据精准区分体细胞变异与胚系变异,降低了研究对样本的要求。
RNA测序不仅能定量基因表达,更是发现转录后修饰和等位基因特异性表达的重要手段。Clair3-RNA填补了长读长RNA测序缺乏专用变异检测工具的空白,有效克服了RNA数据固有的高错误率和覆盖度不均等技术挑战。
长读长测序凭借其跨越复杂基因组区域(如高重复区、结构变异区)的能力,正在成为癌症研究的重要技术手段。然而,现有的Tumor-Only变异检测工具大多针对短读长测序设计,难以适应长读长测序较高的错误率和独特的错误模式。
噪音干扰:如何在低VAF(变异等位基因频率)条件下,将真实的体细胞突变与测序背景噪音准确区分
胚系混淆:胚系变异的数量通常比体细胞变异高出两个数量级,如何精准过滤这些背景信号
ClairS-TO是首个专为长读长数据设计的深度学习Tumor-Only体细胞变异检测工具。该工具引入了以下技术创新:
ClairS-TO采用了两个在同一数据集上训练但任务方向相反的神经网络:
针对真实体细胞变异样本稀缺的问题,ClairS-TO利用合成肿瘤样本(Synthetic Tumor Samples)进行预训练。同时,其内置的Verdict统计模块能够利用估算的肿瘤纯度、倍性和拷贝数图谱信息,即使在低纯度样本中也能精准过滤胚系变异。
研究团队在COLO829(黑色素瘤)和HCC1395(乳腺癌)细胞系上进行了广泛的基准测试,涵盖了不同的覆盖度、肿瘤纯度和VAF范围,在各项指标上均达到了当前最优水平。
针对RNA测序中因转录本丰度差异导致的覆盖度极不均匀问题,Clair3-RNA采用了覆盖度归一化技术。模型基于Bi-LSTM架构,并针对RNA数据特性进行了多任务输出优化(同时预测基因型与杂合性)。
Clair3-RNA在RNA变异检测神经网络中首次引入定相信息。实验结果显示,整合定相信息后,PacBio和ONT平台的SNP F1-score分别达到约98%和97%。
RNA数据中常见的A-to-I编辑极易被误判为基因变异。Clair3-RNA通过整合REDIportal数据库并采用特定的训练策略,能够有效识别并标记RNA编辑位点,显著降低假阳性率。
随着工具的不断完善,Clair系列已形成完整的产品矩阵:针对生殖细胞变异的Clair3、体细胞变异的ClairS及ClairS-TO、长读长RNA测序的Clair3-RNA,以及家系变异检测的Clair3-Trio。这些工具正在扩展长读长测序在基因组分析中的应用范围和检测精度。
电 话:0898-08980898 手 机:13877778888 传 真:0000-0000-00 E-mail:admin@Your website.com
地 址:广东省清远市
扫码关注我们