华大基因利用AI优化数据处理，提升模型泛化能力

2025-02-20 13:13:03

来源

财迅通

财迅通讯，2月20日华大基因发布公告，公司于2月19日接受中信证券等机构调研，IT部副总监梁伦纲,证券部刘昊,黄淑弘等回答了调研机构提出的问题。

华大基因表示，华大基因在投资者交流活动中介绍了其利用AI处理大量基因数据的方法，包括优化生信分析提高准确率和效率，以及利用大模型技术如检索增强生成（RAG）等提升数据处理能力。公司指出，大规模数据将用于测试和扩展模型，提高生信分析和解读能力，满足高通量测序需求。其大数据模型因数据来源多样性和泛化能力强，能适用于不同医院。在健康管理中，公司将合规收集多维度健康数据，结合智能算法进行个体化健康管理。建立大模型的最大难点在于验证其有效性，特别是在罕见病场景下。与医院结合，大模型将催生多元化产品形态和创新商业模式。嵌入大模型的一体机设备将降低使用难度，提高工作效率和用户体验。为解决模型泛化能力问题，公司正积累多样型数据，并与医院广泛合作以提高数据多样性。最后，公司提醒投资者注意AI技术应用的不确定性和股价波动风险。

截至发稿，华大基因总市值为275.69亿元，市盈率TTM为-271.73，每股净资产为23.63元。

投资者活动主要内容详情如下：

深圳华大基因股份有限公司(简称公司或华大基因)本次投资者交流活动采用线下会议的形式,主要交流内容如下:

1、华大基因如何利用AI来处理大量积累的数据?

答:从数据处理维度来看,以临床全基因组数据为例,每位受检者数据量接近120G,随着全基因组检测整体成本的快速下降和技术进步,公司数据积累速度将大幅提升。利用新的AI算法对传统生信分析整体进行优化,将显著提升数据分析的准确率和效率,并快速降低整体处理成本。

从数据应用层面来看,数据的来源多样性保障了模型具备更强的泛化能力和对罕见病等复杂情况的处理能力。随着大模型相关技术的兴起,出现了检索增强生成(RAG)等技术,能够帮助自动分析案例并找出关键信息,通过将信息向量化,在空间中理解和关联不同概念之间的关系,结合大语言模型GeneT也能够解决很多用户痛点,推动医学领域的数据量生产和融合,减少误差,提高预测准确性。

2、大规模的数据未来将对公司的产品和应用带来哪些影响?

答:未来广阔的医疗检测市场产生的大量数据将成为公司测试和扩展模型的重要来源。基于公司现有的体系,数据处理不仅需要关联上游设备,还需要针对不同应用场景进行优化。随着高通量测序仪在临床的广泛应用,公司的设备一天可以完成数十个样本的测序,这就要求公司的生信分析能力和解读能力必须满足相应的通量需求。过去,培训一个专家需要耗时半年且难以规模化,而现在的大模型可以处理大量数据并保持高效记忆,这大大提升了不同场景下的泛化能力及解读专家的能力。

3、公司的大数据模型是否各家医院都能通用?

答:公司大数据模型的优势在于数据来源的多样性和模型的泛化能力。公司多年来积累了丰富的标志性数据,而每家医院的数据特征往往相对局限于其所在地区。通过整合不同地区、不同人群的多样化数据,公司的模型具备更强的泛化能力,以及更好地应对罕见病等复杂疾病分析应用场景的处理能力。

4、在健康管理中,如何利用人工智能技术进行个体化健康管理?

答:公司未来将继续通过合规收集用户的多维度健康数据,包括医学影像数据(CT、核磁共振等)、可穿戴设备监测数据等,并结合智能算法(例如大语言模型)进行处理。实现更精准的健康状态评估和疾病风险预测这样可以更精准地对用户进行健康状况评估,提供个性化健康干预建议,而不仅只是依赖传统的大规模统计结论。同时,随着大数据的持续积累和算法的不断优化,人工智能有助于未来实现对个体健康管理需求的精准匹配和疾病风险预测。

5、在建立和验证大模型的过程中,最大的难点是什么?

答:最大的难点在于如何证明模型的有效性。以基因检测为例,需要有足够数量的真实病例作为验证样本,这在罕见病场景下是一项艰巨的任务。此外,还需处理真实世界中复杂多样的排列组合情况,让模型能够发现多种临床表现症状与疾病之间的关联关系,从而避免产生错误推断。大数据的优势在于揭示潜在的生物医学方面的关联性,而大模型则通过学习大量数据来模拟现实世界的多样性。

6、大模型与医院结合后的产品形态和盈利模式是怎样的?

答:大模型与医院结合将催生多元化的产品形态和创新商业模式。产品形态方面,可能通过APP等形式,将人工智能技术与医院服务相结合,为用户提供个性化的健康检测评估、疾病预警和诊疗建议。盈利模式方面,既可能是向客户输出大模型技术,也可能是通过提供服务的方式实现盈利,具体取决于产品定位和服务内容。

7、未来能否展望一下大模型嵌入到现有一体机设备中后,终端医院的需求有何变化?

答:通过嵌入大模型,设备变得更易用,终端医院更愿意布局和使用。医生在接受一定时间的培训后,能够借助模型的使用,稳定、高效、系统地处理样本,降低深度测试的学习曲线,提高工作效率。同时,该系统能提供稳定且被多数专家认同的结果,显著提升了用户体验。

8、模型泛化能力问题如何解决?如何实现数据多样性以增强模型的泛化能力?

答:模型泛化能力需要通过设计包含所有可能场景的数据集来提高,不同医院间由于数据产出平台、对象来源差异导致模型表现不同,公司通过多年来开发各种应用场景下的产品,逐渐积累多样型的数据,同时拥有专业人才对数据进行解读和应用,提升模型对多样化数据的适应能力。实现数据多样性主要依赖于与医院的广泛合作,以获取不同类型的检测数据。在国内,由于存在数据孤岛问题,公司正在努力打破壁垒,通过开展战略合作和联合实验室共建,实现与更多医院的深度合作,从而提高数据的多样性和模型的适用性。

二、风险提示

本次投资者交流主要就现阶段技术创新及未来可能的应用场景进行探讨,AI技术的应用对公司未来经营业绩的影响,取决于产品研发及行业场景应用的落地进度,具有不确定性。请广大投资者理性看待前沿技术快速发展,注意二级市场股价波动风险。

调研参与机构详情如下：中信证券（证券公司）、朱雀基金（基金管理公司）、东方红资产管理公司（其它）、国联证券（证券公司）、华宝基金（基金管理公司）、华夏久盈（其它）、华商基金（基金管理公司）、建信养老（其它金融公司）、长城基金（基金管理公司）、淳厚基金（基金管理公司）

据统计，近三个月内共有3批机构对华大基因调研，合计调研的机构家数为20家。

关键词

华大基因

机构调研

关联公司

深圳华大基因股份有限公司

华大基因利用AI优化数据处理，提升模型泛化能力

相关内容