成为注册用户,每天转文章赚钱!
您需要 登录 才可以下载或查看,没有账号?立即注册
x
证券代码:688787 证券简称:海天瑞声
北京海天瑞声科技股份有限公司
投资者关系活动记录表
编号:2023-020
投资者关系活动类别 √特定对象调研 □分析师会议 □媒体采访 □业绩说明会 □新闻发布会 □路演活动 □现场参观 □电话会议 □其他 (请文字说明其他活动内容)
参与单位名称及人员姓名 中信证券 马庆刘、韩林轩、侯苏洋、王子昂、任恒毅 广发基金 吴远怡、宋星未
会议时间 2023年11月16日 2023年11月17日
会议地点 海天瑞声会议室、腾讯会议
上市公司接待人员姓名 证券事务代表:张哲 投资者关系负责人:袁璐
投资者关系活动主要内容介绍 1、大模型范式下的预训练阶段数据需求和传统的数据需求有什么区别? 大模型预训练阶段的数据需求和深度学习技术路线下的传统训练数据需求,两者在形态上基本一致,都是文本、语音和图像,但在数据规模、质量、来源等方面,预训练数据较传统训练数据会存在一定差异。例如,规模上,预训练数据的token量普遍在万亿量级,而传统模型数量则大约在10亿量级。从数据来源的角度看,由于大模型所需数据规模远超传统模型,因此其数据来源将更加丰富以满足规模化、多元化数据需求。具体来说,大模型数据来源除了来自传统的定向采集外,还将涉及版权数据、公共数据等新型海量高质量数据来源。 此外,数据处理的核心技术也存在一定差异。例如,由于大模型预训练阶段的原料数据规模更大,因此大模型预训练数据更加注重数据清洗的工程化能力,在预训练阶段需要结合原料数据特点以及所涉及的主题、领域等,对海量数据完成高质量清洗,这对数据服务商的工程化数据处理能力以及过往服务经验的积累都提出了更高要求。 2、强化学习标注和传统的文本类标注,在模式上有什么区别? 强化学习标注和传统的文本类标注两者在单一标注形式上基本趋同,都包括文本评分、文本改写、文本分类等。但相比于传统文本标注,强化学习标注的颗粒度更细、标注的维度更加广泛、涉及的学科更加丰富、规模更大。 3、目前已经有很多大模型陆续发布,未来数据需求是会持续增长还是下降?原因是什么? 随着更多大模型产品面向公众推出上线、以及不断进行版本迭代,未来的大模型相关数据需求会持续、显著增长,这符合当AI进行应用侧后,对数据的需求才会规模性增长的规律。预期该类增长将主要体现在预训练阶段对高质量、大规模的版权数据、公共数据、多模态数据、垂直领域的实际场景数据等方面的需求,以及不断提升其交互精准度的强化学习阶段各类数据需求等。例如,若某大模型应用领域为文学创作,就会需要来自版权方的散文、小说、诗词等数据进行创作能力训练;若某大模型拟提升其在民生政务领域的客服能力,则来自民生政务服务平台的此类对话数据将产生重要价值。未来,随着大模型向更高级、更多维、更广泛垂向拓展,大模型数据需求将呈现快速增长趋势。 4、公司是否考虑接入大模型来提升自身的数据生产效率? 智能化标注能力是数据服务企业的核心竞争力之一,公司一直致力于不断提升数据标注的智能化水平,目前公司已通过自行研发以及API接入两种方式,探索将大模型接入公司一体化数据处理平台,以提高数据处理过程中的人机协作效率,辅助公司的数据生产。自研大模型方面,公司已在针对大模型预训练数据集设计与处理技术进行初步研究和规划,并基于研究成果开展了CommonCrawl、中文书籍等适用于预训练阶段的数据的获取与清洗工作,形成了各项技术的框架方向。另一方面,公司已将部分开源或提供API接口的大模型接入公司一体化数据处理平台。例如,公司已在智能驾驶平台DOTS-AD中接入开源的语义分割模型SAM(Segment Anything Model),并基于数据预标注实际需求,对模型进行了优化升级,有效提升了2D语义分割项目中的降本增效能力。 5、决定智能驾驶数据业务市场需求空间的因素有哪些?未来智能驾驶的数据需求如何? 智能驾驶数据业务的市场需求主要与三个要素相关:1)车厂的车型及传感器丰富度。通常来说,不同车型、不同传感器会有不同的硬件配置方案,继而需要不同的数据解决方案,因此车型/传感器等硬件配置的多样性程度将会直接影响所需数据解决方案的数量;2)量产车数量。量产车的数量决定了整个的训练数据需求基数的大小;3)智能驾驶级别的逐渐提升。智能驾驶级别和渗透率的提升决定了数据处理场景的种类和体量。 这三个要素对训练数据需求的影响是相互叠加的。公司预测,随着智能驾驶相关政策的推出以及单车成本的不断下降,智能驾驶的商业化进程将加速,在上述三个因素的共同作用下,数据处理需求将呈现指数级增长趋势。 6、智能驾驶行业的核心竞争力是什么? 智能驾驶数据领域的核心竞争力主要体现在三个方面,分别是平台能力、算法能力以及数据安全能力。 平台能力是数据标注能力的基石。平台功能点覆盖的丰富度是评价平台水平的核心要素,目前同时具备2D标注、3D点云标注、2D-3D联合标注以及3D语义分割标注的供应商比较有限,能以最快速度覆盖更多功能需求的数据服务商将能更好掌握智能驾驶数据市场的主动权以及议价能力。 第二个核心要素是算法能力。平台的智能化程度越高,对人的依赖程度越低,在提高平台的生产效率的同时可以大幅降低生产成本。 第三个要素是数据安全能力。智能驾驶数据不同于传统的语音类数据,由于其采集图像涉及大量的地理及个人隐私信息,为更好防范数据安全风险,国家相关法律法规要求数据流转链条上各类企业必须做好充分的数据安全保障。因此,未来不具备相关数据安全能力的供应商将逐渐被市场淘汰。 7、海天在智能驾驶数据业务方面的竞争优势是什么? 首先是平台能力。智能驾驶正处于快速发展期,伴随智能驾驶技术的快速演进,市场正不断涌现出新兴的数据需求,能覆盖更多场景、支持各类型传感器及多传感器融合、具有前瞻性标注工具的智能驾驶数据业务平台将能获得更多的市场机会。公司年底即将上线的第四代智能驾驶标注平台,将可支持智能驾驶全应用场景、各类型传感器及多传感器融合的数据处理;此外,公司基于对智能驾驶感知算法趋势研判,进行了标注工具升级,平台将可支持行业各类前沿标注需求,包括连续帧融合标注中3D点云polyline、freespace的标注、BEV(鸟瞰图)标注、4D点云叠加标注等热点功能,具有竞争力的平台将成为公司业务拓充的核心动力。 第二个是算法能力。算法将一定程度降低标注过程对人工的依赖,在提高平台生产效率的同时降低生产成本,在市场竞争中取得价格优势。公司的第四代智能驾驶标注平台将继续发力算法建设,通过提升2D视觉及3D点云连续帧标注中的插值、预测、自动贴合、地面检测等算法效果,提高数据标注效率,降低标注成本。 除了上述技术能力外,数据安全能力也将成为智能驾驶数据服务竞争力的重要构成因素之一。智能驾驶数据不同于传统的语音类数据,由于其采集图像涉及大量的道路数据、地理信息等,为更好防范数据安全风险,自然资源部《关于促进智能网联汽车发展维护测绘地理信息安全的通知》以及国家相关法律法规已陆续落地,监管已开始明确要求数据流转链条上各类企业必须做好充分的数据安全保障。 目前,市场上同时具备平台、算法、数据安全能力的数据服务商非常有限,公司将紧抓行业发展机遇,快速铺开市场,抢占行业发展先机。 8、海天瑞声以什么身份和大数据交易所进行合作? 目前海天瑞声在大数据交易所的主要角色是数商,即数据交易标的的供应方,通过在交易所挂牌自有知识产权的数据产品完成数据交易。 9、目前公司是否有数据集挂到数据交易所进行交易?目前数据交易所方面具体有什么进展? 目前海天瑞声已与北数所、上数所、深数所等3家交易所建立联系,并在北数所、上数所完成数据产品的挂牌上市,并成为北数所战略合作伙伴。未来,公司将继续拓展、加强与各地数交所的合作,积极加入数据要素生态圈,助力国家数字经济和数据要素市场快速发展。
附件清单(如有)
日期 2023年11月20日 |
|
5e天资,互联天下资讯!
|
|
|
|