[中报]海天瑞声(688787):海天瑞声2024年半年度报告
原标题:海天瑞声:海天瑞声2024年半年度报告 公司代码:688787 公司简称:海天瑞声 北京海天瑞声科技股份有限公司 2024年半年度报告 重要提示 一、 本公司董事会、监事会及董事、监事、高级管理人员保证半年度报告内容的真实性、准确性、完整性,不存在虚假记载、误导性陈述或重大遗漏,并承担个别和连带的法律责任。 二、 重大风险提示 公司已在本报告中详细描述可能存在的风险,敬请查阅第三节“管理层讨论与分析”之五“风险 因素”部分,请投资者注意投资风险。 三、 公司全体董事出席董事会会议。 四、 本半年度报告未经审计。 五、 公司负责人贺琳、主管会计工作负责人吕思遥及会计机构负责人(会计主管人员)王超声明:保证半年度报告中财务报告的真实、准确、完整。 六、 董事会决议通过的本报告期利润分配预案或公积金转增股本预案 无 七、 是否存在公司治理特殊安排等重要事项 □适用 √不适用 八、 前瞻性陈述的风险声明 √适用 □不适用 本报告中所涉及的未来计划、发展战略等前瞻性陈述,不构成本公司对投资者的承诺,敬请投资 者注意投资风险。 九、 是否存在被控股股东及其他关联方非经营性占用资金情况 否 十、 是否存在违反规定决策程序对外提供担保的情况 否 十一、 是否存在半数以上董事无法保证公司所披露半年度报告的真实性、准确性和完整性 否 十二、 其他 □适用 √不适用 目录 第一节 释义 ......................................................................................................................................... 4 第二节 公司简介和主要财务指标 ..................................................................................................... 9 第三节 管理层讨论与分析 ............................................................................................................... 14 第四节 公司治理 ............................................................................................................................... 57 第五节 环境与社会责任 ................................................................................................................... 60 第六节 重要事项 ............................................................................................................................... 62 第七节 股份变动及股东情况 ......................................................................................................... 114 第八节 优先股相关情况 ................................................................................................................. 121 第九节 债券相关情况 ..................................................................................................................... 122 第十节 财务报告 ............................................................................................................................. 123
第一节 释义 在本报告书中,除非文义另有所指,下列词语具有如下含义:
第二节 公司简介和主要财务指标 一、 公司基本情况
二、 联系人和联系方式
三、 信息披露及备置地点变更情况简介
四、 公司股票/存托凭证简况 (一) 公司股票简况 √适用 □不适用
(二) 公司存托凭证简况 □适用 √不适用 五、 其他有关资料 □适用 √不适用 六、 公司主要会计数据和财务指标 (一) 主要会计数据 单位:元 币种:人民币
(二) 主要财务指标
公司主要会计数据和财务指标的说明 √适用 □不适用 (1)报告期内,归属于上市公司股东的净利润为41.64万元,实现归属于上市公司股东的扣除非经常性损益的净利润-367.58万元,分别较上年同期增长1,765.78万元、1,942.87万元。主要是因为报告期内整体营业收入增长的同时,标准化数据集产品收入占比也持续提升,同时公司整体数据交付能力在管理能力、平台技术提升、供应链进一步整合和扩展等因素的共同推动下,使训练数据定制服务的毛利率也同比显著增长,共同驱动公司整体毛利率增加至 70.34%。同时,在研发投入方面,为积极应对产业需求的新兴变化,公司继续在大模型数据领域进行研发投入,但随着首发募投项目的结项,公司在传统深度学习数据集建设等方向已达到阶段性成熟状态,整体研发投入强度呈现自然回落;此外,在销售及管理投入方面为进一步提升整体运营效率,公司进行了资源的合理配置和流程优化,使得销售费用以及管理费用有效降低,以上因素共同驱动归属于上市公司股东的净利润同比大幅改善;同时,以政府补助、理财收益为代表的非经常性收益下降,导致归属于上市公司股东的扣除非经常性损益的净利润的同比增幅稍窄。 (2)报告期内,经营活动产生的现金流量净额为1,567.69万元,同比增加3,955.06万元。 主要是因为报告期内,公司加大对应收账款的催款力度,使得销售标准化数据集产品、提供定制化数据服务等收到的现金同比上期增加约 2,024.56万元;同时由于管理资源的合理配置和流程优化人工成本同比上期减少,驱动本期支付给职工及为职工支付的现金减少约1,401.29万元。 (3)报告期内,基本每股收益、稀释每股收益较上年同期均增加0.30元/股,扣除非经常性损益后的基本每股收益较上年同期增加0.32元/股。主要系报告期内归属于上市公司股东的净利润及归属于上市股东的扣除非经常性损益的净利润增加所致。 七、 境内外会计准则下会计数据差异 □适用 √不适用 八、 非经常性损益项目和金额 √适用 □不适用 单位:元 币种:人民币
对公司将《公开发行证券的公司信息披露解释性公告第1号——非经常性损益》未列举的项目认定为的非经常性损益项目且金额重大的,以及将《公开发行证券的公司信息披露解释性公告第 1号——非经常性损益》中列举的非经常性损益项目界定为经常性损益的项目,应说明原因 □适用 √不适用 九、 非企业会计准则业绩指标说明 □适用 √不适用 第三节 管理层讨论与分析 一、 报告期内公司所属行业及主营业务情况说明 (一) 所属行业情况 1. 行业的发展阶段、基本特点、主要技术门槛 1.1行业的发展阶段、基本特点 (1)在数字经济发展以及大模型技术的共同驱动下,全球AI产业进入新一轮加速发展期 当前,新一轮科技革命和产业变革深入发展,数字化转型成为大势所趋,世界主要国家均高 度重视发展数字经济,纷纷出台战略规划,重塑数字时代的国际竞争新格局。人工智能作为数字 经济发展的底层核心技术之一,正在发挥更加重要的作用。例如,随着数字经济发展的不断深入, 数据体量以及复杂度均不断提升,为更好解决产业数字化中数据提取、处理、分析等工作,将会 产生更多样化的人工智能需求,人工智能支出也将成为支持企业数字化转型支出的主力因素之一。 此外,大模型在去年以来的现象级智能化表现引发行业强烈关注。可以预见,人工智能行业将在 大模型技术的推动下进入新一轮产业高速发展期。 未来,受益于数字经济政策和大模型技术的双重驱动,人工智能将具备更强的产业融合能力, 并将深刻影响千行百业的运行规则,以及人们的生活方式,人工智能产业的发展将随之进入快车 道。 根据国际数据公司(IDC)的数据,2022年全球人工智能(AI)IT总投资规模为1,324.9亿美 元,预计在2027年增至5,124.2亿美元,年复合增长率(CAGR)为31.1%。 数据来源:国际数据公司(IDC) 在市场需求拉动和国家政策的支持引导下,当前我国人工智能产业加速发展,已形成基础底层设施、中层技术以及上层应用的完备的产业链生态,联合推动中国人工智能产业实现规模增长。 根据艾瑞咨询的数据显示,2023年中国人工智能产业规模达2,137亿元,预计2028年市场规模将达到8,110亿元,年复合增长率为32.9%。 数据来源:艾瑞咨询 (2)训练数据作为AI发展和演进“燃料”的作用更加凸显,并逐渐成为大模型竞赛中的重要决定性要素 在AI产业链中,算法、算力和数据共同构成技术发展的三大核心要素。算法模型从技术理论到应用实践的落地过程依赖于大量的训练数据。训练数据越多、越完整、质量越高,模型推断的结论越可靠。过去十多年,人工智能产业以算法为核心,通过深度学习算法的不断创新,推动人工智能产业的快速发展。但未来,当算法发展趋于开源、算力能力大幅提升及人工智能模型从技术理论应用到更多的垂直场景,想要更快更好提升人工智能能力,数据将发挥更重要的作用。 根据Cognilytica数据统计显示,2021年全球AI训练数据市场需求约为42亿美元,并预计到2027年这一需求将增长到220亿美元,2021-2027年复合增长率达32%。 数据来源:Cognilytica 中国作为全球人工智能产业增速最快的国家之一,相关数据需求也在快速增长。根据艾瑞咨询的数据,2023年中国人工智能基础数据服务市场规模为45亿元,2028年规模将达到170亿元,年复合增长率为30.4%。 数据来源:艾瑞咨询 (3)数据要素市场蓬勃发展,数据行业迎来更为广阔的发展机遇 党的二十届三中全会对加快构建促进数字经济发展体制和机制,完善数据要素市场制度规则等作出部署,为中国数据要素市场化改革发展指明了方向。2023年国家数据局成立以来,我国坚持推进数据要素市场化配置改革““一条主线”,统筹数字中国、数字经济、数字社会““三个建设”的工作思路,推动数据工作更好服务高质量发展。同时,探索完善数据基础制度体系,加快推进数据基础设施建设,提升数据资源开发和利用水平。国家数据局联合多部门印发“《““数据要素×”经济2024年工作要点》,制定《关于深化智慧城市发展“推进城市全域数字化转型的指导意见》和《数字经济促进共同富裕实施方案》,发布《数字中国发展报告(2023年)》。 全国各地数据要素市场化配置改革也在加速推进。例如,北京市制定2024数据工作要点,在探索和实践数据基础制度先行示范区、人工智能数据训练基地的基础上,提出“一区三中心”的建设总体思路,完善数据基础制度,激发数据要素活力。沈阳市推动数据要素市场化配置改革,探索数据交易服务机制,实施《沈阳市公共数据授权运营管理办法(试行)》,开展公共数据授权运营探索实践。成都市大数据集团探索精准安全的公共数据开发运营新模式,搭建“成都市公共数据运营服务平台”,保障不同市场主体平等获取数据要素,实现数据要素配置效益最大化、效率最优化。广州市出台了《关于更好发挥数据要素作用推动广州高质量发展的实施意见》等文件,通过企业创新实践和举措,有效推动了数据资源向数据资产转化。 总体来看,随着““人工智能+”和““数据要素×”等国家战略行动计划的实施,全国各地均在加速推进数据要素市场化配置改革,未来围绕数据的汇聚、生产加工、开发利用以及流通交易,将产生大量需求,将为数据行业开拓新的增长空间。未来,数据产业将成为数字经济高质量发展的新引擎,预示着一个以数据为关键要素的新时代的到来。 (4)训练数据领域的未来发展更为可期 随着ChatGPT、Gemini、Sora等成为全球范围内的现象级应用,人工智能迎来了新的发展机遇,其背后的大模型技术也正在带来相关数据需求的变化和增长。 a.大模型范式下,数据需求体量指数级增长 相比于传统深度学习,大模型参数量更大,能够更充分捕捉数据之间的复杂关联,具备更强的学习能力,类比于人脑内的神经元和突触之间连接和信息传递机制变得更为活跃,使得“脑力/智商”骤增,具备学习和理解海量复杂数据的能力,因此,大模型通常会被喂给海量数据以充分发挥““大脑”优势。传统深度学习技术路线下,训练一个专有小模型大约需要GB级数据,而训练一个大模型通常需要TB到PB级数据。 此外,数据需求的体量还在持续增长。模型的训练效果由模型参数、训练数据量以及计算资源共同决定,在参数和算力供给不变的情况下,提升训练数据量,可以有效提高模型的训练效果。 这一结论也持续在各大模型上得到验证,例如,2024年上半年字节跳动发布的语音生成大模型Seed-TTS,其生成的语音和真人相似性极高,甚至可以模拟人类的停顿、吞字等发音习惯。产品研发人员表示,该模型之所以具备较强的复刻效果,除了模型参数上的调整,一个很重要的因素就是加大了数据使用量,之前业界所使用的语音合成数据在成千至上万小时,而Seed-TTS所用的数据量级远大于之前。 b.大模型技术的发展催生出新型数据处理需求 大模型和深度学习模型在学习和训练方式的区别,导致大模型范式下的训练数据与传统深度学习训练数据处理方式存在显著差异: (1)数据处理由感知转向认知:传统深度学习更加强调事实性标注(具有单一标准答案),而大模型往往需要标注人员进行联想和创作(强调发散思维)。以计算机视觉标注为例,过往面对一张景观图片,标注人员只需标注出哪个是山、哪个是湖,而现在则需要对图片进行更丰富的多种维度描述,以帮助模型理解图片含义。 (2)数据处理环节进一步延展:传统的深度学习模式下,由于数据来源大部分为定向采集,数据采集前已经过专家设计,因此除部分质量较差的数据,剩余数据均可直接送往进行标注,清洗等预处理需求较低;相对而言,大模型由于原料数据规模庞大,数据中存在大量重复、偏见以及错误信息,往往需对数据进行专业化清洗,以提升数据质量并减少大模型幻觉(即生成与现实不符或无意义的内容)的发生概率。此外,相比于传统模型的训练模式,大模型往往会使用强化学习的方式来对基础模型进行特定领域或特定方向上的优化迭代,使得模型能够输出更符合人类认知和表达习惯的答案,因此,衍生出RLHF数据评分、Prompt改写、创作等强化学习阶段数据需求。 (3)更加注重智能化标注:相较于传统深度学习,大模型训练数据体量呈指数级增长,传统人工为主的标注方式无法满足大模型数据处理量大、数据质量要求高等数据处理需求,因此,大模型数据服务将更加依赖算法的参与,需要通过提高算法能力及参与度来提升数据处理的智能化、自动化水平,实现高质高效的数据供给。 c.人工智能技术加速向产业渗透,带动垂直行业数据需求的显著提升 随着算法技术的持续进步,人工智能在模拟人类的感知与认知方面达到了前所未有的水平。 技术的飞跃不仅巩固了AI作为跨行业赋能工具的地位,还加快了其在各个领域的应用步伐。目前,人工智能正在迅速融入包括金融、医疗、法律等在内的多个垂直领域,推动相关行业的创新和转型。 与以往通用数据处理需求不同,垂向领域的数据处理更加注重专业性。例如,传统的自然语言处理任务只包括基本的文本处理工作,例如,分词、词性、情感、正则化等标注需求,这些任务无需标注人员具有特定的行业知识;相对地,开发专门针对医疗领域的自然语言处理模型,则要求标注人员不仅具备扎实的医疗专业知识,还要能够熟练使用专业的医疗术语进行文本的表达和创作,从而使医疗模型能够理解和生成专业的医疗内容。这种专业化的需求也对数据服务商提出了更高的要求,数据服务商不仅要对行业有深刻的理解,以设计出符合行业需求的数据解决方案,还需要具备更丰富的专家库储备,以提供高质量的数据标注服务以及相关专业咨询服务。 d.多模态技术发展驱动多模态数据需求快速增长 根据艾瑞研究报告,相比单一模态的大模型,多模态大模型能够提供更自然的人机交互方式,具备更全面和准确的认知能力,并在不同情境下表现出更高的鲁棒性,从而赋能更丰富和全面的AI应用。因此,多模态技术已成为诸多大模型厂商的研发重点,同时也将驱动多模态数据需求占比的持续提升。过往,以文本为主要代表的单模态大模型预训练数据主要来源为公开数据、开源数据等可公开获取的数据。进入多模态时代后,可公开获取的多模态数据(例如,语音数据、视频数据等)在质量上,往往很难满足模型训练需求。例如,以文生图、文生视频为应用场景的大模型为例,当前公开能获取的数据往往是图片和简单的关键词的匹配,而缺乏对图片中物理关系的详细描述,但后者恰恰是决定了这些多模态生成大模型是否能够准确理解和描述物理世界的关键因素。此外,多模态数据种类更为庞杂,数据清洗、分类以及标注难度指数级提升,数据处理工作具有更强的专业性。例如,Stability“AI在训练其视觉大模型SVD“(Stable“Video“Diffusion)时,使用了一个包含1.5亿个剪辑视频的数据集。为了筛选适合训练的高质量数据,需要从海量视频数据中检测每个视频中的镜头和转场,并且需要分析每个镜头中的运动信息,为每个镜头提供对应的文字以及美学效果描述。因此,多模态数据处理过程更加复杂和耗时,模型厂商更倾向于将相关数据需求释放给专业的第三方数据服务商。未来,具备多模态数据服务能力,以及多模态数据集储备的企业将获得更多市场机会。 e.人工智能企业全球化布局加速,多语种能力成为数据服务商全球拓展的核心支撑之一 共建“一带一路”的倡议面世十多年来,国家“一带一路”战略深入推进,国内一批具有较强创新能力和过硬技术实力的企业,纷纷踏出国门,积极拓展海外市场,通过不断扩大企业出海战略版图,获得高速发展机会。另一方面,境外头部企业也继续践行“全球化”战略,搭乘全球出海的快车。 随着境内、外企业的全球化扩张成为确定性趋势,多语种能力作为支撑企业顺利出海的核心要素之一,重要意义更加凸显。未来,多语种训练数据将对客户侧在语音助手、智能汽车、智能家居、智能客服、机器人、多语种OCR等各领域产品/应用的全球化推广将起到积极作用。因此,随着各类客户群体扩张步伐加速,多语种需求也将快速增长,具有强大语言研究能力的数据服务企业将获得更多商业机会。 f.国家法律法规密集落地,对数据安全及合规提出更高要求 近年来,数字经济规模快速扩张,数据作为数字经济时代核心生产要素,重要性更加凸显,但数据不同于传统生产要素,其中可能涉及关乎个人权益的个人信息以及关乎国家安全的重要数据,因此,为更好保障数字经济长期稳定的可持续发展,建设规范、安全、合规、高质量的数据安全体系已成为迫切需求。近年来,国家陆续出台包括《数据安全法》、《个人信息保护法》等主流法律法规,以及《促进和规范数据跨境流动规定》等具体规范,为加强数据安全保障、净化行业快速发展中的不良乱象提供了切实可行的法律依据。 未来,随着AI技术不断革新,应用行业以及场景不断增加,各行业、各领域数据安全规范逐渐落地将成为趋势,对于以数据生产为主营业务的数据服务企业,数据安全及合规能力将成为数据服务能力的核心评价维度,成熟的安全合规管理体系将成为重要评价标准,能持续跟踪法律环境变化,积极响应监管政策,牢牢把握发展与安全并重的原则的企业将具有更强的市场竞争力。 1.2 行业的主要技术门槛 随着AI技术不断演进、产业应用不断丰富,训练数据的市场需求呈现体量、难度、复杂性持续上升的趋势,数据服务商须同时具备对人工智能核心算法的理解能力、前瞻性的专业数据集设计能力、丰富的语言覆盖能力及场景采集能力、算法辅助数据生产能力等,这使得行业的技术门槛持续提升,具体体现为: (1)在训练数据研发、生产全流程中的算法全面介入 随着 AI技术的不断演进以及应用场景的不断拓展,客户对于数据质量和处理效率的要求不断提升,数据服务商须在数据设计、生产中引入算法以实现高效的人机协作,进而实现降本增效的目标。一般而言,算法技术可用于训练数据集的设计及训练数据生产的各个环节,例如调度不同类型的标注人员应对不同领域的任务、形成算法自动处理能力以帮助标注人员提升效率、降低人员依赖,并构建训练数据设计、加工相关的核心技术;也可用于检查训练数据集对算法模型的训练效果,进而保障训练数据集质量。 (2)平台工具链功能及适配性要求持续提升 当前,客户侧的数据采集、标注需求范围在逐渐拓宽,数据采集与标注需满足的AI应用场景比以往明显更加广泛、复杂,这就对数据服务商的平台工具能力提出了更高要求,平台上处理过多大规模的数据、这些处理过的数据的多样性和复杂程度如何、算法引擎投票机制如何建立、置信区间如何设置、算法在平台中如何应用、数据流转的工程化程度如何等这些因素都决定了平台的适配性和能力,并最终决定了数据处理的质量、效率、成本。 (3)语音语言学基础研究方面须有深厚积累 伴随语音技术进一步成熟、并向更多行业和垂直场景进行渗透,同时受到中国企业出海、国外企业区域拓展等需求支撑,客户在多语种、多音色、音素集、发音规则、发音词典等方面的需求在不断抬升。而多语种数据生产依赖大量的语音语言学基础研究,投入更多、拥有深厚积累的数据服务商才能满足客户在这方面的多元化需求。 目前,市场上仅有极少数企业通过长期自主研发的方式能够达到上述核心技术门槛,成为有能力向不同客户群体提供综合、高质量、高效的数据产品及服务的供应商。 2. 公司所处的行业地位分析及其变化情况 作为行业的头部阵营企业,海天瑞声在经营情况、技术实力、以及以数据安全为代表的其他综合能力方面都展示出明显优势,并具有较强国际竞争力。近年来公司紧跟AI技术发展趋势,尤其关注在客户资源、技术实力、产品/服务等方面的竞争优势,树立国内领先基础数据服务商的品牌形象,以巩固公司的行业领先地位。与同行业国内外竞争对手的对比情况及优势体现如下:
注2:海天瑞声数据:均为2024年1-6月/截至2024年6月30日数据。 (二) 主营业务情况说明 公司主要从事 AI训练数据的研发设计、生产及销售业务。公司通过设计数据集结构、组织数据采集、对取得的原料数据进行加工,最终形成可供 AI算法模型训练使用的专业数据集,通过软件形式向客户交付。 自 2005年成立以来,公司始终致力于为 AI产业链上的各类机构提供算法模型开发训练所需的专业数据集。经过多年发展,公司已成为人工智能基础数据服务领域具有较强国际竞争力的国内头部企业,并实现了标准化产品、定制化服务、相关应用服务全覆盖。公司所提供的训练数据涵盖智能语音(语音识别、语音合成等)、计算机视觉、自然语言等多个核心领域,全面服务于人机交互、智能家居、智能驾驶、智慧金融、智能安防等多种创新应用场景。 公司的产品和服务已获得阿里巴巴、腾讯、百度、科大讯飞、海康威视、字节跳动、微软、亚马逊、三星、中国科学院、清华大学等国内外客户的认可,应用于其研发的个人助手、智能音箱、语音导航、内容生成、搜索服务、短视频、虚拟人、智能驾驶、机器翻译等多种产品相关的算法模型训练过程中。目前公司客户累计数量超过 1,000家,覆盖了科技互联网、社交、IoT、智能驾驶、智慧金融等领域的主流企业,教育科研机构以及部分政企机构。 图:公司产品服务矩阵示意 (三) 主要产品及服务情况 1. 主要产品及服务按业务类型分类 公司研发、生产的训练数据覆盖了智能语音、计算机视觉及自然语言处理三大 AI核心领域,广泛应用于算法模型的开发、训练、优化、应用场景拓展等环节。此外,公司还提供与训练数据相关的应用服务。 (1)智能语音 人工智能在语音领域的应用技术主要包括语音识别、语音合成等。 语音识别(Automatic Speech Recognition,ASR)是让机器能够“听懂”人类语音的技术,它能使机器自动将语音信号转换为对应的文本信息。 语音合成(Text to Speech,TTS)是让机器能够“说出”人类语音的技术,它使机器能将文字信息转化为流畅的语音“朗读”出来,相当于给机器安上了人工嘴巴。 以日常生活中的情景为例,语音输入法、即时通讯软件运用了语音识别技术将用户输入的语音实时转换为文字,实现了软件“听懂”语音并“听写”出文字的效果;而地图、导航软件则运用语音合成技术,实现了软件“发声说话”的效果,为用户提供即时语音导航。 公司通过设计(设计训练数据集结构、供发音人朗读录制的语料文本或对话场景、发音人分布、录音设备场景等)、采集(定义合适的发音人、选取录音设备及软件、组织发音人朗读录制音频)、加工(对音频文件进行切分、标注各类声音特征,形成带时间戳和特征标签的文本和标注文件等)、质检(对数据集进行质量检测,如音字一致性、标注准确率检查等)等训练数据集生产环节;或者针对客户提供的原料音频文件执行加工、质检工作,最终形成客户所需的智能语音训练数据集。 (2)计算机视觉 计算机视觉(Computer Vision,CV)是使机器具备“看”的功能的技术,它使得智能驾驶、智能家居、手机、安防设备等机器能够代替人眼对目标进行识别、跟踪和测量等。 以日常生活中的情景为例,在汽车的自动驾驶功能中,计算机视觉技术使得汽车能够“看见”并识别行车过程中的各种行人、路况场景,为后续作出相应的反应奠定基础;在机场、车站安检中,计算机视觉技术使得人脸识别设备能够识别被检验人员是否为其出示的身份证件显示的人员。 公司通过设计训练数据集结构、采集(如定义合适的人脸、动作、场景作为采集对象,组织被采集人按照要求拍摄照片、录制视频等)、加工(对图像、视频文件进行打点、拉框、分割标注等)、质检(对数据集进行质量检测,如检验图片、视频文件格式是否正确,检查光照环境、物体种类的数量是否达标,打点标框的准确率是否符合要求等);或者对客户提供的图像、视频文件执行加工、质检工作,最终形成客户所需的计算机视觉训练数据集。 (3)自然语言处理 自然语言处理(Natural Language Processing,NLP)是以机器能够像人一样理解语言意图的技术。 以日常生活中的情景为例,寄送快递时使用的“智能填写”功能即运用了自然语言处理技术,在输入框中填入整段联系信息,软件应用能够理解语义,并从中识别及提取“收件人”、“联系方式”、“地址信息”等所需信息,完成自动填写;智能客服、聊天机器人等人机交互程序也运用了自然语言处理技术,使得程序、机器能够读懂人类语言的真正意图,并相应做出反应、提供服务等。 公司通过设计训练数据集结构、采集(收集或编写自然语言文本、对话等数据信息)、加工(对自然语言文本数据进行单词分割、词性标注、语义语法标注、情感属性标注等)、质检(对数据集进行质量检测,如检验文本、词性或者语义的标注结果是否准确等);或者对客户提供的自然语言文本执行加工、质检工作,最终形成客户所需的自然语言训练数据集。 (4)训练数据相关的应用服务 公司基于自身生产的训练数据提供算法模型相关的训练服务,运用训练数据研发能力助力下游客户完成其算法模型的语言拓展、特定算法模块拓展、垂直应用领域拓展等,为客户定制针对特定应用场景的专属算法模型,提高 AI技术应用效果。 前述产品、服务均以公司生产的专业训练数据集为核心或基础。公司通过设计训练数据集结据集。 成品训练数据集主要由数据文档、说明文档、技术文档三部分构成。以智能语音训练数据集 为例,成品训练数据集包含原始采集形成的音频文件、与音频文件对应的带有时间戳的标注文件, 训练数据集相关的设计文档、训练数据集说明,发音词典,数据集参数信息文件等,图示如下: 图:训练数据集结构(智能语音)示例 2. 主要产品或服务的终端应用场景 公司提供的高质量、大规模、结构化的训练数据,为算法模型的训练拓展提供了可靠的训练 素材,助力 AI技术实现实践应用及商业化落地,赋能 AI技术与实体经济深度融合。公司提供的 训练数据广泛应用于众多主流 AI产品及终端应用的训练过程中,覆盖了个人助手、语音输入、内 容生成、智能家居、机器人、语音导航、智能客服、智能播报、语音翻译、移动社交、虚拟人、 智能驾驶、智慧医疗、智慧教育、智慧交通、智慧城市、智慧金融、机器翻译、智能问答、信息 提取、情感分析、OCR识别等多种应用场景。 图:训练数据集服务的算法模型应用场景示意 (四) 主要经营模式 1. 盈利模式 与主要产品及服务类型对应,公司的盈利模式主要包括以下三类: (1)定制服务:公司根据客户需求提供定制训练数据集并收取服务费。在此种模式下,公司 享有服务费收入,不享有最终生成的训练数据的知识产权,不可将此类业务生产的训练数据向其 他客户重复销售。 (2)标准化产品:公司开发自有知识产权的训练数据集产品,通过销售训练数据集产品的使 用授权许可,获取让渡资产使用权收入。此类训练数据集一经开发完成,可多次销售并获取授权 许可收入。 (3)训练数据相关的应用服务:公司基于生产的训练数据提供算法模型相关的模型拓展及训 练服务,通常以软件授权或软硬件一体化形式交付算法模型拓展、开发成果,获取让渡资产使用 权收入和技术服务收入,以及少量硬件销售收入。 2. 生产或服务模式 (1)训练数据集生产模式 公司通过设计训练数据集结构、组织原料数据采集、对取得的原料数据进行加工,最终形成 可供算法模型训练使用的专业数据集。 图:训练数据生产过程示意图 公司的训练数据生产过程主要包括四个环节:设计(训练数据集结构设计)、采集(获取原料数据)、加工(数据标注)及质检(各环节数据质量、加工质量检测)。 (2)训练数据相关的应用服务模式 公司基于其生产的训练数据提供算法模型相关训练服务,助力下游客户完成其算法模型的语言拓展、特定算法模块拓展、垂直应用领域拓展等,为客户定制针对特定行业和口音的专属算法模型,提高AI技术应用效果。 以某大型科技公司客户项目为例,客户研发了特定语音识别算法模型,需要根据算法模型的实际场景(如法院庭审场景)开发落地应用。公司承担了部分落地应用拓展相关的开发工作,围绕客户的算法模型和接口开发,最终协助客户算法模型实现多个麦克风收集庭审语音内容并实时转成文字记录入系统的功能。 3. 采购模式 按照采购的内容及主体划分,公司的采购包括: 数据服务采购:公司在数据采集、加工环节中,向人力资源服务等类型的公司等供应商采购的,非核心技术环节的原料数据采集、标注服务。 岗位服务采购:主要针对临时性的、不设长期岗位的业务领域的外包采购,如保洁、临时招聘服务、少量实习生招聘等。 其他采购:(1)训练数据生产所需的资产,主要包括软、硬件设备及其他需求物品采购;(2)日常运营所需的资产及物品,如办公用房、车辆、办公家具、计算机设备等;(3)日常专项服务采购等,主要包括审计服务、会议服务、差旅服务等。 上述原料数据采集、加工环节所涉及的数据服务采购,为公司最主要的采购类别,由集采中心负责;各部门岗位服务采购由人力资源部负责;其余日常运营相关的资产物品采购、专项服务采购等非业务采购由集采中心负责。财务中心负责参与采购供应商的遴选、监督与管理,并对采购费用进行核算及结算。 经过多年的发展,公司已经建设有完善的《海天瑞声采购管理制度》、《海天瑞声项目资源采购管理制度》、《海天瑞声供应商管理制度》、《海天瑞声岗位服务采购管理制度》等内部规范制度,设立有完善的采购流程和体系,并与主要的供应商形成了良好稳定的长期合作关系。 4. 营销模式 公司采用直接对接并服务客户的直销模式进行营销,符合行业通行惯例。公司以高质量的训练数据集及相关服务吸引客户,并在持续服务客户的过程中提升服务价值和客户黏度。公司通过直接拜访潜在客户、参与学术会议和行业展会新产品发布、搭建并持续升级公司官方网站和建立自媒体矩阵等方式提升品牌知名度、开拓新客户,后续再通过商务谈判、招投标等形式获取具体业务机会。 二、 核心技术与研发进展 1. 核心技术及其先进性以及报告期内的变化情况 公司高度重视并坚持科技创新,通过持续的研发投入积累形成了12项核心技术,覆盖基础研究、平台工具、训练数据生产三个层次,应用于训练数据生产的设计、采集、加工、质检全流程之中;按照从底层自下而上的顺序对上述三个层次的核心技术情况介绍如下: 图:各层次核心技术示意图 上述核心技术构成了公司生产经营的基础,通过上述核心技术的成果转化,公司形成了基于核心技术的训练数据相关产品和服务。具体如下表所示,其中5项核心技术具备较高技术壁垒(下表中以★标示):
(2)平台工具层面,持续提升了标注平台对智能驾驶领域前沿算法所需的数据标注服务支撑能力。实现了千万级大规模点云语义分割的技术难点突破与落地,完成了多项4D标注相关平台能力升级,并重点优化了点云语义分割和2D-3D融合连续帧点云标注平台的能力,创新性地设计并实现了点云动静态目标物多帧协同标注套件,大幅提升标注效率。重构了包括副语言标注、打点标注、音素边界标注等在内的多项标注流程,实现了高精度实时语音流线上化处理与可视化渲染,进一步扩展了平台多模态数据融合标注工具能力。 (3)训练数据生产层面,重点建设了高性能多源、多维度实时大数据分析系统,实现项目管理数据的交互式智能探查与分析,提升数据透明度,优化了数据同步技术与实时采集质控技术的自动检测与错误报告机制,扩展了算法在实时交互式标注与质检中的应用场景,增强了对多语种、多模态数据支持,进一步提升公司训练数据生产的精细化、智能化管理。 以上技术突破均将对更广泛人工智能数据服务产生积极影响。报告期内,公司新申请软件著作权5项。具体见第三节“管理层讨论与分析”二、“核心技术与研发进展”之“报告期内获得的知识产权列表”。 国家科学技术奖项获奖情况 □适用 √不适用 国家级专精特新“小巨人”企业、制造业“单项冠军”认定情况 √适用 □不适用
2. 报告期内获得的研发成果 报告期内,公司新申请软件著作权5项。截至2024年6月30日,公司共获得专利授权37项,获得登记的软件著作权173项。 报告期内获得的知识产权列表
3. 研发投入情况表 单位:元
![]() |