[中报]海天瑞声(688787):海天瑞声2024年半年度报告

时间：2024年08月28日 02:11:16 中财网

原标题:海天瑞声:海天瑞声2024年半年度报告

公司代码：688787 公司简称：海天瑞声

北京海天瑞声科技股份有限公司
2024年半年度报告

重要提示
一、本公司董事会、监事会及董事、监事、高级管理人员保证半年度报告内容的真实性、准确性、完整性，不存在虚假记载、误导性陈述或重大遗漏，并承担个别和连带的法律责任。

二、重大风险提示
公司已在本报告中详细描述可能存在的风险，敬请查阅第三节“管理层讨论与分析”之五“风险因素”部分，请投资者注意投资风险。

三、公司全体董事出席董事会会议。

四、本半年度报告未经审计。

五、公司负责人贺琳、主管会计工作负责人吕思遥及会计机构负责人（会计主管人员）王超声明：保证半年度报告中财务报告的真实、准确、完整。

六、董事会决议通过的本报告期利润分配预案或公积金转增股本预案无

七、是否存在公司治理特殊安排等重要事项
□适用 √不适用

八、前瞻性陈述的风险声明
√适用 □不适用
本报告中所涉及的未来计划、发展战略等前瞻性陈述，不构成本公司对投资者的承诺，敬请投资者注意投资风险。

九、是否存在被控股股东及其他关联方非经营性占用资金情况
否

十、是否存在违反规定决策程序对外提供担保的情况
否

十一、是否存在半数以上董事无法保证公司所披露半年度报告的真实性、准确性和完整性否

十二、其他
□适用 √不适用

目录
第一节释义 ......................................................................................................................................... 4
第二节公司简介和主要财务指标 ..................................................................................................... 9
第三节管理层讨论与分析 ............................................................................................................... 14
第四节公司治理 ............................................................................................................................... 57
第五节环境与社会责任 ................................................................................................................... 60
第六节重要事项 ............................................................................................................................... 62
第七节股份变动及股东情况 ......................................................................................................... 114
第八节优先股相关情况 ................................................................................................................. 121
第九节债券相关情况 ..................................................................................................................... 122
第十节财务报告 ............................................................................................................................. 123

备查文件目录	载有公司负责人、主管会计工作负责人、会计机构负责人（会计主管人员）签名并盖章的财务报表。
	报告期内公开披露过的所有公司文件的正本及公告的原稿

第一节释义
在本报告书中，除非文义另有所指，下列词语具有如下含义：

常用词语释义
本公司、公司、海天瑞声	指	北京海天瑞声科技股份有限公司
控股股东、实际控制人	指	贺琳
中瑞智	指	北京中瑞智科技有限公司，为公司的全资子公司
中瑞安	指	北京中瑞安投资中心（有限合伙），为公司股东
中瑞立	指	北京中瑞立投资中心（有限合伙），为公司股东
安徽瑞天数智	指	安徽瑞天数智科技有限公司，为公司的全资子公司
山西瑞天数智	指	山西瑞天数智科技有限公司，为公司的全资子公司
创世联合	指	北京创世联合投资管理有限公司，为北京中瑞安投资中心（有限合伙）普通合伙人、执行事务合伙人
中移投资	指	中移投资控股有限责任公司，为公司的股东
清德投资	指	北京清德投资中心（有限合伙），为公司的股东
上海丰琬	指	上海丰琬投资合伙企业（有限合伙），为公司的股东
中网投	指	中国互联网投资基金（有限合伙），为公司的股东
数安易	指	数安易（北京）科技有限公司，为公司对外投资的一家公司，其主要从事数据安全相关技术及产品服务，在数据脱敏、数据加密、数据资产管理平台、数据安全治理等方面的能力，可为海天瑞声数据业务的合规开展提供重要技术支撑
Appen	指	Appen Limited，是一家成立于澳大利亚的训练数据产品和服务提供商
数据堂	指	数据堂(北京)科技股份有限公司
标贝科技	指	标贝（北京）科技有限公司，是一家国内同行业的训练数据产品和服务提供商
证监会	指	中国证券监督管理委员会
工信部	指	中华人民共和国工业和信息化部
《公司章程》	指	《北京海天瑞声科技股份有限公司章程》
《个人信息保护法》	指	《中华人民共和国个人信息保护法》
《数据安全法》	指	《中华人民共和国数据安全法》
报告期	指	2024年1月1日至2024年6月30日
元、万元、亿元	指	如无特别说明，均以人民币为度量币种
训练数据	指	通过采集与处理等步骤形成的、结构化的、可供人工智能算法模型训练使用的数据
算法	指	解题方案的准确而完整的描述，是一系列解决问题的清晰指令，算法代表着用系统的方法描述解决问题的策略机制
算力	指	计算能力
人工智能（AI）	指	Artificial Intelligence，是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门技术科学
机器学习	指	Machine Learning，是一门专门研究计算机模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身性能的学科
深度学习	指	Deep Learning，机器学习研究中的一个新的领域，其动机在于建立、模拟人脑进行分析学习的神经网络，它模仿人脑的机制来解释数据，例如图像、声音和文本
模型	指	为解决人工智能领域的相应问题，而专门设计的某种算法框架，并通过大量数据训练拟合来调整相应参数，最终得到能解决实际问题的一套算法和参数
引擎	指	是计算机平台上开发相应应用程序或软件系统的核心组件
鲁棒性	指	鲁棒性亦称稳健性、强健性，是指计算机软件/系统在异常和危险情况下生存的能力。例如，计算机软件在输入错误、磁盘故障、网络过载或有意攻击情况下，能否不死机、不崩溃，就是该软件的鲁棒性
智能语音	指	实现人机语言的通信，包括语音识别技术（ASR）和语音合成技术（TTS）
语音识别（ASR）	指	Automatic Speech Recognition，是一种将语音信号自动转换为文本的技术，是实现智能人机交互的关键技术之一
语音合成（TTS）	指	Text to Speech，即“从文本到语音”，是一种将文字智能地转化为自然语音的技术
自然语言/自然语言处理（NLP）	指	Natural Language Processing, 是计算机科学领域与人工智能领域中的一个重要方向，研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法
计算机视觉（CV）	指	Computer Vision，是一门研究如何使机器“看”的科学，是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测
		量等
光学字符识别（OCR）	指	是指电子设备（例如扫描仪或数码相机）检查纸上打印的字符，通过检测暗、亮的模式确定其形状，然后用字符识别方法将形状翻译成计算机文字的过程
IoT	指	物联网（IoT，Internet of things）即“万物相连的互联网”，是互联网基础上的延伸和扩展的网络，将各种信息传感设备与网络结合起来而形成的一个巨大网络，实现任何时间、任何地点，人、机、物的互联互通
SaaS	指	Software as a Service，让用户能够通过互联网连接来使用基于云的应用程序
智能驾驶	指	指的是机器帮助人进行驾驶，以及在特殊情况下完全取代人驾驶的技术
虚拟人	指	虚拟人（VirtualHuman）是通过建模、动作捕捉或AI等科技手段，制作出具有外貌特征和行为模式的虚拟形象，并通过显示设备呈现出来。虚拟人创造的价值主要是打破物理的空间限制，提供了更多沉浸感、参与感和互动感
原料数据	指	Raw Data，即未经加工处理的原始数据
采集	指	使用软件工具、录音设备、图像拍摄设备等收集、录制和获取原料数据的过程
标注	指	训练数据的生产步骤之一，指对原料数据进行加工，进而生成符合算法模型训练要求的训练数据的过程
转写	指	通过软件加工、人工听写等手段将语音片段转换为对应的文本的加工步骤
词性	指	以词的特点划分的词类，如名词、代词、动词、形容词、数词、量词等
韵律	指	韵律通常指语音语句中各词之间的停顿时长情况
音色	指	声音的特征，指的声音在波形方面具有的与众不同的特性
AIGC	指	AI Generated Content，又叫生成式人工智能，是指是使用机器学习和深度学习算法，从现有数据中学习并生成新内容的一种人工智能技术。它可以生成各种形式的数据，如图像、音频、视频和文本，并在虚拟现实、自然语言处理、艺术创作和模拟实验等领域有广泛应用
正则化	指	将文本中的数字、符号、缩写等转换成语言文字
GPT-3	指	GPT-3（Generative Pre-trained Transformer 3）是由美国OpenAI开发的一种自然语言处理模型
ChatGPT	指	美国OpenAI研发的聊天机器人程序，ChatGPT是人工智能技术驱动的自然语言处理工具，它能够通过理解和学习人类的语言来进行对话，还能根据聊天的上下文进行互动，真正像人类一样来聊天交流，甚至能完成撰写邮件、视频脚本、文案、翻译、代码，写论文等任务
Llama	指	由Meta开发的一款大语言模型
Palm	指	由Google开发的一款大语言模型
Gemini	指	Gemini是一款由Google DeepMind（谷歌母公司Alphabet 下设立的人工智能实验室）发布的人工智能模型，可同时识别文本、图像、音频、视频和代码五种类型信息，还可以理解并生成主流编程语言（如Python、Java、C++）的高质量代码
SAM	指	由Meta开发的人工智能视觉大模型
Sora	指	由OpenAI开发的人工智能文生视频大模型
ChatGLM	指	由智谱AI开发的支持中英双语的对话机器人
Whisper	指	由OpenAI开发的一款语音预训练大模型
大模型	指	大模型就是Foundation Model（基础模型），指通过在大规模宽泛的数据上进行训练后能适应一系列下游任务的模型
多模态	指	多模态机器学习（Multi-modal Machine Learning）是一种机器学习方法，用于处理多种类型的数据，如图像、文本、音频等。它通过将来自不同模态的数据进行整合和联合建模，以提取和学习不同模态之间的相关信息和特征。多模态数据是指用于多模态机器学习训练使用的跨形态数据类型
人类反馈强化学习 /RLHF	指	英文为Reinforcement Learning from Human Feedback，缩写为 RLHF，是一种机器学习方法，旨在使智能系统从环境中学习，通过引入“奖励”和“惩罚”信号，让系统自行探索环境并学习最佳行为策略，以最大化某种特定目标
Prompt	指	提示文本，提供模型完成下游任务所需的上下文等信息，以帮助模型更好地理解任务需求，从而更好地完成下游任务
BEV	指	Bird's-Eye-View，即鸟瞰视图，是一种从上方观察对象或
		场景的技术
OCC	指	Occupancy Networking技术,在自动驾驶感知领域中,主要指的是利用传感器数据构建三维空间中的占用网络,以表示周围环境中的物体和空间状态

注：本报告除特别说明外若出现总数和各分项数值之和尾数不符的情况，均为四舍五入原因造成。

第二节公司简介和主要财务指标
一、公司基本情况

公司的中文名称	北京海天瑞声科技股份有限公司
公司的中文简称	海天瑞声
公司的外文名称	Beijing Haitian Ruisheng Science Technology Ltd.
公司的外文名称缩写	Haitianruisheng
公司的法定代表人	贺琳
公司注册地址	北京市海淀区知春路68号院1号楼4层401
公司注册地址的历史变更情况	2012年9月14日，公司地址由北京市海淀区知春路甲48号 3号楼4单元6B变更为北京市海淀区成府路28号4-801。 2023年11月29日，公司地址由北京市海淀区成府路28号 4-801变更为北京市海淀区知春路68号院1号楼4层401
公司办公地址	北京市海淀区知春路68号院1号楼4层401
公司办公地址的邮政编码	100098
公司网址	www.haitianruisheng.com
电子信箱	[email protected]
报告期内变更情况查询索引	/

二、联系人和联系方式

	董事会秘书（信息披露境内代表）	证券事务代表
姓名	吕思遥	张哲
联系地址	北京市海淀区知春路68号院1号楼4层 401	北京市海淀区知春路68号院1号楼4层 401
电话	010-62660772	010-62660772
传真	010-62660892	010-62660892
电子信箱	[email protected]	[email protected]

三、信息披露及备置地点变更情况简介

公司选定的信息披露报纸名称	《中国证券报》、《上海证券报》、《证券日报》、《证券时报》
登载半年度报告的网站地址	www.sse.com.cn
公司半年度报告备置地点	公司董事会办公室
报告期内变更情况查询索引	/

四、公司股票/存托凭证简况
(一) 公司股票简况
√适用 □不适用

公司股票简况
股票种类	股票上市交易所及板块	股票简称	股票代码	变更前股票简称
人民币普通股（A 股）	上海证券交易所科创板	海天瑞声	688787	不适用

(二) 公司存托凭证简况
□适用 √不适用

五、其他有关资料
□适用 √不适用

六、公司主要会计数据和财务指标
(一) 主要会计数据
单位：元币种：人民币

主要会计数据	本报告期（1－6月）	上年同期	本报告期比上年同期增减(%)
营业收入	92,426,380.35	74,460,903.49	24.13
归属于上市公司股东的净利润	416,421.26	-17,241,392.69	不适用
归属于上市公司股东的扣除非经常性损益的净利润	-3,675,849.60	-23,104,588.43	不适用
经营活动产生的现金流量净额	15,676,856.20	-23,873,756.60	不适用
	本报告期末	上年度末	本报告期末比上年度末增减(%)
归属于上市公司股东的净资产	753,379,145.86	782,293,983.51	-3.70
总资产	787,789,765.71	824,507,109.18	-4.45

(二) 主要财务指标

主要财务指标	本报告期（1－6月）	上年同期	本报告期比上年同期增减(%)
基本每股收益（元／股）	0.01	-0.29	不适用
稀释每股收益（元／股）	0.01	-0.29	不适用
扣除非经常性损益后的基本每股收益（元／股）	-0.06	-0.38	不适用
加权平均净资产收益率（%）	0.05	-2.10	增加2.15个百分点
扣除非经常性损益后的加权平均净资产收益率（%）	-0.48	-2.82	增加2.34个百分点
研发投入占营业收入的比例（%）	28.86	43.26	减少14.40个百分点

公司主要会计数据和财务指标的说明
√适用 □不适用
（1）报告期内，归属于上市公司股东的净利润为41.64万元，实现归属于上市公司股东的扣除非经常性损益的净利润-367.58万元，分别较上年同期增长1,765.78万元、1,942.87万元。主要是因为报告期内整体营业收入增长的同时，标准化数据集产品收入占比也持续提升，同时公司整体数据交付能力在管理能力、平台技术提升、供应链进一步整合和扩展等因素的共同推动下，使训练数据定制服务的毛利率也同比显著增长，共同驱动公司整体毛利率增加至 70.34%。同时，在研发投入方面，为积极应对产业需求的新兴变化，公司继续在大模型数据领域进行研发投入，但随着首发募投项目的结项，公司在传统深度学习数据集建设等方向已达到阶段性成熟状态，整体研发投入强度呈现自然回落；此外，在销售及管理投入方面为进一步提升整体运营效率，公司进行了资源的合理配置和流程优化，使得销售费用以及管理费用有效降低，以上因素共同驱动归属于上市公司股东的净利润同比大幅改善；同时，以政府补助、理财收益为代表的非经常性收益下降，导致归属于上市公司股东的扣除非经常性损益的净利润的同比增幅稍窄。

（2）报告期内，经营活动产生的现金流量净额为1,567.69万元，同比增加3,955.06万元。

主要是因为报告期内，公司加大对应收账款的催款力度，使得销售标准化数据集产品、提供定制化数据服务等收到的现金同比上期增加约 2,024.56万元；同时由于管理资源的合理配置和流程优化人工成本同比上期减少，驱动本期支付给职工及为职工支付的现金减少约1,401.29万元。

（3）报告期内，基本每股收益、稀释每股收益较上年同期均增加0.30元/股，扣除非经常性损益后的基本每股收益较上年同期增加0.32元/股。主要系报告期内归属于上市公司股东的净利润及归属于上市股东的扣除非经常性损益的净利润增加所致。

七、境内外会计准则下会计数据差异
□适用 √不适用

八、非经常性损益项目和金额
√适用 □不适用
单位:元币种:人民币

非经常性损益项目	金额	附注（如适用）
非流动性资产处置损益，包括已计提资产减值准备的冲销部分	4,438.93
计入当期损益的政府补助，但与公司正常经营业务密切相关、符合国家政策规定、按照确定的标准享有、对公司损益产生持续影响的政府补助除外	385,097.85	主要系产业扶持资金补贴等
除同公司正常经营业务相关的有效套期保值业务外，非金融企业持有金融资产和金融负债产生的公允价值变动损益以及处置金融资产和金融负债产生的损益	3,998,052.52	公司为提高资金使用效益，购买银行保本浮动收益型理财产品取得的投资收益
计入当期损益的对非金融企业收取的资金占用费
委托他人投资或管理资产的损益
对外委托贷款取得的损益
因不可抗力因素，如遭受自然灾害而产生的各项资产损失
单独进行减值测试的应收款项减值准备转回
企业取得子公司、联营企业及合营企业的投资成本小于取得投资时应享有被投资单位可辨认净资产公允价值产生的收益
同一控制下企业合并产生的子公司期初至合并日的当期净损益
非货币性资产交换损益
债务重组损益
企业因相关经营活动不再持续而发生的一次性费用，如安置职工的支出等
因税收、会计等法律、法规的调整对当期损益产生的一次性影响
因取消、修改股权激励计划一次性确认的股份支付费用
对于现金结算的股份支付，在可行权日之后，应付职工薪酬的公允价值变动产生的损益
采用公允价值模式进行后续计量的投资性房地产公允价值变动产生的损益
交易价格显失公允的交易产生的收益
与公司正常经营业务无关的或有事项产生的损益
受托经营取得的托管费收入
除上述各项之外的其他营业外收入和支出	425,837.76	主要系收到的生育津贴及违约赔偿等款项
其他符合非经常性损益定义的损益项目
减：所得税影响额	721,156.20
少数股东权益影响额（税后）
合计	4,092,270.86

对公司将《公开发行证券的公司信息披露解释性公告第1号——非经常性损益》未列举的项目认定为的非经常性损益项目且金额重大的，以及将《公开发行证券的公司信息披露解释性公告第 1号——非经常性损益》中列举的非经常性损益项目界定为经常性损益的项目，应说明原因 □适用 √不适用

九、非企业会计准则业绩指标说明
□适用 √不适用

第三节管理层讨论与分析一、报告期内公司所属行业及主营业务情况说明（一）所属行业情况 1. 行业的发展阶段、基本特点、主要技术门槛 1.1行业的发展阶段、基本特点（1）在数字经济发展以及大模型技术的共同驱动下，全球AI产业进入新一轮加速发展期当前，新一轮科技革命和产业变革深入发展，数字化转型成为大势所趋，世界主要国家均高度重视发展数字经济，纷纷出台战略规划，重塑数字时代的国际竞争新格局。人工智能作为数字经济发展的底层核心技术之一，正在发挥更加重要的作用。例如，随着数字经济发展的不断深入，数据体量以及复杂度均不断提升，为更好解决产业数字化中数据提取、处理、分析等工作，将会产生更多样化的人工智能需求，人工智能支出也将成为支持企业数字化转型支出的主力因素之一。此外，大模型在去年以来的现象级智能化表现引发行业强烈关注。可以预见，人工智能行业将在大模型技术的推动下进入新一轮产业高速发展期。未来，受益于数字经济政策和大模型技术的双重驱动，人工智能将具备更强的产业融合能力，并将深刻影响千行百业的运行规则，以及人们的生活方式，人工智能产业的发展将随之进入快车道。根据国际数据公司（IDC）的数据，2022年全球人工智能(AI)IT总投资规模为1,324.9亿美元，预计在2027年增至5,124.2亿美元，年复合增长率(CAGR)为31.1%。数据来源：国际数据公司（IDC）
在市场需求拉动和国家政策的支持引导下，当前我国人工智能产业加速发展，已形成基础底层设施、中层技术以及上层应用的完备的产业链生态，联合推动中国人工智能产业实现规模增长。

根据艾瑞咨询的数据显示，2023年中国人工智能产业规模达2,137亿元，预计2028年市场规模将达到8,110亿元，年复合增长率为32.9%。

数据来源：艾瑞咨询
（2）训练数据作为AI发展和演进“燃料”的作用更加凸显，并逐渐成为大模型竞赛中的重要决定性要素
在AI产业链中，算法、算力和数据共同构成技术发展的三大核心要素。算法模型从技术理论到应用实践的落地过程依赖于大量的训练数据。训练数据越多、越完整、质量越高，模型推断的结论越可靠。过去十多年，人工智能产业以算法为核心，通过深度学习算法的不断创新，推动人工智能产业的快速发展。但未来，当算法发展趋于开源、算力能力大幅提升及人工智能模型从技术理论应用到更多的垂直场景，想要更快更好提升人工智能能力，数据将发挥更重要的作用。

根据Cognilytica数据统计显示，2021年全球AI训练数据市场需求约为42亿美元，并预计到2027年这一需求将增长到220亿美元，2021-2027年复合增长率达32%。

数据来源：Cognilytica
中国作为全球人工智能产业增速最快的国家之一，相关数据需求也在快速增长。根据艾瑞咨询的数据，2023年中国人工智能基础数据服务市场规模为45亿元，2028年规模将达到170亿元，年复合增长率为30.4%。

数据来源：艾瑞咨询
（3）数据要素市场蓬勃发展，数据行业迎来更为广阔的发展机遇
党的二十届三中全会对加快构建促进数字经济发展体制和机制，完善数据要素市场制度规则等作出部署，为中国数据要素市场化改革发展指明了方向。2023年国家数据局成立以来，我国坚持推进数据要素市场化配置改革““一条主线”，统筹数字中国、数字经济、数字社会““三个建设”的工作思路，推动数据工作更好服务高质量发展。同时，探索完善数据基础制度体系，加快推进数据基础设施建设，提升数据资源开发和利用水平。国家数据局联合多部门印发“《““数据要素×”经济2024年工作要点》，制定《关于深化智慧城市发展“推进城市全域数字化转型的指导意见》和《数字经济促进共同富裕实施方案》，发布《数字中国发展报告（2023年）》。

全国各地数据要素市场化配置改革也在加速推进。例如，北京市制定2024数据工作要点，在探索和实践数据基础制度先行示范区、人工智能数据训练基地的基础上，提出“一区三中心”的建设总体思路，完善数据基础制度，激发数据要素活力。沈阳市推动数据要素市场化配置改革，探索数据交易服务机制，实施《沈阳市公共数据授权运营管理办法（试行）》，开展公共数据授权运营探索实践。成都市大数据集团探索精准安全的公共数据开发运营新模式，搭建“成都市公共数据运营服务平台”，保障不同市场主体平等获取数据要素，实现数据要素配置效益最大化、效率最优化。广州市出台了《关于更好发挥数据要素作用推动广州高质量发展的实施意见》等文件，通过企业创新实践和举措，有效推动了数据资源向数据资产转化。

总体来看，随着““人工智能+”和““数据要素×”等国家战略行动计划的实施，全国各地均在加速推进数据要素市场化配置改革，未来围绕数据的汇聚、生产加工、开发利用以及流通交易，将产生大量需求，将为数据行业开拓新的增长空间。未来，数据产业将成为数字经济高质量发展的新引擎，预示着一个以数据为关键要素的新时代的到来。

（4）训练数据领域的未来发展更为可期
随着ChatGPT、Gemini、Sora等成为全球范围内的现象级应用，人工智能迎来了新的发展机遇，其背后的大模型技术也正在带来相关数据需求的变化和增长。

a.大模型范式下，数据需求体量指数级增长
相比于传统深度学习，大模型参数量更大，能够更充分捕捉数据之间的复杂关联，具备更强的学习能力，类比于人脑内的神经元和突触之间连接和信息传递机制变得更为活跃，使得“脑力/智商”骤增，具备学习和理解海量复杂数据的能力，因此，大模型通常会被喂给海量数据以充分发挥““大脑”优势。传统深度学习技术路线下，训练一个专有小模型大约需要GB级数据，而训练一个大模型通常需要TB到PB级数据。

此外，数据需求的体量还在持续增长。模型的训练效果由模型参数、训练数据量以及计算资源共同决定，在参数和算力供给不变的情况下，提升训练数据量，可以有效提高模型的训练效果。

这一结论也持续在各大模型上得到验证，例如，2024年上半年字节跳动发布的语音生成大模型Seed-TTS，其生成的语音和真人相似性极高，甚至可以模拟人类的停顿、吞字等发音习惯。产品研发人员表示，该模型之所以具备较强的复刻效果，除了模型参数上的调整，一个很重要的因素就是加大了数据使用量，之前业界所使用的语音合成数据在成千至上万小时，而Seed-TTS所用的数据量级远大于之前。

b.大模型技术的发展催生出新型数据处理需求
大模型和深度学习模型在学习和训练方式的区别，导致大模型范式下的训练数据与传统深度学习训练数据处理方式存在显著差异：
（1）数据处理由感知转向认知:传统深度学习更加强调事实性标注（具有单一标准答案），而大模型往往需要标注人员进行联想和创作（强调发散思维）。以计算机视觉标注为例，过往面对一张景观图片，标注人员只需标注出哪个是山、哪个是湖，而现在则需要对图片进行更丰富的多种维度描述，以帮助模型理解图片含义。

（2）数据处理环节进一步延展：传统的深度学习模式下，由于数据来源大部分为定向采集，数据采集前已经过专家设计，因此除部分质量较差的数据，剩余数据均可直接送往进行标注，清洗等预处理需求较低；相对而言，大模型由于原料数据规模庞大，数据中存在大量重复、偏见以及错误信息，往往需对数据进行专业化清洗，以提升数据质量并减少大模型幻觉（即生成与现实不符或无意义的内容）的发生概率。此外，相比于传统模型的训练模式，大模型往往会使用强化学习的方式来对基础模型进行特定领域或特定方向上的优化迭代，使得模型能够输出更符合人类认知和表达习惯的答案，因此，衍生出RLHF数据评分、Prompt改写、创作等强化学习阶段数据需求。

（3）更加注重智能化标注：相较于传统深度学习，大模型训练数据体量呈指数级增长，传统人工为主的标注方式无法满足大模型数据处理量大、数据质量要求高等数据处理需求，因此，大模型数据服务将更加依赖算法的参与，需要通过提高算法能力及参与度来提升数据处理的智能化、自动化水平，实现高质高效的数据供给。

c.人工智能技术加速向产业渗透，带动垂直行业数据需求的显著提升随着算法技术的持续进步，人工智能在模拟人类的感知与认知方面达到了前所未有的水平。

技术的飞跃不仅巩固了AI作为跨行业赋能工具的地位，还加快了其在各个领域的应用步伐。目前，人工智能正在迅速融入包括金融、医疗、法律等在内的多个垂直领域，推动相关行业的创新和转型。

与以往通用数据处理需求不同，垂向领域的数据处理更加注重专业性。例如，传统的自然语言处理任务只包括基本的文本处理工作，例如，分词、词性、情感、正则化等标注需求，这些任务无需标注人员具有特定的行业知识；相对地，开发专门针对医疗领域的自然语言处理模型，则要求标注人员不仅具备扎实的医疗专业知识，还要能够熟练使用专业的医疗术语进行文本的表达和创作，从而使医疗模型能够理解和生成专业的医疗内容。这种专业化的需求也对数据服务商提出了更高的要求，数据服务商不仅要对行业有深刻的理解，以设计出符合行业需求的数据解决方案，还需要具备更丰富的专家库储备，以提供高质量的数据标注服务以及相关专业咨询服务。

d.多模态技术发展驱动多模态数据需求快速增长
根据艾瑞研究报告，相比单一模态的大模型，多模态大模型能够提供更自然的人机交互方式，具备更全面和准确的认知能力，并在不同情境下表现出更高的鲁棒性，从而赋能更丰富和全面的AI应用。因此，多模态技术已成为诸多大模型厂商的研发重点，同时也将驱动多模态数据需求占比的持续提升。过往，以文本为主要代表的单模态大模型预训练数据主要来源为公开数据、开源数据等可公开获取的数据。进入多模态时代后，可公开获取的多模态数据（例如，语音数据、视频数据等）在质量上，往往很难满足模型训练需求。例如，以文生图、文生视频为应用场景的大模型为例，当前公开能获取的数据往往是图片和简单的关键词的匹配，而缺乏对图片中物理关系的详细描述，但后者恰恰是决定了这些多模态生成大模型是否能够准确理解和描述物理世界的关键因素。此外，多模态数据种类更为庞杂，数据清洗、分类以及标注难度指数级提升，数据处理工作具有更强的专业性。例如，Stability“AI在训练其视觉大模型SVD“（Stable“Video“Diffusion）时，使用了一个包含1.5亿个剪辑视频的数据集。为了筛选适合训练的高质量数据，需要从海量视频数据中检测每个视频中的镜头和转场，并且需要分析每个镜头中的运动信息，为每个镜头提供对应的文字以及美学效果描述。因此，多模态数据处理过程更加复杂和耗时，模型厂商更倾向于将相关数据需求释放给专业的第三方数据服务商。未来，具备多模态数据服务能力，以及多模态数据集储备的企业将获得更多市场机会。

e.人工智能企业全球化布局加速，多语种能力成为数据服务商全球拓展的核心支撑之一共建“一带一路”的倡议面世十多年来，国家“一带一路”战略深入推进，国内一批具有较强创新能力和过硬技术实力的企业，纷纷踏出国门，积极拓展海外市场，通过不断扩大企业出海战略版图，获得高速发展机会。另一方面，境外头部企业也继续践行“全球化”战略，搭乘全球出海的快车。

随着境内、外企业的全球化扩张成为确定性趋势，多语种能力作为支撑企业顺利出海的核心要素之一，重要意义更加凸显。未来，多语种训练数据将对客户侧在语音助手、智能汽车、智能家居、智能客服、机器人、多语种OCR等各领域产品/应用的全球化推广将起到积极作用。因此，随着各类客户群体扩张步伐加速，多语种需求也将快速增长，具有强大语言研究能力的数据服务企业将获得更多商业机会。

f.国家法律法规密集落地，对数据安全及合规提出更高要求
近年来，数字经济规模快速扩张，数据作为数字经济时代核心生产要素，重要性更加凸显，但数据不同于传统生产要素，其中可能涉及关乎个人权益的个人信息以及关乎国家安全的重要数据，因此，为更好保障数字经济长期稳定的可持续发展，建设规范、安全、合规、高质量的数据安全体系已成为迫切需求。近年来，国家陆续出台包括《数据安全法》、《个人信息保护法》等主流法律法规，以及《促进和规范数据跨境流动规定》等具体规范，为加强数据安全保障、净化行业快速发展中的不良乱象提供了切实可行的法律依据。

未来，随着AI技术不断革新，应用行业以及场景不断增加，各行业、各领域数据安全规范逐渐落地将成为趋势，对于以数据生产为主营业务的数据服务企业，数据安全及合规能力将成为数据服务能力的核心评价维度，成熟的安全合规管理体系将成为重要评价标准，能持续跟踪法律环境变化，积极响应监管政策，牢牢把握发展与安全并重的原则的企业将具有更强的市场竞争力。

1.2 行业的主要技术门槛
随着AI技术不断演进、产业应用不断丰富，训练数据的市场需求呈现体量、难度、复杂性持续上升的趋势，数据服务商须同时具备对人工智能核心算法的理解能力、前瞻性的专业数据集设计能力、丰富的语言覆盖能力及场景采集能力、算法辅助数据生产能力等，这使得行业的技术门槛持续提升，具体体现为：
（1）在训练数据研发、生产全流程中的算法全面介入
随着 AI技术的不断演进以及应用场景的不断拓展，客户对于数据质量和处理效率的要求不断提升，数据服务商须在数据设计、生产中引入算法以实现高效的人机协作，进而实现降本增效的目标。一般而言，算法技术可用于训练数据集的设计及训练数据生产的各个环节，例如调度不同类型的标注人员应对不同领域的任务、形成算法自动处理能力以帮助标注人员提升效率、降低人员依赖，并构建训练数据设计、加工相关的核心技术；也可用于检查训练数据集对算法模型的训练效果，进而保障训练数据集质量。

（2）平台工具链功能及适配性要求持续提升
当前，客户侧的数据采集、标注需求范围在逐渐拓宽，数据采集与标注需满足的AI应用场景比以往明显更加广泛、复杂，这就对数据服务商的平台工具能力提出了更高要求，平台上处理过多大规模的数据、这些处理过的数据的多样性和复杂程度如何、算法引擎投票机制如何建立、置信区间如何设置、算法在平台中如何应用、数据流转的工程化程度如何等这些因素都决定了平台的适配性和能力，并最终决定了数据处理的质量、效率、成本。

（3）语音语言学基础研究方面须有深厚积累
伴随语音技术进一步成熟、并向更多行业和垂直场景进行渗透，同时受到中国企业出海、国外企业区域拓展等需求支撑，客户在多语种、多音色、音素集、发音规则、发音词典等方面的需求在不断抬升。而多语种数据生产依赖大量的语音语言学基础研究，投入更多、拥有深厚积累的数据服务商才能满足客户在这方面的多元化需求。

目前，市场上仅有极少数企业通过长期自主研发的方式能够达到上述核心技术门槛，成为有能力向不同客户群体提供综合、高质量、高效的数据产品及服务的供应商。

2. 公司所处的行业地位分析及其变化情况
作为行业的头部阵营企业，海天瑞声在经营情况、技术实力、以及以数据安全为代表的其他综合能力方面都展示出明显优势，并具有较强国际竞争力。近年来公司紧跟AI技术发展趋势，尤其关注在客户资源、技术实力、产品/服务等方面的竞争优势，树立国内领先基础数据服务商的品牌形象，以巩固公司的行业领先地位。与同行业国内外竞争对手的对比情况及优势体现如下：

公司	海天瑞声	Appen	数据堂	标贝科技
基本经营情况
公司	海天瑞声	Appen	数据堂	标贝科技
成立年份	2005年	1996年	2010年	2016年
市场地位概述	是我国最早从事训练数据研发销售的企业之一；国内首家且是目前唯一一家A股上市的人工智能训练数据服务企业	较早从事数据资源开发的数据资源产品服务提供商，经营历史较长，规模体量较大	新三板挂牌企业，是国内较早从事数据交易、数据采标的服务商之一	-
员工数量	228人	1,037人（截至2023年 12月31日）	290人（截至2023年 12月31日）	未公开披露
主要客户情况	大型科技公司，如阿里巴巴、Meta、腾讯、百度、字节跳动、微软、三星等；人工智能企业，如科大讯飞、商汤科技、云知声、海康威视等；科研机构，如中国科学院、清华大学、中国科学技术大学等	微软、亚马逊、甲骨文、谷歌、百思买、 Salesforce等大型科技公司、汽车厂商、零售集团及政府等	百度、腾讯、阿里巴巴、奇虎 360、联想、科大讯飞等国内互联网和高科技企业，微软、NEC、 Canon、Intel、 Samsung、 Fujitsu等企业及在华研发机构	微软、百度、阿里、腾讯、京东、滴滴、字节跳动、网易、 360、三星、小鹏、美的、中科大、中电科、中国银行等
客户数量	超过1,000家	未公开披露	未公开披露	600余家
技术研发及产品能力
技术实力概述	海天瑞声拥有自主研发的一体化数据处理平台，所提供	Appen拥有人工智能辅助数据注释平台，可为企	拥有人工智能数据与生产服务平台，可提供数据	拥有语音合成模型和算法，通过算法+专业的人工
公司	海天瑞声	Appen	数据堂	标贝科技
	的训练数据涵盖智能语音、计算机视觉、自然语言等多个AI核心领域。公司可提供数据定制服务（采集、标注等）、人工智能数据集产品、人工智能数据处理平台私有化部署服务、 Saas服务等。采集范围遍及全球超过100个国家。	业提供AI生命周期所需的大模型、图像、文本、语音、音频和视频的全栈式采集和标注服务和解决方案。在全球170多个国家与100多万名专业承包商合作。	定制服务、人工智能数据集产品、人工智能数据处理平台私有化部署服务，数据采集范围遍及全球50多个国家。	数据处理方式，为客户提供优质的语音合成服务。拥有TOBI“ 标注体系，通过自主研发的TTS 评测系统，为客户提供高质量的数据服务。
应用领域	个人助手、语音输入、内容生成、机器人、智能驾驶、智慧医疗、智慧教育等22种创新应用场景	科技、汽车、金融服务、零售、医疗健康和政府	智能驾驶、智能客服、智能制造、新零售、智能医疗等	自动驾驶、智能客服、智慧金融、媒体娱乐、有声阅读、智能硬件等
拥有的成品训练数据集数量	超过1,650个	700余个	474个	188个
语种/方言覆盖能力	超过205个	290余个	100余个	10余个
已取得专利授权	37项（35项发明专利、1项实用新型专利及1项外观设计专利）	4项	36项	20项
计算机软件著作权数量	173项	6项	225项	33项
公司	海天瑞声	Appen	数据堂	标贝科技
综合能力
数据安全能力	乙级测绘资质；“ ISO27001“信息安全管理体系认证、 ISO27701隐私信息管理体系认证；信息系统安全等级保护三级；中国信通院数据安全推进计划成员单位；数据知识产权登记	未公开披露	乙级测绘资质；质量管理体系认证、ISO27001“信息安全管理体系认证、ISO27701 隐私信息管理体系认证、CMMI成熟度3级认证、职业健康安全管理体系认证（中/ 英）；武器装备质量管理体系认证；数据知识产权登记	ISO27001信息安全管理体系认证、ISO9001信息安全管理体系认证、ISO27701 隐私信息管理体系认证、 ISO27017云服务信息安全管理体系认证、 ISO27018公有云中保护个人身份信息的信息安全管理体系认证、国家信息安全等级保护二级
资质荣誉	国家高新技术企业、国家专精特新 “小巨人”企业、 “北京市企业技术中心”、工信部 “新一代人工智能产业创新重点任务揭榜优胜单位”、等多个国家或市级重要奖项、北京数字经济企业100 强、第一批入选北京市通用人工智能产业创新伙伴计	不适用	国家高新技术企业、国家及北京市专精特新“小巨人”企业、北京市科技型中小企业、中国自动化学会CAA科技进步一等奖	国家高新技术企业、北京市专精特新“小巨人” 企业、中关村高新技术企业及双软企业、优秀服务机器人企业奖
公司	海天瑞声	Appen	数据堂	标贝科技
	划、福布斯中国- 人工智能科技企业

注1：Appen、数据堂、标贝科技数据：除特别标注外，均为2024年1-6月/截至2024年6月30日数据，前述公司官网及公开披露信息；国家知识产权局中国及多国专利审查信息查询平台（https://www.cnipa.gov.cn/）、中国版权保护中心CPCC微平台等公开信息查询渠道及第三方机构查询信息。

注2：海天瑞声数据：均为2024年1-6月/截至2024年6月30日数据。

（二）主营业务情况说明
公司主要从事 AI训练数据的研发设计、生产及销售业务。公司通过设计数据集结构、组织数据采集、对取得的原料数据进行加工，最终形成可供 AI算法模型训练使用的专业数据集，通过软件形式向客户交付。

自 2005年成立以来，公司始终致力于为 AI产业链上的各类机构提供算法模型开发训练所需的专业数据集。经过多年发展，公司已成为人工智能基础数据服务领域具有较强国际竞争力的国内头部企业，并实现了标准化产品、定制化服务、相关应用服务全覆盖。公司所提供的训练数据涵盖智能语音（语音识别、语音合成等）、计算机视觉、自然语言等多个核心领域，全面服务于人机交互、智能家居、智能驾驶、智慧金融、智能安防等多种创新应用场景。

公司的产品和服务已获得阿里巴巴、腾讯、百度、科大讯飞、海康威视、字节跳动、微软、亚马逊、三星、中国科学院、清华大学等国内外客户的认可，应用于其研发的个人助手、智能音箱、语音导航、内容生成、搜索服务、短视频、虚拟人、智能驾驶、机器翻译等多种产品相关的算法模型训练过程中。目前公司客户累计数量超过 1,000家，覆盖了科技互联网、社交、IoT、智能驾驶、智慧金融等领域的主流企业，教育科研机构以及部分政企机构。

图：公司产品服务矩阵示意
（三）主要产品及服务情况
1. 主要产品及服务按业务类型分类
公司研发、生产的训练数据覆盖了智能语音、计算机视觉及自然语言处理三大 AI核心领域，广泛应用于算法模型的开发、训练、优化、应用场景拓展等环节。此外，公司还提供与训练数据相关的应用服务。

（1）智能语音
人工智能在语音领域的应用技术主要包括语音识别、语音合成等。

语音识别（Automatic Speech Recognition，ASR）是让机器能够“听懂”人类语音的技术，它能使机器自动将语音信号转换为对应的文本信息。

语音合成（Text to Speech，TTS）是让机器能够“说出”人类语音的技术，它使机器能将文字信息转化为流畅的语音“朗读”出来，相当于给机器安上了人工嘴巴。

以日常生活中的情景为例，语音输入法、即时通讯软件运用了语音识别技术将用户输入的语音实时转换为文字，实现了软件“听懂”语音并“听写”出文字的效果；而地图、导航软件则运用语音合成技术，实现了软件“发声说话”的效果，为用户提供即时语音导航。

公司通过设计（设计训练数据集结构、供发音人朗读录制的语料文本或对话场景、发音人分布、录音设备场景等）、采集（定义合适的发音人、选取录音设备及软件、组织发音人朗读录制音频）、加工（对音频文件进行切分、标注各类声音特征，形成带时间戳和特征标签的文本和标注文件等）、质检（对数据集进行质量检测，如音字一致性、标注准确率检查等）等训练数据集生产环节；或者针对客户提供的原料音频文件执行加工、质检工作，最终形成客户所需的智能语音训练数据集。

（2）计算机视觉
计算机视觉（Computer Vision，CV）是使机器具备“看”的功能的技术，它使得智能驾驶、智能家居、手机、安防设备等机器能够代替人眼对目标进行识别、跟踪和测量等。

以日常生活中的情景为例，在汽车的自动驾驶功能中，计算机视觉技术使得汽车能够“看见”并识别行车过程中的各种行人、路况场景，为后续作出相应的反应奠定基础；在机场、车站安检中，计算机视觉技术使得人脸识别设备能够识别被检验人员是否为其出示的身份证件显示的人员。

公司通过设计训练数据集结构、采集（如定义合适的人脸、动作、场景作为采集对象，组织被采集人按照要求拍摄照片、录制视频等）、加工（对图像、视频文件进行打点、拉框、分割标注等）、质检（对数据集进行质量检测，如检验图片、视频文件格式是否正确，检查光照环境、物体种类的数量是否达标，打点标框的准确率是否符合要求等）；或者对客户提供的图像、视频文件执行加工、质检工作，最终形成客户所需的计算机视觉训练数据集。

（3）自然语言处理
自然语言处理（Natural Language Processing，NLP）是以机器能够像人一样理解语言意图的技术。

以日常生活中的情景为例，寄送快递时使用的“智能填写”功能即运用了自然语言处理技术，在输入框中填入整段联系信息，软件应用能够理解语义，并从中识别及提取“收件人”、“联系方式”、“地址信息”等所需信息，完成自动填写；智能客服、聊天机器人等人机交互程序也运用了自然语言处理技术，使得程序、机器能够读懂人类语言的真正意图，并相应做出反应、提供服务等。

公司通过设计训练数据集结构、采集（收集或编写自然语言文本、对话等数据信息）、加工（对自然语言文本数据进行单词分割、词性标注、语义语法标注、情感属性标注等）、质检（对数据集进行质量检测，如检验文本、词性或者语义的标注结果是否准确等）；或者对客户提供的自然语言文本执行加工、质检工作，最终形成客户所需的自然语言训练数据集。

（4）训练数据相关的应用服务
公司基于自身生产的训练数据提供算法模型相关的训练服务，运用训练数据研发能力助力下游客户完成其算法模型的语言拓展、特定算法模块拓展、垂直应用领域拓展等，为客户定制针对特定应用场景的专属算法模型，提高 AI技术应用效果。

前述产品、服务均以公司生产的专业训练数据集为核心或基础。公司通过设计训练数据集结据集。成品训练数据集主要由数据文档、说明文档、技术文档三部分构成。以智能语音训练数据集为例，成品训练数据集包含原始采集形成的音频文件、与音频文件对应的带有时间戳的标注文件，训练数据集相关的设计文档、训练数据集说明，发音词典，数据集参数信息文件等，图示如下：图：训练数据集结构（智能语音）示例 2. 主要产品或服务的终端应用场景公司提供的高质量、大规模、结构化的训练数据，为算法模型的训练拓展提供了可靠的训练素材，助力 AI技术实现实践应用及商业化落地，赋能 AI技术与实体经济深度融合。公司提供的训练数据广泛应用于众多主流 AI产品及终端应用的训练过程中，覆盖了个人助手、语音输入、内容生成、智能家居、机器人、语音导航、智能客服、智能播报、语音翻译、移动社交、虚拟人、智能驾驶、智慧医疗、智慧教育、智慧交通、智慧城市、智慧金融、机器翻译、智能问答、信息提取、情感分析、OCR识别等多种应用场景。图：训练数据集服务的算法模型应用场景示意（四）主要经营模式 1. 盈利模式与主要产品及服务类型对应，公司的盈利模式主要包括以下三类：（1）定制服务：公司根据客户需求提供定制训练数据集并收取服务费。在此种模式下，公司享有服务费收入，不享有最终生成的训练数据的知识产权，不可将此类业务生产的训练数据向其他客户重复销售。（2）标准化产品：公司开发自有知识产权的训练数据集产品，通过销售训练数据集产品的使用授权许可，获取让渡资产使用权收入。此类训练数据集一经开发完成，可多次销售并获取授权许可收入。（3）训练数据相关的应用服务：公司基于生产的训练数据提供算法模型相关的模型拓展及训练服务，通常以软件授权或软硬件一体化形式交付算法模型拓展、开发成果，获取让渡资产使用权收入和技术服务收入，以及少量硬件销售收入。 2. 生产或服务模式（1）训练数据集生产模式公司通过设计训练数据集结构、组织原料数据采集、对取得的原料数据进行加工，最终形成可供算法模型训练使用的专业数据集。图：训练数据生产过程示意图
公司的训练数据生产过程主要包括四个环节：设计（训练数据集结构设计）、采集（获取原料数据）、加工（数据标注）及质检（各环节数据质量、加工质量检测）。

（2）训练数据相关的应用服务模式
公司基于其生产的训练数据提供算法模型相关训练服务，助力下游客户完成其算法模型的语言拓展、特定算法模块拓展、垂直应用领域拓展等，为客户定制针对特定行业和口音的专属算法模型，提高AI技术应用效果。

以某大型科技公司客户项目为例，客户研发了特定语音识别算法模型，需要根据算法模型的实际场景（如法院庭审场景）开发落地应用。公司承担了部分落地应用拓展相关的开发工作，围绕客户的算法模型和接口开发，最终协助客户算法模型实现多个麦克风收集庭审语音内容并实时转成文字记录入系统的功能。

3. 采购模式
按照采购的内容及主体划分，公司的采购包括：
数据服务采购：公司在数据采集、加工环节中，向人力资源服务等类型的公司等供应商采购的，非核心技术环节的原料数据采集、标注服务。

岗位服务采购：主要针对临时性的、不设长期岗位的业务领域的外包采购，如保洁、临时招聘服务、少量实习生招聘等。

其他采购：（1）训练数据生产所需的资产，主要包括软、硬件设备及其他需求物品采购；（2）日常运营所需的资产及物品，如办公用房、车辆、办公家具、计算机设备等；（3）日常专项服务采购等，主要包括审计服务、会议服务、差旅服务等。

上述原料数据采集、加工环节所涉及的数据服务采购，为公司最主要的采购类别，由集采中心负责；各部门岗位服务采购由人力资源部负责；其余日常运营相关的资产物品采购、专项服务采购等非业务采购由集采中心负责。财务中心负责参与采购供应商的遴选、监督与管理，并对采购费用进行核算及结算。

经过多年的发展，公司已经建设有完善的《海天瑞声采购管理制度》、《海天瑞声项目资源采购管理制度》、《海天瑞声供应商管理制度》、《海天瑞声岗位服务采购管理制度》等内部规范制度，设立有完善的采购流程和体系，并与主要的供应商形成了良好稳定的长期合作关系。

4. 营销模式
公司采用直接对接并服务客户的直销模式进行营销，符合行业通行惯例。公司以高质量的训练数据集及相关服务吸引客户，并在持续服务客户的过程中提升服务价值和客户黏度。公司通过直接拜访潜在客户、参与学术会议和行业展会新产品发布、搭建并持续升级公司官方网站和建立自媒体矩阵等方式提升品牌知名度、开拓新客户，后续再通过商务谈判、招投标等形式获取具体业务机会。

二、核心技术与研发进展
1. 核心技术及其先进性以及报告期内的变化情况
公司高度重视并坚持科技创新，通过持续的研发投入积累形成了12项核心技术，覆盖基础研究、平台工具、训练数据生产三个层次，应用于训练数据生产的设计、采集、加工、质检全流程之中；按照从底层自下而上的顺序对上述三个层次的核心技术情况介绍如下：图：各层次核心技术示意图
上述核心技术构成了公司生产经营的基础，通过上述核心技术的成果转化，公司形成了基于核心技术的训练数据相关产品和服务。具体如下表所示，其中5项核心技术具备较高技术壁垒（下表中以★标示）：

核心技术层次	核心技术	核心技术项下的细分技术示例	核心技术在训练数据生产中的应用环节
			设计	采集	加工	质检
基础研究	语音识别算法	语音数据库质量预估技术、语音识别系统评测技术	√	√	√	√
	语音合成算法	语音合成数据库评估技术、说话人自适应语音合成技术、语音合成系统评测技术				√
	计算机视觉算法	人脸检测和识别技术、物体识别技术、光学字符识别技术、场景分割技术、运动轨迹跟踪技术、3D点云目标检测技术、 3D点云语义分割技术			√	√
	★语音语言学基础研究	基于词典与模型的发音预测技术	√
	训练数据集设计技术	多语种文本正则化技术、基于语言模型的文本易读性评测技术、多语种情感及领域分类技术	√
平台工具	一体化数据处理平台	基于C/S架构和B/S架构的大规模语音处理平台，基于C/S 架构的音素标注技术，多语言分布式文本处理技术，基于 C/S架构和B/S架构的文本标注技术，基于C/S架构和B/S 架构的图像标注技术，基于 B/S架构的3D点云标注技术，大规模数据采集及标注平台	√	√	√	√
核心技术层次	核心技术	核心技术项下的细分技术示例	核心技术在训练数据生产中的应用环节
			设计	采集	加工	质检
训练数据生产	★多语种多模态训练数据设计技术	多语种语料清洗技术、多语种语音库设计技术、多语种音素均衡语料设计技术、混合语言语料设计技术	√
	多模态多通道数据采集技术	多通道录音技术、移动设备上的语音采集技术、分布式图片内容分析技术、移动设备上的图片采集技术、多语言手写体数据采集技术、多模态数据采集技术		√
	★数据同步技术	音频对齐技术			√
	实时采集质控技术	语音信号质量检测技术		√		√
	★大数据驱动的高效数据处理技术	多语种拼写检查技术、视频流中特定帧定位技术、音素边界自动预测技术、基于语音特征的韵律预测技术、基于CRF的韵律预测技术、基于HMM/CRF 的词性预测技术、基于CRF的命名实体识别技术、2D障碍物自动检测和跟踪技术、2D车道线自动检测技术、3D点云自动贴合技术、3D点云障碍物自动检测和跟踪技术			√
	★分布式高性能自动校验技术	音素标注正确率校验技术、相似说话人自动筛查技术、音字一致校对技术				√

（1）基础研究层面，报告期内，公司持续在智能语音、计算机视觉、自然语言、以及包括智能驾驶为代表的垂直领域进行技术拓展，并有多项核心技术取得显著进展。例如，在基础算法研究方面，新增数十个基础模型，包括巴什基尔语、卡纳达语、林加拉语等多个ASR语音识别模型、语音无监督数据自动清洗模型、2D-3D融合连续帧交通目标检测模型、3D点云地面自适应检测模型、图片美学评分模型等众多模型；同时完成了多个现有模型的优化升级，3D点云目标检测算法准确率提升10%以上、3D点云跟踪算法准确率提升20%以上；大模型算法与应用研发领域内，探索语音大模型所需要的无监督训练数据自动清洗技术、视觉大模型所需要的图文对数据标注技术在数据自动化处理领域内的应用，并利用LLM大模型完成中文发音预测算法升级，准确率提升20%以上。

（2）平台工具层面，持续提升了标注平台对智能驾驶领域前沿算法所需的数据标注服务支撑能力。实现了千万级大规模点云语义分割的技术难点突破与落地，完成了多项4D标注相关平台能力升级，并重点优化了点云语义分割和2D-3D融合连续帧点云标注平台的能力，创新性地设计并实现了点云动静态目标物多帧协同标注套件，大幅提升标注效率。重构了包括副语言标注、打点标注、音素边界标注等在内的多项标注流程，实现了高精度实时语音流线上化处理与可视化渲染，进一步扩展了平台多模态数据融合标注工具能力。

（3）训练数据生产层面，重点建设了高性能多源、多维度实时大数据分析系统，实现项目管理数据的交互式智能探查与分析，提升数据透明度，优化了数据同步技术与实时采集质控技术的自动检测与错误报告机制，扩展了算法在实时交互式标注与质检中的应用场景，增强了对多语种、多模态数据支持，进一步提升公司训练数据生产的精细化、智能化管理。

以上技术突破均将对更广泛人工智能数据服务产生积极影响。报告期内，公司新申请软件著作权5项。具体见第三节“管理层讨论与分析”二、“核心技术与研发进展”之“报告期内获得的知识产权列表”。

国家科学技术奖项获奖情况
□适用 √不适用

国家级专精特新“小巨人”企业、制造业“单项冠军”认定情况
√适用 □不适用

认定主体	认定称号	认定年度	产品名称
北京海天瑞声科技股份有限公司	国家级专精特新“小巨人”企业	2020年（2023年复审通过）	/

2. 报告期内获得的研发成果
报告期内，公司新申请软件著作权5项。截至2024年6月30日，公司共获得专利授权37项，获得登记的软件著作权173项。

报告期内获得的知识产权列表

	本期新增		累计数量
	申请数（个）	获得数（个）	申请数（个）	获得数（个）
发明专利	0	0	36	35
实用新型专利	0	0	1	1
外观设计专利	0	0	1	1
软件著作权	5	0	178	173
其他	0	0	65	64
合计	5	0	281	274

3. 研发投入情况表
单位：元

	本期数	上年同期数	变化幅度（%）
费用化研发投入	26,673,210.96	32,213,644.59	-17.20
资本化研发投入
研发投入合计	26,673,210.96	32,213,644.59	-17.20
研发投入总额占营业收入比例（%）	28.86	43.26	减少14.40个百分点
研发投入资本化的比重（%）

（未完）