[中报]海天瑞声(688787):海天瑞声2023年半年度报告

时间：2023年08月30日 18:07:55 中财网

原标题:海天瑞声:海天瑞声2023年半年度报告

公司代码：688787 公司简称：海天瑞声

北京海天瑞声科技股份有限公司
2023年半年度报告

重要提示
一、本公司董事会、监事会及董事、监事、高级管理人员保证半年度报告内容的真实性、准确性、完整性，不存在虚假记载、误导性陈述或重大遗漏，并承担个别和连带的法律责任。

二、重大风险提示
公司已在本报告中详细描述可能存在的风险，敬请查阅第三节“管理层讨论与分析”之五“风险因素”部分，请投资者注意投资风险。

三、公司全体董事出席董事会会议。

四、本半年度报告未经审计。

五、公司负责人贺琳、主管会计工作负责人吕思遥及会计机构负责人（会计主管人员）杨韩声明：保证半年度报告中财务报告的真实、准确、完整。

六、董事会决议通过的本报告期利润分配预案或公积金转增股本预案无

七、是否存在公司治理特殊安排等重要事项
□适用 √不适用

八、前瞻性陈述的风险声明
√适用 □不适用
本报告中所涉及的未来计划、发展战略等前瞻性陈述，不构成本公司对投资者的承诺，敬请投资者注意投资风险。

九、是否存在被控股股东及其他关联方非经营性占用资金情况
否

十、是否存在违反规定决策程序对外提供担保的情况？
否

十一、是否存在半数以上董事无法保证公司所披露半年度报告的真实性、准确性和完整性
十二、其他
□适用 √不适用

目录
第一节释义..................................................................................................................................... 5
第二节公司简介和主要财务指标 ................................................................................................. 9
第三节管理层讨论与分析 ........................................................................................................... 13
第四节公司治理 ........................................................................................................................... 53
第五节环境与社会责任 ............................................................................................................... 56
第六节重要事项 ........................................................................................................................... 58
第七节股份变动及股东情况 ....................................................................................................... 96
第八节优先股相关情况 ............................................................................................................. 106
第九节债券相关情况 ................................................................................................................. 107
第十节财务报告 ......................................................................................................................... 108

备查文件目录	载有公司负责人、主管会计工作负责人、会计机构负责人（会计主管人员）签名并盖章的财务报表。
	报告期内公开披露过的所有公司文件的正本及公告的原稿。

第一节释义
在本报告书中，除非文义另有所指，下列词语具有如下含义：

常用词语释义
本公司、公司、海天瑞声	指	北京海天瑞声科技股份有限公司
控股股东、实际控制人	指	贺琳
中瑞智	指	北京中瑞智科技有限公司，为公司的全资子公司
中瑞安	指	北京中瑞安投资中心（有限合伙），为公司股东
中瑞立	指	北京中瑞立投资中心（有限合伙），为公司股东
安徽瑞天数智	指	安徽瑞天数智科技有限公司，为公司的全资子公司
山西瑞天数智	指	山西瑞天数智科技有限公司，为公司的全资子公司
香港海天瑞声	指	海天瑞聲（香港）科技有限公司，为公司的全资子公司
INFINITY AI CORPORATION	指	INFINITY AI CORPORATION，为香港海天瑞声的全资子公司
创世联合	指	北京创世联合投资管理有限公司，为北京中瑞安投资中心（有限合伙）普通合伙人、执行事务合伙人
中移投资	指	中移投资控股有限责任公司，为公司的股东
清德投资	指	北京清德投资中心（有限合伙），为公司的股东
上海丰琬	指	上海丰琬投资合伙企业（有限合伙），为公司的股东
中网投	指	中国互联网投资基金（有限合伙），为公司的股东
Appen	指	Appen Limited，是一家成立于澳大利亚的训练数据产品和服务提供商
数据堂	指	数据堂(北京)科技股份有限公司
标贝科技	指	标贝（北京）科技有限公司，是一家国内同行业的训练数据产品和服务提供商
证监会	指	中国证券监督管理委员会
上交所	指	上海证券交易所
工信部	指	中华人民共和国工业和信息化部
《公司法》	指	《中华人民共和国公司法》
《证券法》	指	《中华人民共和国证券法》
《上市规则》	指	《上海证券交易所科创板股票上市规则》
《公司章程》	指	《北京海天瑞声科技股份有限公司章程》
《个人信息保护法》	指	《中华人民共和国个人信息保护法》
《数据安全法》	指	《中华人民共和国数据安全法》
报告期	指	2023年1月1日至2023年6月30日
华泰联合证券	指	华泰联合证券有限责任公司，公司保荐机构、持续督导机构
元、万元、亿元	指	如无特别说明，均以人民币为度量币种
训练数据	指	通过采集与处理等步骤形成的、结构化的、可供人工智能算法模型训练使用的数据
算法	指	解题方案的准确而完整的描述，是一系列解决问题的清晰指令，算法代表着用系统的方法描述解决问题的策略机制
算力	指	计算能力
人工智能（AI）	指	Artificial Intelligence，是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门技术科学
机器学习	指	Machine Learning，是一门专门研究计算机模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身性能的学科
深度学习	指	Deep Learning，机器学习研究中的一个新的领域，其动机在于建立、模拟人脑进行分析学习的神经网络，它模仿人脑的机制来解释数据，例如图像、声音和文本
模型	指	为解决人工智能领域的相应问题，而专门设计的某种算法框架，并通过大量数据训练拟合来调整相应参数，最终得到能解决实际问题的一套算法和参数
引擎	指	是计算机平台上开发相应应用程序或软件系统的核心组件
鲁棒性	指	鲁棒性亦称稳健性、强健性，是指计算机软件/系统在异常和危险情况下生存的能力。例如，计算机软件在输入错误、磁盘故障、网络过载或有意攻击情况下，能否不死机、不崩溃，就是该软件的鲁棒性
智能语音	指	实现人机语言的通信，包括语音识别技术（ASR）和语音合成技术（TTS）
语音识别（ASR）	指	Automatic Speech Recognition，是一种将语音信号自动转换为文本的技术，是实现智能人机交互的关键技术之一
语音合成（TTS）	指	Text to Speech，即“从文本到语音”，是一种将文字智能地转化为自然语音的技术
自然语言/自然语言处理（NLP）	指	Natural Language Processing, 是计算机科学领域与人工智能领域中的一个重要方向，研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法
计算机视觉（CV）	指	Computer Vision，是一门研究如何使机器“看”的科学，是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等
光学字符识别（OCR）	指	是指电子设备（例如扫描仪或数码相机）检查纸上打印的字符，通过检测暗、亮的模式确定其形状，然后用字符识别方法将形状翻译成计算机文字的过程
IoT	指	物联网（IoT，Internet of things）即“万物相连的互联网”，是互联网基础上的延伸和扩展的网络，将各种信息传感设备与网络结合起来而形成的一个巨大网络，实现任何时间、任何地点，人、机、
		物的互联互通
智能驾驶	指	指的是机器帮助人进行驾驶，以及在特殊情况下完全取代人驾驶的技术
虚拟人	指	虚拟人（VirtualHuman）是通过建模、动作捕捉或AI等科技手段，制作出具有外貌特征和行为模式的虚拟形象，并通过显示设备呈现出来。虚拟人创造的价值主要是打破物理的空间限制，提供了更多沉浸感、参与感和互动感
原料数据	指	Raw Data，即未经加工处理的原始数据
采集	指	使用软件工具、录音设备、图像拍摄设备等收集、录制和获取原料数据的过程
标注	指	训练数据的生产步骤之一，指对原料数据进行加工，进而生成符合算法模型训练要求的训练数据的过程
转写	指	通过软件加工、人工听写等手段将语音片段转换为对应的文本的加工步骤
词性	指	以词的特点划分的词类，如名词、代词、动词、形容词、数词、量词等
韵律	指	韵律通常指语音语句中各词之间的停顿时长情况
声纹	指	用电声学仪器显示的携带言语信息的声波频谱
音色	指	声音的特征，指的声音在波形方面具有的与众不同的特性
AIGC	指	AI Generated Content，又叫生成式人工智能，是指是使用机器学习和深度学习算法，从现有数据中学习并生成新内容的一种人工智能技术。它可以生成各种形式的数据，如图像、音频、视频和文本，并在虚拟现实、自然语言处理、艺术创作和模拟实验等领域有广泛应用
GPT-3	指	GPT-3（Generative Pre-trained Transformer 3）是由美国OpenAI 开发的一种自然语言处理模型
ChatGPT	指	美国OpenAI研发的聊天机器人程序，ChatGPT是人工智能技术驱动的自然语言处理工具，它能够通过理解和学习人类的语言来进行对话，还能根据聊天的上下文进行互动，真正像人类一样来聊天交流，甚至能完成撰写邮件、视频脚本、文案、翻译、代码，写论文等任务
Llama	指	Llama是由Meta开发的一款大语言模型
Palm	指	Palm是由Google开发的一款大语言模型
大模型	指	大模型就是Foundation Model（基础模型），指通过在大规模宽泛的数据上进行训练后能适应一系列下游任务的模型
多模态	指	多模态机器学习（Multi-modal Machine Learning）是一种机器学习方法，用于处理多种类型的数据，如图像、文本、音频等。它通过将来自不同模态的数据进行整合和联合建模，以提取和学习不同模态之间的相关信息和特征。多模态数据是指用于多模态机器学习训练使用的跨形态数据类型
人类反馈强化学习/RLHF	指	英文为Reinforcement Learning from Human Feedback，缩写为 RLHF，是一种机器学习方法，旨在使智能系统从环境中学习，通过引入“奖励”和“惩罚”信号，让系统自行探索环境并学习最佳行为
		策略，以最大化某种特定目标
Prompt	指	提示文本，提供模型完成下游任务所需的上下文等信息，以帮助模型更好地理解任务需求，从而更好地完成下游任务
预训练 /Pre- training	指	预训练是通过在大规模数据集上进行初始训练，学习通用特征和表示的机器学习方法。预训练模型可用于后续任务，并在多个领域应用广泛
模型微调/Fine- tune	指	微调，是一种常用于预训练模型的模型优化技术，基于已经训练好的预训练模型进行微调，使模型能够更好地适应目标任务
奖励模型 /Reward Model	指	奖励模型（Reward Model）是在强化学习中使用的一种关键概念。它定义了在特定任务中，智能体所追求的目标和奖励的方式。奖励模型通过指定在智能体采取行动后，所获得的奖励信号来引导智能体的学习和决策过程。奖励模型可以基于任务的目标设定，对智能体的行为进行正向奖励或负向惩罚，从而影响智能体的策略优化和决策选择

第二节公司简介和主要财务指标
一、公司基本情况

公司的中文名称	北京海天瑞声科技股份有限公司
公司的中文简称	海天瑞声
公司的外文名称	Beijing Haitian Ruisheng Science Technology Ltd.
公司的外文名称缩写	DATAOCEAN AI
公司的法定代表人	贺琳
公司注册地址	北京市海淀区成府路28号4-801
公司注册地址的历史变更情况	2012年9月14日，公司地址由北京市海淀区知春路甲48 号3号楼4单元6B变更为北京市海淀区成府路28号4-801
公司办公地址	北京市海淀区成府路28号4-801
公司办公地址的邮政编码	100083
公司网址	www.dataoceanai.com
电子信箱	[email protected]
报告期内变更情况查询索引	/

二、联系人和联系方式

	董事会秘书（信息披露境内代表）	证券事务代表
姓名	吕思遥	张哲
联系地址	北京市海淀区成府路28号4-801	北京市海淀区成府路28号4-801
电话	010-62660772	010-62660772
传真	010-62660892	010-62660892
电子信箱	[email protected]	[email protected]

三、信息披露及备置地点变更情况简介

公司选定的信息披露报纸名称	《中国证券报》《上海证券报》《证券日报》《证券时报》
登载半年度报告的网站地址	www.sse.com.cn
公司半年度报告备置地点	公司董事会办公室
报告期内变更情况查询索引	/

四、公司股票/存托凭证简况
(一) 公司股票简况
√适用 □不适用

公司股票简况
股票种类	股票上市交易所及板块	股票简称	股票代码	变更前股票简称
人民币普通股（A股）	上海证券交易所科创板	海天瑞声	688787	不适用

(二) 公司存托凭证简况
□适用 √不适用

五、其他有关资料
□适用 √不适用

六、公司主要会计数据和财务指标
(一) 主要会计数据
单位：元币种：人民币

主要会计数据	本报告期（1－6月）	上年同期	本报告期比上年同期增减(%)
营业收入	74,460,903.49	114,784,441.98	-35.13
归属于上市公司股东的净利润	-17,241,392.69	19,425,375.66	-188.76
归属于上市公司股东的扣除非经常性损益的净利润	-23,104,588.43	8,239,795.49	-380.40
经营活动产生的现金流量净额	-23,873,756.60	-3,435,381.42	不适用
	本报告期末	上年度末	本报告期末比上年度末增减(%)
归属于上市公司股东的净资产	797,858,485.60	829,522,849.25	-3.82
总资产	826,017,040.18	876,927,792.15	-5.81

(二) 主要财务指标

主要财务指标	本报告期（1－6月）	上年同期	本报告期比上年同期增减(%)
基本每股收益（元／股）	-0.29	0.45	-164.44
稀释每股收益（元／股）	-0.29	0.45	-164.44
扣除非经常性损益后的基本每股收益（元／股）	-0.38	0.19	-300.00
加权平均净资产收益率（%）	-2.10	2.39	减少4.49个百分点
扣除非经常性损益后的加权平均净资产收益率（%）	-2.82	1.01	减少3.83个百分点
研发投入占营业收入的比例（%）	43.26	37.18	增加6.08个百分点

公司主要会计数据和财务指标的说明
√适用 □不适用
（1）报告期内，公司营业收入较去年同期下降35.13%，由11,478.44万元下降至7,446.09万元，主要系受境外部分客户进行阶段性裁员或业务方向调整，导致其预算释放进度放缓，同时叠加数据出境相关法规落地实施的阶段性影响，公司境外收入同比大幅下滑所致。

（2）报告期内，归属于上市公司股东的净利润为-1,724.14万元，实现归属于上市公司股东的扣除非经常性损益的净利润-2,310.46万元，分别较上年同期减少188.76%、380.40%。主要系报告期内，营业收入下滑的同时，为配合整体战略发展及业务拓展目标，公司在营销体系建设、管理架构及激励体系升级方面持续加大投入，叠加新购置办公楼带来折旧费用同比增加，使得管理费用、销售费用大幅增长所致。

（3）报告期内，经营活动产生的现金流量净额为-2,387.38万元，同比减少2,043.84万元。

主要系报告期内，受境外部分客户进行阶段性裁员或业务方向调整，导致其预算释放进度放缓，同时叠加数据出境相关法规落地实施的阶段性影响，公司境外收入同比大幅下滑显著，导致公司整体营业收入同比下降；另外，年初支付上年度已计提奖金，以及为配合公司战略发展及业务拓展目标，公司在管理架构、营销体系建设方面加大投入，相关支出大幅增长所致。

（4）报告期内，基本每股收益、稀释每股收益均较上年同期减少164.44%，扣除非经常性损益后的基本每股收益较上年同期减少 300.00%。主要系报告期内归属于上市公司股东的净利润及归属于上市股东的扣除非经常性损益的净利润降幅明显，同时2023年上半年，公司完成限制性股票激励计划首次授予部分的归属以及资本公积转增股本后，股本总额增加所致。

七、境内外会计准则下会计数据差异
□适用 √不适用

八、非经常性损益项目和金额
√适用 □不适用
单位:元币种:人民币

非经常性损益项目	金额	附注（如适用）
非流动资产处置损益	-112,971.65
越权审批，或无正式批准文件，或偶发性的税收返还、减免
计入当期损益的政府补助，但与公司正常经营业务密切相关，符合国家政策规定、按照一定标准定额或定量持续享受的政府补助除外	1,183,781.73	主要系产业扶持资金补贴等
计入当期损益的对非金融企业收取的资金占用费
企业取得子公司、联营企业及合营企业的投资成本小于取得投资时应享有被投资单位可辨认净资产公允价值产生的收益
非货币性资产交换损益
委托他人投资或管理资产的损益
因不可抗力因素，如遭受自然灾害而计提的各项资产减值准备
债务重组损益
企业重组费用，如安置职工的支出、整合费用等
交易价格显失公允的交易产生的超过公允价值部分的损益
同一控制下企业合并产生的子公司期初至合并日的当期净损益
与公司正常经营业务无关的或有事项产生的损益
除同公司正常经营业务相关的有效套期保值业务外，持有交易性金融资产、衍生金融资产、交易性金融负债、衍生金融负债产生的公允价值变动损益，以及处置交易性金融资产、衍生金融资产、交易性金融负债、衍生金融负债和其他债权投资取得的投资收益	4,778,743.61	公司为提高资金使用效益，购买银行保本浮动收益型理财产品取得的投资收益
单独进行减值测试的应收款项、合同资产减值准备转回
对外委托贷款取得的损益
采用公允价值模式进行后续计量的投资性房地产公允价值变动产生的损益
根据税收、会计等法律、法规的要求对当期损益进行一次性调整对当期损益的影响
受托经营取得的托管费收入
除上述各项之外的其他营业外收入和支出	855,533.40
其他符合非经常性损益定义的损益项目
减：所得税影响额	841,891.35
少数股东权益影响额（税后）
合计	5,863,195.74

对公司根据《公开发行证券的公司信息披露解释性公告第1号——非经常性损益》定义界定的非经常性损益项目，以及把《公开发行证券的公司信息披露解释性公告第1号——非经常性损益》中列举的非经常性损益项目界定为经常性损益的项目，应说明原因。

□适用 √不适用

九、非企业会计准则业绩指标说明
□适用 √不适用
第三节管理层讨论与分析一、报告期内公司所属行业及主营业务情况说明（一）所属行业情况 1. 行业的发展阶段、基本特点、主要技术门槛根据国家统计局《战略性新兴产业分类（2018）》，公司所从事的训练数据生产业务属于“新一代信息技术产业—新兴软件和新型信息技术服务—新型信息技术服务—信息处理和存储支持服务—数据加工处理服务”行业，是国家重点支持的“新一代信息技术领域”的战略性新兴产业。公司通过设计训练数据集结构、执行数据采集、加工处理过程，生产用于算法模型开发训练用途的专业数据集，并以软件形式向客户交付，所属行业为软件和信息技术服务业。 1.1行业的发展阶段、基本特点（1）在全球数字经济发展以及大模型技术的共同驱动下，全球人工智能产业进入新一轮加速发展期当前，新一轮科技革命和产业变革深入发展，数字化转型成为大势所趋，世界主要国家均高度重视发展数字经济，纷纷出台战略规划，重塑数字时代的国际竞争新格局。人工智能作为数字经济发展的底层核心技术之一，正在发挥更加重要的作用。例如，随着数字经济发展的不断深入，数据体量以及复杂度均不断提升，为更好解决产业数字化中数据提取、处理、分析等工作，将会产生更多样化的人工智能需求，人工智能支出也将成为支持企业数字化转型支出的主力因素之一。根据IDC报告，全球范围内，企业在人工智能市场的投资增速将显著高于数字化转型支出（（DX）和GDP增速。数据来源：国际数据公司（IDC）
此外，以ChatGPT为代表的大模型在近期的现象级智能化表现引发行业强烈关注。作为全新的人工智能聊天机器人，在推出两个多月时，ChatGPT全球用户已突破1亿，人工智能通过极具颠覆性的能力再次走入大众视野，并获得了产业界的广泛关注。可以预见，人工智能行业将在以 ChatGPT为代表的大模型技术的推动下进入新一轮产业高速发展期。未来，受益于数字经济政策和大模型技术的双重驱动，人工智能将具备更强的产业融合能力，并将深刻影响千行百业的运行规则，以及人们的生活方式，人工智能产业的发展将随之进入快车道。根据国际数据公司（IDC）的数据，2021年，全球人工智能市场规模为885.7亿美元，预计 2025年将达到2,218.7亿美元，年复合增长率达到26.2%。数据来源：国际数据公司（IDC）
在市场需求拉动和国家政策的支持引导下，当前我国人工智能产业加速发展，已形成基础底层设施、中层技术以及上层应用的完备的产业链生态，一批创新活跃、特色鲜明的创新企业不断涌现，并联合推动中国人工智能产业实现规模增长。根据艾瑞咨询的数据显示，2022年中国人工智能产业规模达1,948亿元，预计2027年市场规模将达到6,122亿元，年复合增长率为25.6%，主要与智算中心建设以及大模型训练等需求拉动的AI芯片市场、无接触服务需求拉动的智能机器人及对话式AI市场等快速增长相关。有望在下游制造、交通、金融医疗等多领域不断渗透，实现大规模落地应用。

数据来源：艾瑞咨询
（2）训练数据作为AI发展和演进“燃料”的作用更加凸显，并逐渐成为大模型竞赛中的重要决定性要素
在AI产业链中，算法、算力和数据共同构成技术发展的三大核心要素。算法模型从技术理论到应用实践的落地过程依赖于大量的训练数据。训练数据越多、越完整、质量越高，模型推断的结论越可靠。过去十年，人工智能产业以算法为核心，通过深度学习算法的不断创新，推动人工智能产业的快速发展。但未来，当算法发展趋于开源、算力能力大幅提升及人工智能模型从技术理论应用到更多的垂直场景，想要更快更好提升人工智能能力，数据将发挥更重要的作用。

尤其在大模型时代下的今天，数据正在被视为大模型落地以及竞赛中重要的决定性要素。在大模型领域，过去业界普遍认为模型参数量是模型效果增强的核心要素，模型参数越大，性能表现越好，而如今这一（“参数”定律正在打破。Meta今年开发的新模型Llama（（Large（Language（Model（Meta（AI）证明，相比于单纯参数量提升，训练数据规模以及多样性的增强，可带来更好的模型效果提升。根据新浪财经报道，Llama-13B虽然在参数规模上相较于GPT-3（（175B）小了十几倍，但由于其大幅提升了训练数据规模（（Llama-13B训练数据量约为GPT-3的3倍），其表现能力在大部分指标上均超越了后者；与此同时，Llama-65B也是凭借数据规模优势，与谷歌5400亿参数的PaLM-540B在表现上旗鼓相当。

可以看出，数据正在逐渐成为大模型时代下的重要推动力量，并产生快速增长的数据需求。根据Cognilytica数据统计显示，2021年全球AI训练数据市场需求约为42亿美元，并预计到2027年这一需求将增长到220亿美元，2021-2027年复合增长率达32%。

数据来源：Cognilytica 中国作为全球人工智能产业增速最快的国家之一，相关数据需求也在快速增长。根据德勤数据，2022年中国人工智能基础数据服务市场规模为45亿元，2027年规模将达到130-160亿元，年复合增长率为23.6%-28.9%。数据来源：德勤
（3）数据要素市场蓬勃发展，数据行业迎来更为广阔的发展机遇
近年来，我国数字经济蓬勃发展，数据要素因具有基础性战略资源和关键性生产要素的双重属性，相关市场规模持续增长。尤其在《中共中央、国务院关于构建数据基础制度更好发挥数据要素作用的意见》出台后，我国系统性布局了数据基础制度体系的（“四梁八柱”，加速了数据流通交易和数据要素市场发展，进一步推动了公共数据、企业数据、个人数据合规高效流通使用。为更好响应中央号召，北京、上海、广州、深圳、杭州等地数据政策陆续出台，逐步构建了多层次、多元化数据要素市场生态体系。

以北京为例，《关于更好发挥数据要素作用进一步加快发展数字经济的实施意见》《北京市促进通用人工智能创新发展的若干措施》和《关于推进北京市数据专区建设的指导意见》指出，北京市要加快建设“数据基础制度先行先试示范区”（以下简称“先行先试示范区”），“支持北京经济技术开发区等开展数据基础制度先行先试，打造政策高地、可信空间和数据工场”，探索打造数据训练基地，归集高质量基础训练数据集，推动数据要素高水平开放，提升本市人工智能数据标注库规模和质量，并建设针对重大领域、重点区域或特定场景建设专题数据区域，吸纳市场主体和数据、技术、资本等多元要素参与。北京市陆续出台的多项文件旨在打破数据壁垒，推动数据融合利用，加快推动公共数据开放，促进数据要素流通，激发数字市场创新活力，释放和发展数字化生产力，打造多层级数据要素市场，成为具有竞争力和影响力的数字产业集群。按照“政府引导、市场运作、创新引领、安全可控”的原则，（“先行先试示范区”有望成为国际领先的数据要素高效流通核心枢纽。

数据要素市场受政策推动，进入高速发展期，未来围绕数据的价值利用以及流通交易，将产生大量新增数据需求，为数据行业开拓了新的增长空间，提供了新的业务拓展机遇。未来，数据要素也将成为数据行业增长的重要推动力量。

（4）训练数据领域的未来发展趋势
a.大模型技术的突破和跃升，将驱动新型数据需求持续增长
随着ChatGPT成为全球范围内的现象级应用，人工智能迎来了新的发展机遇，其背后的大模型技术也将进一步引导人工智能产业变革并带来相关数据需求的变化和增长。

首先，和传统的深度学习模型相比，大模型的数据需求规模将呈指数级增长。传统深度学习技术路线下，训练一个专有小模型大约需要GB级数据，而训练一个大模型通常需要TB级数据（例如，GPT-3的原始文本语料多达45TB）。此外，大模型数据丰富程度显著增加，大模型不仅包含海量语言类、知识类信息，还包括各类垂直领域以及多模态数据，通过多样化数据的引入，大幅提升模型的通用能力以及迁移能力，并使其可服务更多的任务类型与场景。同时，数据质量会显著拉开大模型预训练阶段的效果差距。另外，相比于传统模型训练，大模型的数据需求类型也将有所转变，更多模型或将采用类强化学习模式来进行特定领域或特定方向上的优化迭代，以使得机器能够以更加接近于人类期望的方式提供答案输出。对于大模型训练而言，不仅需要持续获取大规模、多样化（（多模态、多场景、多垂向）、高质量的数据，更须具备持续迭代的高质量数据清洗和标注策略，以不断提升包括预训练（（Pre-training）、模型微调（（Fine-tune）及奖励模型（（Reward（Model）等过程中所需数据（例如指令（instruction）类数据）的质量，确保语言类和常识性知识之外的其他垂直领域的应用场景的能力提升，为大模型精确性、通用性及泛化能力的实现奠定坚实基础。

在以上背景下，一方面，大规模、多样化、高质量数据集重要性凸显，成为模型训练效果的核心支撑之一。另一方面，AI发展所面对的数据前沿性及工程化技术的挑战也更为显著。长期看，只有AI数据处理技术的不断拓新与发展，才能及时适应甚至超前引领大模型技术和应用的发展。

b.多模态数据受AIGC、虚拟人等应用发展驱动，将呈现快速增长趋势随着AIGC技术发展，AI可在更多维度、更多场景辅助人类进行内容生产以及创作。例如，通过大模型等AIGC技术，人类仅需输入一段简单的文字指令，AI即可按照人类描述生成一幅画、一段语音或一段视频，以此帮助人类完成内容创作。想要实现上述功能，AI除了要具备理解人类文字指令的能力，还需要通过对齐不同独立模态关键特征的方式，建立文字与图、语音、视频等一一映射关系，这背后将依赖大量的多模态数据，AI需要对多模态数据进行学习，以实现跨模态的创作能力。

此外，随着AI虚拟主播、虚拟学生、虚拟员工轮番上岗，数字人概念逐渐走入大众视野，成为人工智能的热门技术赛道。想要让虚拟数字人实现与人类的自然交互，不仅需要发音标准自然、身体动作流畅，其表情、口型与声音也要实现细节的精准匹配，而多模态技术就是打破传统人工智能单一感官局限、让各类AI能力协同使用的重要技术。通过对高质量多模态训练数据集的持续学习，AI可实现图像、视频、音频、语义文本等多维度能力的融合，使得虚拟人在行为上更接近人类。

未来，随着以AIGC、虚拟人为代表的AI技术以及应用的不断发展，多模态数据需求将呈现加速增长趋势，具备多模态数据服务能力，以及多模态数据集储备的企业将获得更多市场机会。

c.人工智能企业全球化布局加速，多语种能力成为企业业务拓展核心支撑 2013年，共建“一带一路”的倡议正式面世，十年来，随着国家“一带一路”战略的深入推进，国内一批具有较强创新能力和过硬技术实力的企业，纷纷踏出国门，积极拓展海外市场，通过不断扩大企业出海战略版图，获得高速发展机会。另一方面，境外头部企业也继续践行“全球化”战略，搭乘全球出海的快车。

随着境内、外企业的全球化扩张成为确定性趋势，多语种能力作为支撑企业顺利出海的核心要素之一，重要意义更加凸显。未来，多语种训练数据将对客户侧在语音助手、智能汽车、智能家居、智能客服、机器人、多语种OCR等各领域产品/应用的全球化推广起到积极作用。因此，随着各类客户群体扩张步伐加速，多语种需求也将快速增长，具有强大语言研究能力的数据服务企业将获得更多商业机会。

d.人工智能技术加速向产业渗透融合，催生更多垂向领域数据需求
随着深度学习技术的不断突破，人工智能发展已经进入2.0时代，相关训练需求正逐渐从通用基础能力建设，向更为专业的垂向场景/行业拓展。一方面，以大模型为代表的AI基础技术不断取得重大突破，AI模拟人类认知的能力飞速提升，因此从技术能力维度看，AI已具备与垂直产业融合并规模化应用的前提条件；另一方面，受国家数字经济发展战略推动，产业数字化和智能化将进一步席卷各行各业，智能化技术与传统产业的融合将成为数字经济时代的新发展趋势，并创造出巨大的蓝海空间。

当前AI技术正在加速与各类产业融合，在汽车、金融、医疗、工业等传统行业的渗透率和应用场景不断提升，展现出可观的商业价值和巨大的发展潜力，而数据作为打通算法技术与行业需求的核心桥梁，作用更加凸显，可以说数据能力一定程度上决定了算法模型在对应产业的适用性以及实用性，成为加速AI产业化落地的关键要素。

e.国家法律法规密集落地，对数据安全及合规提出更高要求
近年来，数字经济规模快速扩张，数据作为数字经济时代核心生产要素，重要性更加凸显，但数据不同于传统生产要素，其中可能涉及个人隐私以及国家安全的重要信息，因此，为更好保障数字经济长期稳定的可持续发展，建设规范、安全、合规、高质量的数据安全体系已成为迫切需求。近年，国家陆续出台包括《数据安全法》、《个人信息保护法》等主流法律法规，为解决数据安全问题、净化行业快速发展中的不良乱象提供了切实可行的法律依据。

未来，随着AI技术不断革新，应用行业以及场景不断增加，各行业、各领域数据安全规范逐渐落地将成为趋势，对于以数据生产为主营业务的数据服务企业，数据安全及合规能力将成为数据服务能力的核心评价维度，成熟的安全合规管理体系将成为重要评价标准，能持续跟踪法律环境变化，积极响应监管政策，牢牢把握发展与安全并重的原则的企业将具有更强的市场竞争力。

1.2 行业的主要技术门槛
随着AI技术不断演进、产业应用不断丰富，训练数据的市场需求呈现体量、难度、复杂性、合规性持续上升的趋势，数据服务商须同时具备对人工智能核心算法的理解能力、前瞻性的专业数据集设计能力、丰富的语言覆盖能力及场景采集能力、算法辅助数据生产能力、以及数据合规管理能力，这使得行业的技术门槛持续提升，具体体现为：
（1）在训练数据研发、生产全流程中的算法全面介入
随着AI技术应用落地的规模化效应凸显，客户对于数据规模和处理效率的要求不断提升，数据服务商须在研发、生产流程中全面引入算法以实现高效、合理的人机协作模式，进而实现降本增效的目标。一般而言，在训练数据研发、生产全流程中融入算法技术，可用于训练数据集的设计及训练数据生产的各个环节，例如调度不同类型的标注人员应对不同领域的任务、形成算法自动处理能力以帮助标注人员提升效率、降低对人员的依赖（既有人员数量的降低、也有对人员标注能力要求的降低），并构建训练数据设计、加工相关的核心技术；也可用于检查训练数据集对算法模型的训练效果，进而保障训练数据集质量。

（2）平台工具链功能及适配性要求持续提升
当前，客户侧的数据采集、标注需求范围在逐渐拓宽，数据采集与标注需满足的AI应用场景比以往明显更加广泛、复杂，这就对数据服务商的平台工具能力提出了更高要求，平台上处理过多大规模的数据、这些处理过的数据的多样性和复杂程度如何、算法引擎投票机制如何建立、置信区间如何设置、算法在平台中如何应用、数据流转的工程化程度如何等等这些因素都决定了平台的适配性和能力如何，并最终决定了数据处理的质量、效率、成本。

（3）语音语言学基础研究方面须有深厚积累
伴随语音技术进一步发展落地、并向各行各业和更多垂直场景不断渗透，同时受到中国企业出海需求、国外企业区域拓展需求两方面的支撑，客户在多语种、多音色、音素集、发音规则、发音词典等方面的要求在不断抬升，这意味着只有那些在语音语言学基础研究方面投入更多、拥有深厚积累的数据服务商才能满足客户在这方面的多元化需求。

因此，市场上仅有极少数企业通过长期自主研发的方式能够达到上述核心技术门槛，成为有能力向不同客户群体提供综合、高效、合规的数据产品及服务的供应商。

2. 公司所处的行业地位分析及其变化情况
作为行业的头部阵营企业，海天瑞声在经营情况、技术实力、以及以数据安全为代表的其他综合能力方面都展示出明显优势，并具有较强国际竞争力。近年来公司紧跟AI技术发展趋势，尤其关注在客户资源、技术实力、产品/服务等方面的竞争优势，树立国内领先基础数据服务商的品牌形象，以巩固公司的行业领先地位。与同行业国内外竞争对手的对比情况及优势体现如下：

项目	海天瑞声	Appen	数据堂	标贝科技
基本经营情况
成立年份	2005年	1996年	2010年	2016年
市场地位概述	是我国最早从事训练数据研发销售的企业之一；国内首家且是目前唯一一家A股上市的人工智能训练数据服务企业	较早从事数据资源开发的数据资源产品服务提供商，经营历史较长，规模、体量较大	新三板挂牌企业，是国内较早从事数据交易、数据采标的服务商之一	-
员工数量	251	1,136 （截至2022年 12月31日）	299 （截至2022年 12月31日）	未公开披露
主要客户/合作伙伴情况	大型科技公司，如阿里巴巴、 Meta、腾讯、百度、字节跳动、微软、三星等；人工智能企业，如科大讯飞、商汤科技、云知声、海康威视等；科研机构，如中国科学院、	微软、亚马逊、谷歌等大型科技公司、汽车厂商及政府	包括百度、腾讯、阿里巴巴、奇虎360、联想、科大讯飞等国内互联网和高科技企业，微软、 NEC、Canon、 Intel、 Samsung、 Fujitsu等企业	微软、百度、阿里、腾讯、京东、滴滴、字节跳动、网易、360、三星、小鹏、美的、中科大、中电科、中国银行等
	清华大学、中国科学技术大学等		及在华研发机构
客户数量	881家	未公开披露	未公开披露	100余家
技术研发及产品能力
技术实力概述	海天瑞声拥有自主研发的一体化数据处理平台，所提供的训练数据涵盖智能语音、计算机视觉、自然语言等多个AI核心领域，可服务于人机交互、智能家居、智能驾驶、智慧金融、智能安防等19种创新应用场景。	Appen拥有人工智能辅助数据注释平台，在全球 170多个国家与 100多万名专业承包商合作，训练数据涵盖科技、汽车、金融服务、零售、医疗健康和政府等各个领域。	拥有人工智能数据与生产服务平台，可提供数据定制服务、人工智能数据集产品、人工智能数据处理平台私有化部署服务，数据采集范围遍及全球30多个国家，合作伙伴遍布世界 10多个国家。	拥有语音合成模型和算法，通过算法+专业的人工数据处理方式，为客户提供优质的语音合成服务。拥有TOBI 标注体系，通过自主研发的 TTS评测系统，为客户提供高质量的数据服务。
应用领域	智能语音、计算机视觉、自然语言	智能语音、计算机视觉、自然语言	智能语音、计算机视觉、自然语言	智能语音、计算机视觉、自然语言
拥有的成品训练数据集数量	1,498个	超过400个	291个	190个
语种/方言覆盖能力	超过200个	超过235个	100余个	10余个
已取得专利授权	34项	4项	33项	21项
计算机软件著作权数量	164项	未公开披露	173项	30项
综合能力
数据安全能力	乙级测绘资质； ISO27001信息安全管理体系认证、ISO27701隐私信息管理体系认证；信息系统安全等级保护三级；中国信通院数据安全推进计划成员单位	未公开披露	乙级测绘资质、 ISO27001信息安全管理体系认证、 ISO27701隐私信息管理体系认证	ISO27001信息安全管理体系认证、 ISO27701隐私信息管理体系认证、 ISO27017云服务信息安全管理体系认证、 ISO27018公有云中保护个人身份信息的信息安全管理体系认证、信息系统安全等级保护二级
资质荣誉	国家高新技术企业、国家专精特新“小巨人”企业、“北京市企业技术中心”、工信部“新一代人工智能产业创新重点任务揭榜优胜单位”等多个国家或市级重要奖项、2022年度综合实力型智慧赋能名牌企业、第一批入选北京市通用人工智能产业创新伙伴计划	不适用	国家高新技术企业、国家级专精特新“小巨人”企业、中国自动化学会CAA科技进步一等奖	国家高新技术企业、中关村高新技术企业、北京市专精特新“小巨人”企业、优秀服务机器人企业奖

数据来源及说明：
1、Appen、数据堂、标贝科技数据：截至2023年6月，前述公司官网及公开披露信息；国家知识产权局中国及多国专利审查信息查询平台（https://www.cnipa.gov.cn/）、中国版权保护中心CPCC微平台等公开信息查询渠道及第三方机构查询信息。

2、海天瑞声数据：除特别标注外，均为截至2023年6月30日数据。

（二）主营业务情况说明
公司主要从事AI训练数据的研发设计、生产及销售业务。公司通过设计数据集结构、组织数据采集、对取得的原料数据进行加工，最终形成可供AI算法模型训练使用的专业数据集，通过软件形式向客户交付。

算法、算力、数据是人工智能技术发展的三大要素，其中训练数据是算法发展和演进的“燃而大量训练数据的训练支撑则是深度学习算法实现的基础。深度学习分为“训练”和“推断”两个环节：训练需要海量数据输入，训练出一个复杂的深度神经网络模型；推断指利用训练好的模型，去“推断”现实场景中的待判断数据，并得出各种结论。训练数据越多、越完整、质量越高，模型推断的结论越可靠。因此，要使算法模型实现从技术理论到应用实践的落地过程，就需要提供大量的训练数据，对算法模型加以训练。通常，从自然数据源简单收集取得的原料数据并不能直接用于深度学习算法的训练，必须经过专业化的采集、加工处理，形成相应的工程化数据集后才能供深度学习算法等算法、模型训练使用。

自2005年成立以来，公司始终致力于为AI产业链上的各类机构提供算法模型开发训练所需的专业数据集。经过多年发展，公司已成为人工智能基础数据服务领域具有较强国际竞争力的国内头部企业，并实现了标准化产品、定制化服务、相关应用服务全覆盖。公司所提供的训练数据涵盖智能语音（语音识别、语音合成等）、计算机视觉、自然语言等多个核心领域，全面服务于人机交互、智能家居、智能驾驶、智慧金融、智能安防等多种创新应用场景。

公司的产品和服务已获得阿里巴巴、腾讯、百度、科大讯飞、海康威视、字节跳动、微软、亚马逊、三星、中国科学院、清华大学等国内外客户的认可，应用于其研发的个人助手、智能音箱、语音导航、搜索服务、短视频、虚拟人、智能驾驶、机器翻译等多种产品相关的算法模型训练过程中。目前公司客户累计数量为881家，覆盖了科技互联网、社交、IoT、智能驾驶、智慧金融等领域的主流企业，教育科研机构以及部分政企机构。

图：公司产品服务矩阵示意
（三）主要经营模式
1. 盈利模式
与主要产品及服务类型对应，公司的盈利模式主要包括以下三类：
（1）定制服务：公司根据客户需求提供定制训练数据集并收取服务费。在此种模式下，公司享有服务费收入，不享有最终生成的训练数据的知识产权，不可将此类业务生产的训练数据向其他客户重复销售。

（2）标准化产品：公司开发自有知识产权的训练数据集产品，通过销售训练数据集产品的使用授权许可，获取让渡资产使用权收入。此类训练数据集一经开发完成，可多次销售并获取授权许可收入。

（3）训练数据相关的应用服务：公司基于生产的训练数据提供算法模型相关的模型拓展及训练服务，通常以软件授权或软硬件一体化形式交付算法模型拓展、开发成果，获取让渡资产使用权收入和技术服务收入，以及少量硬件销售收入。

2. 生产或服务模式
（1）训练数据集生产模式
公司通过设计训练数据集结构、组织原料数据采集、对取得的原料数据进行加工，最终形成可供算法模型训练使用的专业数据集。

图：训练数据生产过程示意图
公司的训练数据生产过程主要包括四个环节：设计（训练数据集结构设计）、采集（获取原料数据）、加工（数据标注）及质检（各环节数据质量、加工质量检测）。

（2）训练数据相关的应用服务模式
公司基于其生产的训练数据提供算法模型相关训练服务，助力下游客户完成其算法模型的语言拓展、特定算法模块拓展、垂直应用领域拓展等，为客户定制针对特定行业和口音的专属算法模型，提高AI技术应用效果。

以某大型科技公司客户项目为例，客户研发了特定语音识别算法模型，需要根据算法模型的实际场景（如法院庭审场景）开发落地应用。公司承担了部分落地应用拓展相关的开发工作，围绕客户的算法模型和接口开发，最终协助客户算法模型实现多个麦克风收集庭审语音内容并实时转成文字记录入系统的功能。

3. 采购模式
按照采购的内容及主体划分，公司的采购包括：
数据服务采购：公司在数据采集、加工环节中，向人力资源服务等类型的公司等供应商采购的，非核心技术环节的原料数据采集、标注服务。

岗位服务采购：主要针对临时性的、不设长期岗位的业务领域的外包采购，如保洁、临时招聘服务、少量实习生招聘等。

其他采购：（1）训练数据生产所需的资产，主要包括软、硬件设备及其他需求物品采购；（2）日常运营所需的资产及物品，如办公用房、车辆、办公家具、计算机设备等；（3）日常专项服务采购等，主要包括审计服务、会议服务、差旅服务等。

上述原料数据采集、加工环节所涉及的数据服务采购，为公司最主要的采购类别，由集采中心负责；各部门岗位服务采购由人力资源部负责；其余日常运营相关的资产物品采购、专项服务采购等非业务采购由集采中心负责。财务中心负责参与采购供应商的遴选、监督与管理，并对采购费用进行核算及结算。

经过多年的发展，公司已经建设有完善的《海天瑞声采购管理制度》、《海天瑞声项目资源采购管理制度》、《海天瑞声供应商管理制度》、《海天瑞声岗位服务采购管理制度》等内部规范制度，设立有完善的采购流程和体系，并与主要的供应商形成了良好稳定的长期合作关系。

4. 销售模式公司采用直接对接并服务客户的直销模式进行营销，符合行业通行惯例。公司以高品质的训练数据集及相关服务吸引客户，并在持续服务客户的过程中提升服务价值和客户黏度。公司通过直接拜访潜在客户、口碑传播、参与学术会议和行业展会、官方网站和自媒体展示等方式建立品牌知名度、与客户建立联系，后续再通过商务谈判、招投标等形式获取具体业务机会。二、核心技术与研发进展 1. 核心技术及其先进性以及报告期内的变化情况公司高度重视并坚持科技创新，通过持续的研发投入积累形成了12项核心技术，覆盖基础研究、平台工具、训练数据生产三个层次，应用于训练数据生产的设计、采集、加工、质检全流程之中；按照从底层自下而上的顺序对上述三个层次的核心技术情况介绍如下：图：各层次核心技术示意图
上述核心技术构成了公司生产经营的基础，通过上述核心技术的成果转化，公司形成了基于核心技术的训练数据相关产品和服务。具体如下表所示，其中5项核心技术具备较高技术壁垒（下表中以★标示）：

核心技术层次	核心技术	核心技术项下的细分技术示例	核心技术在训练数据生产中的应用环节
			设计	采集	加工	质检
基础研究	语音识别算法	语音数据库质量预估技术、语音识别系统评测技术	√	√	√	√
	语音合成算法	语音合成数据库评估技术、说话人自适应语音合成技术、语音合成系统评测技术				√
	计算机视觉算法	人脸检测和识别技术、物体识别技术、光学字符识别技术、场景分割技术、运动轨迹跟踪技术、3D点云目标检测技术、 3D点云语义分割技术			√	√
	★语音语言学基础研究	基于词典与模型的发音预测技术	√
核心技术层次	核心技术	核心技术项下的细分技术示例	核心技术在训练数据生产中的应用环节
			设计	采集	加工	质检
	训练数据集设计技术	多语种文本正则化技术、基于语言模型的文本易读性评测技术、多语种情感及领域分类技术	√
平台工具	一体化数据处理平台	基于C/S架构和B/S架构的大规模语音处理平台，基于C/S 架构的音素标注技术，多语言分布式文本处理技术，基于 C/S架构和B/S架构的文本标注技术，基于C/S架构和B/S 架构的图像标注技术，基于 B/S架构的3D点云标注技术，大规模数据采集及标注平台	√	√	√	√
训练数据生产	★多语种多模态训练数据设计技术	多语种语料清洗技术、多语种语音库设计技术、多语种音素均衡语料设计技术、混合语言语料设计技术	√
	多模态多通道数据采集技术	多通道录音技术、移动设备上的语音采集技术、分布式图片内容分析技术、移动设备上的图片采集技术、多语言手写体数据采集技术、多模态数据采集技术		√
	★数据同步技术	音频对齐技术			√
	实时采集质控技术	语音信号质量检测技术		√		√
	★大数据驱动的高效数据处理技术	多语种拼写检查技术、视频流中特定帧定位技术、音素边界自动预测技术、基于语音特征的韵律预测技术、基于CRF的韵律预测技术、基于HMM/CRF 的词性预测技术、基于CRF的命名实体识别技术、2D障碍物自动检测和跟踪技术、2D车道线自动检测技术、3D点云自动贴合技术、3D点云障碍物自动检测和跟踪技术			√
	★分布式高性能自动校验技术	音素标注正确率校验技术、相似说话人自动筛查技术、音字一致校对技术				√

（1）基础研究层面，报告期内，公司持续在智能语音、计算机视觉、自然语言、以及包括智能驾驶为代表的垂直领域进行技术拓展，并有多项核心技术取得显著进展。例如，在基础算法研究方面，新增数十个基础模型，包括波兰语、斐济语等多个ASR语音识别模型、多语种合成数据库韵律预测模型、25类自动驾驶场景交通目标物检测模型、3D动捕数据姿态检测模型等众多模型；同时完成了多个现有模型的优化升级，多个语种的ASR模型准确率提升20%以上，3D场景的目标检测和语义分割模型更是实现约 50%的准确率提升；在语音语言学方面，新增完成阿富汗达利语、比利时法语等多个语言学研究工作，有效支撑相关语言的数据生产项目；训练数据集设计技术领域内，探索利用大模型技术解决语料设计中稀缺资源问题，成功落地数个重要语料设计项目；同时完成了文本混淆度打分、多语种情感识别等多个数据库设计基础技术的优化升级。

（2）平台工具层面，得益于基础研究领域内多种算法、技术的持续支撑，在诸如大规模语音数据采集及标注平台、支撑智能驾驶数据业务的图像/视频/点云标注平台、以及大规模OCR数据采集及标注平台等方向完成重大升级，并完成包括 4D点云标注、3D点云语义分割、交互式弹性框辅助标注、渐进式点云目标物智能标注等技术课题的攻坚与落地，整体上实现了一体化数据处理平台覆盖领域、处理能力的升级。

（3）训练数据生产层面，公司在多语种多模态训练数据设计技术、多模态多通道数据采集技术、数据同步技术、实时采集质控技术等方向形成新突破，与基础研究能力的不断增强、平台工具功能的持续提升等趋势相辅相成、互相促进、形成合力，共同推动公司的训练数据生产不断向智能化方向演进。

以上技术突破均将对更广泛人工智能数据服务产生积极影响。报告期内，公司新申请发明专利5项并均获受理，获得发明专利授权3项；新获得的软件著作权1项，均为原始取得。具体见第三节“管理层讨论与分析”二、“核心技术与研发进展”之“报告期内获得的知识产权列表”。

国家科学技术奖项获奖情况
□适用 √不适用

国家级专精特新“小巨人”企业、制造业“单项冠军”认定情况
√适用 □不适用

认定主体	认定称号	认定年度	产品名称
北京海天瑞声科技股份有限公司	国家级专精特新“小巨人”企业	2020（2023年复审通过）	/

2. 报告期内获得的研发成果
报告期内，公司新申请发明专利5项并均获受理，获得发明专利授权3项；新申请并获得登记的软件著作权1项，均为原始取得。截至2023年6月30日，公司共获得专利授权34项，获得登记的软件著作权164项。

报告期内获得的知识产权列表

	本期新增		累计数量
	申请数（个）	获得数（个）	申请数（个）	获得数（个）
发明专利	5	3	35	32
实用新型专利	0	0	1	1
外观设计专利	0	0	1	1
软件著作权	6	1	169	164
其他	11	6	59	54
合计	22	10	265	252

注：“其他”中统计的数量为公司持有的境内外商标数量总和。

3. 研发投入情况表
单位：元

	本期数	上年同期数	变化幅度（%）
费用化研发投入	32,213,644.59	42,681,075.64	-24.52
资本化研发投入	-	-	-
研发投入合计	32,213,644.59	42,681,075.64	-24.52
研发投入总额占营业收入比例（%）	43.26	37.18	增加6.08个百分点
研发投入资本化的比重（%）	-	-	-

研发投入总额较上年发生重大变化的原因
□适用 √不适用

研发投入资本化的比重大幅变动的原因及其合理性说明
□适用 √不适用

4. 在研项目情况
√适用 □不适用
单位：元

序号	项目名称	预计总投资规模	本期投入金额	累计投入金额	进展或阶段性成果	拟达到目标	技术水平	具体应用前景
1	面向语音数据库生产的云-端协同管理平台	3,172,000.00	1,746,318.90	2,831,790.40	已上线多语种韵律预测、分词预测等功能，进一步优化移动端的采集能力。	支持语音文件的高精度切音能力，支持对移动端语音采集的任务管理与数据管理能力，优化 IOS端和安卓端的采集能力与采集效率。	支持面向语音数据库生产的高效移动端采集能力，有效提升云 -端一体数据制作与管理能力	重点支持语音识别采集数据的研发与生产，助力智能语音业务发展
2	多语种语音转写平台升级	3,254,500.00	240,572.34	3,182,745.63	上线后处理二期，最终完成所有语音识别转写业务的全流程数据不落地；并最终完成数据预处理策略的优化，提升数据处理效率。	优化语音转写业务的数据接入能力和数据交付能力，满足数据全流程不落地要求，进一步提升数据安全和项目管理效率。	支持面向智能语音业务的数据转写能力，有效提升数据全流程管理水平	重点提升语音数据加工效率，支持语音识别算法的提升，助力智能语音业务的发展
3	面向中文语音转写的多标注任务预处理技术研究	2,812,000.00	234,779.18	2,662,019.80	已完成 ModelScope框架接入，新增30 余个ASR模型。	提升中文语音识别基础算法能力，适配音频处理与语音转写业务，新增性别检测、年龄检测等算法能力。	引入K2语音识别框架，显著提升语音识别模型扩展能力	提升智能语音数据库的数据质量和生产效率，助力智能语音业务发展
4	面向自动驾驶数据标注的任务管理平台	5,202,000.00	1,257,209.15	5,959,985.45	进一步优化了多个自动驾驶标注环节中的任务管理模块，针对新增项目做部分调整和优化。	面向自动驾驶数据标注领域，优化项目管理模块、优化数据流转机制、新增多角度统计分析工具。	有效提升面向自动驾驶数据标注服务的生产效率	支撑大范围、规模化、高效率的自动驾驶训练数据的生产能力，提升自动驾驶领域的整体技术水平
5	面向自动驾驶业务的2D场景预处理算法研究	1,927,000.00	454,186.49	1,782,884.34	新增支持2类2D 算法预识别算法，优化了车道线和障碍物检测为主的多个模型，并部署运用到生产平台。	面向自动驾驶数据标注领域，优化2D图像的算法预识别技术，包括对车道线、障碍物、行驶区域的算法识别。	在自有测试集上平均识别准确率在70%以上	高效支撑基于图像的自动驾驶数据业务，助力商业化自动驾驶领域的快速发展
6	面向3D点云标注的预处理算法研究	2,047,000.00	386,004.62	1,928,133.14	重点优化了3D 点云中车道线识别模型，新增3D 点云语义分割算法支持。	面向自动驾驶数据标注领域，优化3D点云下物体检测、运动属性检测、连续帧下的物体跟踪等算法能力。	显著提升3D点云标注任务中的离散帧对象标注与连续帧推向跟踪标注的能力，显著提升基于3D 的自动驾驶场景的数据生产效率	支撑自动驾驶场景的3D点云语义分割数据研发与生产，进而应用于商业化自动驾驶领域
7	多语种语料设计平台	10,920,000.00	2,546,230.47	9,824,762.72	完成语料设计流程的优化，新增情感打标、多音词标注等平台能力，优化包括语种识别、混淆度打分算法、情感识别等多个算法模块。	针对智能语音数据库生产中的设计环节，提供支持多语种定制化的语料生成、校对与设计平台。	提升智能语音数据库的设计能力	重点围绕智能语音算法需要，提升数据库质量，助力智能语音算法研发水平，促进语音行业整体进步
8	DOTS平台建设-账号体系和权限升级	5,531,517.66	2,765,758.83	2,765,758.83	已完成DOTS平台供应商管理模块建设。	统一DOTS平台账户体系，提高供应商管理、用户管理等模块的复用性；实现用户体系与功能体系解耦，进一步提高DOTS平台权限管理的可扩展性。	支持DOTS平台中面向语音、文本、2D、3D等所有数据生产模块中功能体系、用户体系和权限体系三者解耦。	重点提升面向智能语音、计算机视觉和自然语言理解三大领域基础数据生产的管理能力，助力基础数据在人工智能全行业的重要作用。
9	DOTS平台建设-面向自动驾驶数据处理能力升级	10,816,063.29	5,408,031.65	5,408,031.65	已支持300万大点云数据处理能力。	实现自动驾驶平台大点云处理能力升级，支持激光点云4D标注能力，并优化算法预处理能力的接入与管理。	支持自动驾驶场景的大点云标注能力，支持点云场景下4D标注能力，支撑500 万级别以上点云数据的处理能力。同时，显著提升对预处理算法的接入管理，包括灰度上线能力、算法可视化能力等。	支撑自动驾驶场景的4D标注、多帧融合、稠密点云等高难度数据生产需求，进而应用于商业化自动驾驶领域。
10	DOTS平台建设-面向语音与文本的数据服务能力升级	4,918,432.77	2,951,059.66	2,951,059.66	已完成语音数据任务流转模块优化、语料处理、项目管理能力优化、重复发音人算法的对接等。	实现短音频为主的语音数据采集与处理能力升级，优化对文本数据的处理能力，进一步提高云-端协同的智	提升多端协同的语音数据和文本数据的采集与处理能力，提高数据生产效率，同时通过引入声纹识别等技术提升数据采集质量。	提升智能语音数据库和文本数据库的生产效率和数据质量，助力智能语音业务快速发展。
						能语音数据生产效率。
11	面向多语种语音转写的算法预处理技术研发与升级	644,309.36	322,154.68	322,154.68	已完成灰度上线能力搭建，并支持算法识别效果的数字化管理。	针对实际语音数据服务场景，训练及部署多语种语音识别模型，并支持数据迭代和模型调优，进一步提升数据生产效率。	支撑10万+小时时长的多语种语音数据转写和校对，提升标注效率。	重点提升语音数据处理效率，扩大语音识别算法的应用，助力智能语音业务的发展。
12	面向智能语音的算法框架升级及预处理能力优化研究	1,099,124.52	274,781.13	274,781.13	已完成意大利语、丹麦语、达利语等6个语种的语音识别模型的训练和上线。	支持更多语音框架，训练更多语种识别模型，提升模型预处理速度。	引入MMS新语音识别框架，新增 50+语音识别模型，覆盖10+语种。	提升智能语音数据库的数据质量和生产效率，助力智能语音业务发展。
13	面向CV和 AD数据服务的算法预处理技术研发与升级	670,616.32	335,308.16	335,308.16	已完成灰度上线能力搭建，支持算法识别效果的数字化管理。	针对实际CV和 AD数据服务场景，训练及部署多类型物体检测、物体跟踪等模型，并支持数据迭代和模型调优，进一步提升数据生产效率。	支撑1w+帧的2D 图像中目标检测、语义分割等算法预标注，提升标注效率。	重点提升包括车内和车外多个场景的自动驾驶数据业务，助力商业化自动驾驶领域的快速发展。
14	面向CV和 AD的算法框架升级及预处理能力优化研究	503,790.85	125,947.71	125,947.71	已上线鱼眼语义分割，已优化关键点检测、障碍物检测、停车位检测等多个场景下的模型。	新增更多计算机视觉领域的模型框架支持，训练并优化包括物体检测、物体跟踪	引入SAM、 OneFormer、 Yolo系列等有代表性的计算机视觉框架或算法，新增8+不同场景	重点支撑基于图像的自动驾驶数据业务，助力商业化自动驾驶领域的快速发展。
						等模型；提升模型预处理速度。	的视觉类算法预处理技术。
15	海天瑞声人工智能算法预处理平台三期建设	2,996,859.42	299,685.94	299,685.94	已完成多个语义分割算法的预处理速度优化。	完善数据驱动的模型训练和推理平台升级，支持数据自动流转和模型自动迭代升级与验证。	打通数据管理模块、数据生产模块、算法预处理模块、算法训练模块、算法评测模块五大模块，实现数据驱动的模型自动迭代、升级与应用。	提升算法预处理水平，加速数据生产效率的提升，助力人工智能行业整体进步。
16	面向大模型训练、调优及评测服务等的技术研究	2,598,141.91	2,338,327.72	2,338,327.72	针对大模型预训练数据集设计与处理技术进行初步研究和规划，并基于研究成果开展了 CommonCrawl、中文书籍等适用于预训练阶段的数据的获取与清洗工作，形成了各项技术的框架方向；开展大模型评测技术调研，完成基础框架设计，形成可行性结论。	完成面向大模型预训练阶段的数据清洗技术、任务对齐阶段的调优、强化学习技术的框架规划和可行性分析。论证面向大模型技术的评测服务能力构建可行性，包括评测方案设计、评测数据获取、自动评测等能力。	新增面向海量文本的50+类清洗技术，掌握多种开源大模型的指令微调技术，新增面向大模型能力的评测技术。	支撑基于大模型的业务能力升级，扩展大模型在数据服务垂直领域的应用，助力人工智能行业整体进步。
合计	/	59,113,356.11	21,686,356.63	42,993,376.96	/	/	/	/

（未完）