[年报]海天瑞声(688787):海天瑞声2024年年度报告

时间：2025年04月26日 19:49:40 中财网

原标题:海天瑞声:海天瑞声2024年年度报告

公司代码：688787 公司简称：海天瑞声北京海天瑞声科技股份有限公司
2024年年度报告
重要提示
一、本公司董事会、监事会及董事、监事、高级管理人员保证年度报告内容的真实性、准确性、完整性，不存在虚假记载、误导性陈述或重大遗漏，并承担个别和连带的法律责任。

二、公司上市时未盈利且尚未实现盈利
□是√否
三、重大风险提示
公司已在本报告中详细描述可能存在的风险，敬请查阅“第三节管理层讨论与分析”（之四）“风险因素”部分，请投资者注意投资风险。

四、公司全体董事出席董事会会议。

五、容诚会计师事务所（特殊普通合伙）为本公司出具了标准无保留意见的审计报告。

六、公司负责人贺琳、主管会计工作负责人吕思遥及会计机构负责人（会计主管人员）王超声明：保证年度报告中财务报告的真实、准确、完整。

七、董事会决议通过的本报告期利润分配预案或公积金转增股本预案经公司第三届董事会第四次会议审议，公司拟定2024年度利润分配预案如下：拟以实施权益分派股权登记日登记的总股本扣除回购专户股份后的股本为基数分配利润，向全体股东每10股派发现金股利3.50元（含税），截至2025年3月31日，公司总股本60,325,180股，回购专户股份数466,117股，以此计算合计拟分派现金红利20,950,672.05元（含税）；根据《上市公司股份回购规则》等有关规定，上市公司以现金为对价，采用要约方式、集中竞价方式回购股份的，视同上市公司现金分红，纳入现金分红的相关比例计算。公司在2024年度以集中竞价交易方式累计回购906,014股，支付的资金总额为人民币49,987,510.15元(不含印花税、交易佣金等交易费用)，视同现金分红。综上，公司2024年度现金分红总额为70,938,182.20元（含税），现金分红比例为625.77%；2024年度不进行资本公积转增股本，不送红股。

2024年度利润分配预案披露后至实施权益分派的股权登记日期间，若公司总股本发生变动，公司拟维持每股现金分红金额不变，相应调整现金分红总额。

上述利润分配方案尚需提交公司2024年年度股东大会审议通过。

八、是否存在公司治理特殊安排等重要事项
□适用√不适用
九、前瞻性陈述的风险声明
√适用□不适用
本报告中所涉及的未来计划、发展战略等前瞻性陈述，不构成本公司对投资者的承诺，敬请投资者注意投资风险。

十、是否存在被控股股东及其他关联方非经营性占用资金情况
否
十一、是否存在违反规定决策程序对外提供担保的情况
否
十二、是否存在半数以上董事无法保证公司所披露年度报告的真实性、准确性和完整性否
十三、其他
□适用√不适用
目录
第一节释义......................................................................................................................................5
第二节公司简介和主要财务指标..................................................................................................9
第三节管理层讨论与分析............................................................................................................14
第四节公司治理............................................................................................................................70
第五节环境、社会责任和其他公司治理....................................................................................94
第六节重要事项..........................................................................................................................102
第七节股份变动及股东情况......................................................................................................132
第八节优先股相关情况..............................................................................................................141
第九节债券相关情况..................................................................................................................142
第十节财务报告..........................................................................................................................143

备查文件目录	载有公司负责人、主管会计工作负责人、会计机构负责人（会计主管人员）签名并盖章的财务报表
	载有会计师事务所盖章、注册会计师签名并盖章的审计报告原件
	报告期内公开披露过的所有公司文件的正本及公告的原稿

第一节释义
一、释义
在本报告书中，除非文义另有所指，下列词语具有如下含义：

常用词语释义
本公司、公司、海天瑞声	指	北京海天瑞声科技股份有限公司
控股股东、实际控制人	指	贺琳
中瑞智	指	北京中瑞智科技有限公司，为公司的全资子公司
中瑞安	指	北京中瑞安企业管理中心（有限合伙），为公司股东
中瑞立	指	北京中瑞立投资中心（有限合伙），为公司股东
安徽瑞天数智	指	安徽瑞天数智科技有限公司，为公司的全资子公司
山西瑞天数智	指	山西瑞天数智科技有限公司，为公司的全资子公司
香港海天瑞声	指	海天瑞聲（香港）科技有限公司，为公司的全资子公司
创世联合	指	北京创世联合投资管理有限公司，为北京中瑞安企业管理中心（有限合伙）普通合伙人、执行事务合伙人
中移投资	指	中移投资控股有限责任公司，为公司的股东
清德投资	指	北京清德投资中心（有限合伙），为公司的股东
宁波丰琬	指	宁波丰琬创业投资合伙企业（有限合伙），为公司的股东
中网投	指	中国互联网投资基金（有限合伙），为公司的股东
数安易	指	数安易（北京）科技有限公司，为公司对外投资的一家公司，其主要从事数据安全相关技术及产品服务，在数据脱敏、数据加密、数据资产管理平台、数据安全治理等方面的能力，可为海天瑞声数据业务的合规开展提供重要技术支撑。
Appen	指	AppenLimited，是一家成立于澳大利亚的训练数据产品和服务提供商
数据堂	指	数据堂(北京)科技股份有限公司
标贝科技	指	标贝（北京）科技有限公司，是一家国内同行业的训练数据产品和服务提供商
证监会	指	中国证券监督管理委员会
工信部	指	中华人民共和国工业和信息化部
《公司法》	指	《中华人民共和国公司法》
《证券法》	指	《中华人民共和国证券法》
《上市规则》	指	《上海证券交易所科创板股票上市规则》
《公司章程》	指	《北京海天瑞声科技股份有限公司章程》
《个人信息保护法》	指	《中华人民共和国个人信息保护法》
《数据安全法》	指	《中华人民共和国数据安全法》
报告期	指	2024年1月1日至2024年12月31日
华泰联合证券	指	华泰联合证券有限责任公司，公司保荐机构、持续督导机构
元、万元、亿元	指	如无特别说明，均以人民币为度量币种
训练数据	指	通过采集与处理等步骤形成的、结构化的、可供人工智能算法模型训练使用的数据
算法	指	解题方案的准确而完整的描述，是一系列解决问题的清晰指令，算法代表着用系统的方法描述解决问题的策略机制
算力	指	计算能力
人工智能（AI）	指	ArtificialIntelligence，是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门技术科学
机器学习	指	MachineLearning，是一门专门研究计算机模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身性能的学科
深度学习	指	DeepLearning，机器学习研究中的一个新的领域，其动机在于建立、模拟人脑进行分析学习的神经网络，它模仿人脑的机制来解释数据，例如图像、声音和文本
模型	指	为解决人工智能领域的相应问题，而专门设计的某种算法框架，并通过大量数据训练拟合来调整相应参数，最终得到能解决实际问题的一套算法和参数
引擎	指	是计算机平台上开发相应应用程序或软件系统的核心组件
鲁棒性	指	鲁棒性亦称稳健性、强健性，是指计算机软件/系统在异常和危险情况下生存的能力。例如，计算机软件在输入错误、磁盘故障、网络过载或有意攻击情况下，能否不死机、不崩溃，就是该软件的鲁棒性
智能语音	指	实现人机语言的通信，包括语音识别技术（ASR）和语音合成技术（TTS）
语音识别（ASR）	指	AutomaticSpeechRecognition，是一种将语音信号自动转换为文本的技术，是实现智能人机交互的关键技术之一
语音合成（TTS）	指	TexttoSpeech，即“从文本到语音”，是一种将文字智能地转化为自然语音的技术
自然语言/自然语言处理（NLP）	指	NaturalLanguageProcessing,是计算机科学领域与人工智能领域中的一个重要方向，研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法
计算机视觉（CV）	指	ComputerVision，是一门研究如何使机器“看”的科学，是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等
光学字符识别（OCR）	指	是指电子设备（例如扫描仪或数码相机）检查纸上打印的字符，通过检测暗、亮的模式确定其形状，然后用字符识别方法将形状翻译成计算机文字的过程
IoT	指	物联网（IoT，Internetofthings）即“万物相连的互联网”，是互联网基础上的延伸和扩展的网络，将各种信息传感设备与网络结合起来而形成的一个巨大网络，实现任何时间、任何地点，人、机、物的互联互通
智能驾驶	指	指的是机器帮助人进行驾驶，以及在特殊情况下完全取代人驾驶的技术
虚拟人	指	虚拟人（VirtualHuman）是通过建模、动作捕捉或 AI等科技手段，制作出具有外貌特征和行为模式的虚拟形象，并通过显示设备呈现出来。虚拟人创造的价值主要是打破物理的空间限制，提供了更多沉浸感、参与感和互动感
原料数据	指	RawData，即未经加工处理的原始数据
采集	指	使用软件工具、录音设备、图像拍摄设备等收集、录制和获取原料数据的过程
标注	指	训练数据的生产步骤之一，指对原料数据进行加工，进而生成符合算法模型训练要求的训练数据的过程
词性	指	以词的特点划分的词类，如名词、代词、动词、形容词、数词、量词等
韵律	指	韵律通常指语音语句中各词之间的停顿时长情况
音色	指	声音的特征，指的声音在波形方面具有的与众不同的特性
AIGC	指	AIGeneratedContent，又叫生成式人工智能，是指是使用机器学习和深度学习算法，从现有数据中学习并生成新内容的一种人工智能技术。它可以生成各种形式的数据，如图像、音频、视频和文本，并在虚拟现实、自然语言处理、艺术创作和模拟实验等领域有广泛应用
Sora	指	美国人工智能研究公司OpenAI发布的人工智能文生视频大模型
GPT-4o	指	美国人工智能研究公司OpenAI发布的可以实时进行音频、视觉和文本推理的大模型
DeepSeek	指	杭州深度求索人工智能基础技术研究有限公司
DeepSeekR1	指	是幻方量化旗下AI公司深度求索（DeepSeek）研发的推理模型，DeepSeek-R1采用强化学习进行后训练，旨在提升推理能力，尤其擅长数学、代码和自然语言推理等复杂任务
大模型	指	大模型就是FoundationModel（基础模型），指通过在大规模宽泛的数据上进行训练后能适应一系列下游任务的模型
多模态	指	多模态机器学习（Multi-modalMachineLearning）是一种机器学习方法，用于处理多种类型的数据，如图像、文本、音频等。它通过将来自不同模态的数据进行整合和联合建模，以提取和学习不同模态之间的相关信息和特征。多模态数据是指用于多模态机器学习训练使用的跨形态数据类型
思维链技术/CoT	指	思维链(ChainofThought,简称CoT)，是指把逻辑较为复杂的问题进行拆解，通过一系列有逻辑关系的思考，形成完整的思考的过程
ScalingLaw	指	大模型预训练第一性原理，也是在机器学习领域，特别是对于大型语言模型而言，模型性能与其规模（如参数数量）、训练数据集大小以及用于训练的计算资源之间存在的一种可预测的关系。这种关系通常表现为随着这些因素的增长，模型性能会按照一定的幂律进行改善
AIAgent	指	有能力主动思考和行动的智能体，能够以类似人类的方式工作，通过大模型来“理解”用户需求，主动“规划”以达成目标，使用各种“工具”来完成任务，并最终“行动”执行这些任务
具身智能	指	人工智能与机器人学交叉的前沿领域，强调智能体通过身体与环境的动态交互实现自主学习和进化，其核心在于将感知、行动与认知深度融合
正则化	指	将文本中的数字、符号、缩写等转换成语言文字
Whisper	指	由OpenAI开发的一款语音预训练大模型
OCC	指	OccupancyNetworking技术,在自动驾驶感知领域中,主要指的是利用传感器数据构建三维空间中的占用网络,以表示周围环境中的物体和空间状态
BEV	指	Bird's-Eye-View，即鸟瞰视图，是一种从上方观察对象或场景的技术

注：本年度报告除特别说明外若出现总数和各分项数值之和尾数不符的情况，均为四舍五入原因造成。

第二节公司简介和主要财务指标
一、公司基本情况

公司的中文名称	北京海天瑞声科技股份有限公司
公司的中文简称	海天瑞声
公司的外文名称	BeijingHaitianRuishengScienceTechnologyLtd.
公司的外文名称缩写	Haitianruisheng
公司的法定代表人	贺琳
公司注册地址	北京市海淀区知春路68号院1号楼4层401
公司注册地址的历史变更情况	2012年9月14日，公司地址由北京市海淀区知春路甲48号 3号楼4单元6B变更为北京市海淀区成府路28号4-801。 2023年11月29日，公司地址由北京市海淀区成府路28号 4-801变更为北京市海淀区知春路68号院1号楼4层401。
公司办公地址	北京市海淀区知春路68号院1号楼4层401
公司办公地址的邮政编码	100098
公司网址	www.haitianruisheng.com
电子信箱	[email protected]

二、联系人和联系方式

	董事会秘书	证券事务代表
姓名	张哲	张哲
联系地址	北京市海淀区知春路68号院1号楼4层 401	北京市海淀区知春路68号院1号楼4层401
电话	010-62660772	010-62660772
传真	010-62660892	010-62660892
电子信箱	[email protected]	[email protected]

三、信息披露及备置地点

公司披露年度报告的媒体名称及网址	《上海证券报》（www.cnstock.com）
公司披露年度报告的证券交易所网址	www.sse.com.cn
公司年度报告备置地点	公司董事会办公室

四、公司股票/存托凭证简况
(一)公司股票简况
√适用□不适用

公司股票简况
股票种类	股票上市交易所及板块	股票简称	股票代码	变更前股票简称
人民币普通股（A股）	上海证券交易所科创板	海天瑞声	688787	不适用

(二)公司存托凭证简况
□适用√不适用
五、其他相关资料

公司聘请的会计师事务所（境内）	名称	容诚会计师事务所（特殊普通合伙）
	办公地址	北京市西城区阜成门外大街22号1幢10层 1001-1至1001-26
	签字会计师姓名	陈君、贾美慧
报告期内履行持续督导职责的保荐机构	名称	华泰联合证券有限责任公司
	办公地址	北京市西城区丰盛胡同22号丰铭国际大厦A 座6层
	签字的保荐代表人姓名	张鹏、葛青
	持续督导的期间	2021年8月13日-2024年12月31日

六、近三年主要会计数据和财务指标
(一)主要会计数据
单位：元币种：人民币

主要会计数据	2024年	2023年	本期比上年同期增减(%)	2022年
营业收入	237,083,030.07	170,010,956.57	39.45	262,887,869.44
归属于上市公司股东的净利润	11,336,089.30	-30,385,187.56	不适用	29,454,139.23
归属于上市公司股东的扣除非经常性损益的净利润	4,973,475.19	-43,470,684.50	不适用	10,149,073.69
经营活动产生的现金流量净额	28,733,413.17	-31,046,209.61	不适用	30,658,908.30
	2024年末	2023年末	本期末比上年同期末增减（% ）	2022年末
归属于上市公司股东的净资产	743,282,633.50	782,293,983.51	-4.99	829,522,849.25
总资产	808,464,516.38	824,507,109.18	-1.95	876,927,792.15

(二)主要财务指标

主要财务指标	2024年	2023年	本期比上年同期增减(%)	2022年
基本每股收益（元／股）	0.19	-0.50	不适用	0.49
稀释每股收益（元／股）	0.19	-0.50	不适用	0.49
扣除非经常性损益后的基本每股收益（元／股）	0.08	-0.72	不适用	0.17
加权平均净资产收益率（%）	1.49	-3.77	增加5.26个百分点	3.61
扣除非经常性损益后的加权平均净资产收益率（%）	0.65	-5.39	增加6.04个百分点	1.24
研发投入占营业收入的比例（%）	26.76	34.40	减少7.64个百分点	35.86

√适用□不适用
（1）报告期内，公司营业收入为2.37亿元，较去年同期增长39.45%，主要系受益于大模型技术的快速发展以及应用场景不断落地，以智能终端厂商、科技互联网公司等为代表的国内外科技巨头纷纷加大多模态数据投入以支撑其智能终端、内容生成等领域的AI能力建设所致。在此背景下，以多语种、多音色等为代表的智能语音业务需求、以及以指令微调、偏好对齐等为代表的自然语言业务需求同比均呈现大幅增长，整体上驱动公司营业收入同比显著增加。

（2）报告期内，归属于上市公司股东的净利润、扣非净利润分别为1,133.61万元、497.35万元，较去年同期增加4,172.13万元、4,844.42万元，主要系营业收入大幅增长的同时，具有高毛利特点的数据集产品收入占比以及定制服务毛利率提升，驱动公司整体毛利率增加所致。此外，应收账款减值减少导致信用减值损失同比下降。以上因素共同驱动2024年度归属于母公司所有者的净利润、归属于母公司所有者的扣除非经常性损益的净利润由亏转盈，同比实现显著增长。

（3）报告期内，经营活动产生的现金流量净额为2,873.34万元，较去年同期增加5,977.96万元，主要系报告期内收入整体增长较为明显、客户回款同比增加所致。

（4）报告期内，基本每股收益、稀释每股收益均为0.19元/股，较去年同期增加0.69元/股，主要系归属于母公司所有者的净利润相比同期大幅增长所致。

（5）报告期内，扣除非经常性损益后的基本每股收益为0.08元/股，较去年同期增加0.80元/股，主要系归属于上市公司股东的扣除非经常性损益的净利润相比同期大幅增加所致。

七、境内外会计准则下会计数据差异
(一)同时按照国际会计准则与按中国会计准则披露的财务报告中净利润和归属于上市公司股东的净资产差异情况
□适用√不适用
(二)同时按照境外会计准则与按中国会计准则披露的财务报告中净利润和归属于上市公司股东的净资产差异情况
□适用√不适用
(三)境内外会计准则差异的说明：
□适用√不适用
八、2024年分季度主要财务数据
单位：元币种：人民币

	第一季度（1-3月份）	第二季度（4-6月份）	第三季度（7-9月份）	第四季度（10-12月份）
营业收入	40,645,255.83	51,781,124.52	57,131,120.08	87,525,529.64
归属于上市公司股东的净利润	-634,142.17	1,050,563.43	3,372,306.04	7,547,362.00
归属于上市公司股	-2,646,313.72	-1,029,535.88	1,737,541.20	6,911,783.59
东的扣除非经常性损益后的净利润
经营活动产生的现金流量净额	4,985,859.22	10,690,996.98	192,796.74	12,863,760.23

季度数据与已披露定期报告数据差异说明
□适用 √不适用
九、非经常性损益项目和金额
√适用□不适用
单位：元币种：人民币

非经常性损益项目	2024年金额	附注（如适用）	2023年金额	2022年金额
非流动性资产处置损益，包括已计提资产减值准备的冲销部分	28,152.79		-216,998.02	302,799.72
计入当期损益的政府补助，但与公司正常经营业务密切相关、符合国家政策规定、按照确定的标准享有、对公司损益产生持续影响的政府补助除外	364,219.60	主要系北京市高精尖产业发展专项经费等。	5,008,445.07	9,299,020.00
除同公司正常经营业务相关的有效套期保值业务外，非金融企业持有金融资产和金融负债产生的公允价值变动损益以及处置金融资产和金融负债产生的损益	7,136,254.87	主要系公司为提高资金使用效益，购买银行保本浮动收益型理财产品取得的投资收益。	9,486,973.04	12,826,724.75
计入当期损益的对非金融企业收取的资金占用费	-		-	-
委托他人投资或管理资产的损益	-		-	-
对外委托贷款取得的损益	-		-	-
因不可抗力因素，如遭受自然灾害而产生的各项资产损失	-		-	-
单独进行减值测试的应收款项减值准备转回	-		-	-
企业取得子公司、联营企业及合营企业的投资成本小于取得投资时应享有被投资单位可辨认净资产公允价值产生的收益	-		-	-
同一控制下企业合并产生的子公司期初至合并日的当期净损益	-		-	-
非货币性资产交换损益	-		-	-
债务重组损益	-		-	-
企业因相关经营活动不再持续而发生的一次性费用，如安置职工的支出等	-		-	-
因税收、会计等法律、法规的调整
对当期损益产生的一次性影响
因取消、修改股权激励计划一次性确认的股份支付费用
对于现金结算的股份支付，在可行权日之后，应付职工薪酬的公允价值变动产生的损益
采用公允价值模式进行后续计量的投资性房地产公允价值变动产生的损益
交易价格显失公允的交易产生的收益
与公司正常经营业务无关的或有事项产生的损益
受托经营取得的托管费收入
除上述各项之外的其他营业外收入和支出	-43,561.67		923,483.06	-11,400.14
其他符合非经常性损益定义的损益项目	-		-	-
减：所得税影响额	1,122,451.48		2,116,406.21	3,112,078.79
少数股东权益影响额（税后）	-		-	-
合计	6,362,614.11		13,085,496.94	19,305,065.54

对公司将《公开发行证券的公司信息披露解释性公告第1号——非经常性损益》未列举的项目认定为非经常性损益项目且金额重大的，以及将《公开发行证券的公司信息披露解释性公告第1号——非经常性损益》中列举的非经常性损益项目界定为经常性损益的项目，应说明原因。

□适用√不适用
十、非企业会计准则财务指标情况
□适用√不适用
十一、采用公允价值计量的项目
√适用□不适用
单位：元币种：人民币

项目名称	期初余额	期末余额	当期变动	对当期利润的影响金额
交易性金融资产	363,264,871.46	271,888,183.56	-91,376,687.90	7,136,254.87
合计	363,264,871.46	271,888,183.56	-91,376,687.90	7,136,254.87

十二、因国家秘密、商业秘密等原因的信息暂缓、豁免情况说明
√适用□不适用
公司部分信息涉及商业秘密，根据《上海证券交易所科创板股票上市规则》《上海证券交易所科创板上市公司自律监管指引第1号——规范运作》的相关规定，公司已按照《信息披露暂缓与豁免业务管理制度》完成相应的审批程序。

第三节管理层讨论与分析
一、经营情况讨论与分析
2024年，受益于多模态大模型的快速发展以及“AI+”在应用端的进一步落地，全球训练数据需求快速增长。一方面，大模型语音交互需求持续攀升，公司凭借多年在语音数据方面的积累，获得以智能终端厂商、科技互联网公司等为代表的国内外科技巨头多类语音数据订单，带动大模型相关业务收入快速增加，并成为公司收入增长的核心引擎。另一方面，为更好拥抱新一轮全球化市场机遇，公司持续加大海外市场拓展力度，丰富品牌营销策略、推动销售提速，并通过建设海外交付能力完善海外供应链体系，启动海外全链条服务能力的延展，进一步带动境外业务收入显著复苏。此外，公司不断拓展智能驾驶服务能力边界，抢抓车企出海机遇，积极探索布局境外数据采集业务；同时继续保持有竞争力的研发投入，持续优化迭代智能驾驶数据处理相关算法研发和平台建设，以及智能化标注能力数据服务能力逐步延伸至4D数据标注、大点云分割等更复杂场景，以更好适应以BEV技术为主、稳步向OCC技术方向探索的高阶智能驾驶技术需求。受上述各项积极因素带动，公司整体营业收入实现同比增长。

此外，由于标准化数据集产品收入占比大幅提升，同时公司整体数据交付能力在管理能力优化、平台技术提升、供应链进一步整合和扩展等因素的共同推动下，使训练数据定制服务的毛利率也同比显著增长，共同驱动公司整体毛利率增加至66.46%。此外，应收账款减值减少导致信用减值损失同比下降。以上因素共同驱动公司全年净利润大幅增长，实现扭亏为盈。

报告期内，公司实现营业收入2.37亿元，较上年同期增长39.45%；归属于母公司所有者的净利润1,133.61万元，较上年同期增加4,172.13万元；归属于母公司所有者的扣除非经常性损益的净利润为497.35万元，较上年同期增加4,844.42万元；经营性现金流净额2,873.34万元，较上年同期增加5,977.96万元。截至报告期末，公司总资产为8.08亿元，归属于母公司的所有者权益为7.43亿元，分别较期初减少1.95%和4.99%。2024年公司具体经营情况如下：(一)核心业务板块经营情况
1. 训练数据全球化业务
2024年，受益于大模型技术的快速发展以及应用领域不断拓展，以智能终端厂商为代表的科技巨头纷纷加大多模态数据投入，全球数据服务市场持续增长。在此背景下，公司凭借多年在语言研究方面的技术积累、以及全球领先的标准化数据集产品储备，进一步赢得了境外客户信赖。

与此同时，《促进和规范数据跨境流动规定》等法规出台，为数据出境提供了更为高效简明的路径。得益于行业发展以及政策环境的改善，截至报告期末，公司境外业务收入较上年同期显著增长89.53%至1.14亿元。

此外，为更好把握行业机遇、进一步扩大全球客户辐射范围，公司从体系搭建、市场研究、品牌升级、营销推广等多维度提升业务、客户触达及服务能力。报告期内，公司持续加强境外销售团队建设，进一步织密客户服务网络；同时，通过参与包括WebSummitQatar、ICASSP、AIEXPOTOKYO、AutosenseandInCabin、CVPR、ACL、Interspeech、SLT及NeurlPS等全球知名行业及AI学术顶会，以及布局搜索广告投放、社交媒体矩阵等多类宣传渠道等方式，向全球市场展示公司先进技术实力及创新产品，提升行业影响力和美誉度。2024年公司获得由AcquisitionInternationalMagazine颁发的"BestAI-PoweredDataSolutionsCompany"奖项和Datarade颁发的"TopAITrainingDataProvider"奖项。截至报告期末，公司境外客户数量已超过260家。

报告期内，公司通过在新加坡投资设立控股公司的方式拓展海外首个自主可控的数据交付基地，在订单、产能两端同步实现增量覆盖，不仅有助于培育新的营收增长点，更为下一步提升海外定制化业务能力奠定基础。

2. 大模型数据服务业务
伴随大模型技术的不断突破，人工智能行业被按下发展“快进键”，数据作为大模型的“燃料”，已成为模型公司打造差异化优势的战略性资源，高质量数据需求快速增加。报告期内，公司不断拓展自身大模型数据服务能力，从预训练、后训练、到指令微调、对齐、评测等全链条环节为客户提供立体支撑；同时，也逐渐从通用的基座模型的数据服务，拓展至艺术、工业、教育、医疗等多类垂直领域；服务的客户范围也已覆盖至主要大模型厂商和研究机构。报告期内，公司持续加大大模型数据方向的研发投入，增厚大模型领域的数据储备，新增开发了多类多语种、多音色、多情感、多场景的ASR和TTS语音数据集；以及服务视觉理解以及视觉生成的视觉数据集；同时，前瞻性建设了用于提升大模型推理能力的CoT数据集，通过详细的推理步骤注释，让大模型学习从问题到答案的逻辑推导过程，有效填补传统数据集缺乏推理结构的空白。与此同时，为更好理解大模型技术方向，报告期内，公司通过前瞻性研究，探索大模型数据的规模化生产方式，全面助力公司大模型业务的扩张。公司已和清华大学联合启动多语种语音大模型研发计划，该项目将基于最新的E-Branchformer、CTC-Attention技术，自研东方40语种、以及中国22方言数据清洗技术，训练了0.1B-1.7B等4个不同规模的语音大模型，模型效果达到了业界同等尺寸的领先水平。公司的算法团队联合清华大学语音与音频技术实验室充分利用公司海量高质量语音数据集储备，充分发挥各自所长，促进大模型技术在数据生产领域的更深层次的应用。

3. 智能驾驶行业数据服务业务
2024年，为更好抢抓智能驾驶行业机遇，同时应对更为复杂的数据处理需求，公司加大了对高级别数据标注工具的研发力度，截至报告期末，DOTS-AD平台新增3D动静分离标注工具，BEV多图层4D车道线标注工具，并升级点云分割工具支持连续帧叠加标注和大点云分段加载、点云区域分割等核心能力，有效支撑了自动驾驶BEV和OCC主流算法演进对数据标注工具的需求。此外，公司不断优化算法中台中枢能力，开发了2D&3D融合的动静分离检测追踪算法，在点云连续帧融合产线实现提效30%以上；迭代优化点云分割算法和地面检测算法，在点云分割产线实现提效20%以上；研发3D点云预刷式跟踪技术、4D点云重建技术，均取得了20%以上的提效成果。

此外，为进一步支撑我国车企的国际化战略，公司在全球范围内扩展了道路采集业务，可提供包括采集方案设计、采集人员组织、车队管理、车辆改装及数据清洗与脱敏等在内的全链条服务。截至报告期末，公司采集业务已覆盖包括德国、西班牙、捷克等多个国家，为公司构建智能驾驶全球化数据服务能力奠定了基础。同时，舱内支撑DMS和OMS研发需求的采集业务也已拓展至俄罗斯、奥地利等多个欧洲国家，为众多客户出海业务提供有力数据支持。

(二)核心技术能力建设情况
2024年，按照技术+产品双轮驱动的定位，公司继续保持有竞争力的研发投入强度，不断提升技术和平台工具先进性、在大模型数据处理技术方向进行积极探索储备、巩固标准化数据集产品储备、增厚语音语言学基础研究领先性，持续巩固公司核心竞争力。报告期内，公司研发费用共计6,343.91万元，占当期营业收入的26.76%。截至报告期末，公司研发人员数量79人。

1. 算法及平台能力建设、大模型数据处理技术持续探索储备
报告期内，公司持续加大基础研发投入，进一步提升人工智能基础算法、一体化数据处理平台、前沿技术研发等领域能力；在智能驾驶数据处理综合性平台上继续提升自动化能力，并落地更多面向智能驾驶数据预处理的相关算法；同时，在面向大模型预训练、后训练、微调、对齐及评测技术上持续保持技术探索、储备，推动相关领域的数据服务，并形成了一些代表性成果：1.1算法
智能语音领域，完成Whisper推理框架升级、显存占用降低59%、推理延迟降低59%，新增ASR模型11个、语音识别算法支持语种数增至130+个，大幅提升了算法在实际项目中的降本增效能力。在计算机视觉领域，引入Detzero-track、CenterPoint、Lane-Marking-Detection、FaceFusion、roop、Ultralytics、BoT-SORT等有代表性的计算机视觉框架或算法，上线3D点云目标检测多模型融合算法、4D大点云车道线检测算法、GDINO-零样本目标检测等算法，优化2D细分类视频跟踪算法、2D异形红绿灯跟踪算法、4D车道线长度动态自适应调整算法等多个智能驾驶场景下的模型，并新增超过27种不同场景的视觉类算法预处理技术。在大模型算法领域，针对公司自有知识产权的语音数据集，设计通用的数据清洗、模型训练、模型评测框架，已完成数据清洗pipeline搭建，并初步清洗出通用格式的语音数据数十万小时，同时完成语音大模型训练所需要的算力集群搭建、算法框架研发、模型训练pipeline搭建、并完成东方语种语音大模型的训练、微调、评测等。针对视觉大模型应用领域，构建起基于特征向量的去重技术、美学评分模型、图文生成模型等多个基础能力，并在项目中投入应用，取得了良好的降本效果。

1.2平台
公司在训练数据生产与管理的一体化平台建设方向精耕细作，展现了一系列创新成果，具体可归结为以下核心维度：
（1）重点推进以数据为核心的一体化平台体系建设，通过集中研发DataX数据中台，优化整合原有数据存储、数据可视化和数据流转等功能，全面提升一体化数据处理平台的处理过程柔性管理能力，数据处理管道新增可视化编排工具，集成20+新型算子，实现了十余类核心预处理算法模型自动化对接、数据切片、数据加工处理管道的快速搭建与灵活编排，以及数据处理算子集成与统一管理，共计近60个功能点。

（2）实现贯穿数据采标、模型训练、模型效果展示全生命周期管理：重点优化多源多模态非结构化与结构化数据的标准化与一致性管理，以及点云与图像类算法模型对比与模型评测支撑能力。深度集成预处理算法库，算法评测体系扩展至15+量化指标，支持多模型对比测试与算法结果可视化展示，扩展模型版本效果量化对比展示及分析能力等超60个功能点，大幅提升公司对训练数据的一站式全生命周期管理能力，形成从数据管理到模型迭代的完整算法增强闭环。

（3）积极投入人工智能数据运营平台的全链路智能化体系革新，重点建设数据共建共享机制、全面升级多模态AI标注算法矩阵、有效优化分级流通合规保障体系等核心功能，创新研发自动化标注工具集群，搭建覆盖开源开放、成员共建、可信空间的三级数据生态，形成覆盖文本、语音、图像、视频的智能化处理矩阵。同时，逐步建设形成从资质认证、脱敏加密到合规审计的全流程安全管控体系，强化跨平台数据流动追溯与多角色协同能力，构筑起集数据汇聚、生产、治理、流通、应用于一体的智能化基础设施平台，推动数据要素市场基础设施向智能化、合规化、生态化方向加速演进。

通过上述投入，截至报告期末，公司共获得专利授权41项，获得登记的软件著作权180项。

同时，公司实质性地提升了自身的数据全生命周期管理与运营能力、算法能力、工程化数据研发及生产能力，形成了更为合理、高效的人机协同智能化解决方案，持续降低训练数据开发成本，以AI赋能训练数据开发，以训练数据驱动AI产业发展。

2. 标准化数据集产品
标准化数据集产品，是公司区别于众多竞争对手以定制化服务为主的特有商业模式，也是公司核心竞争力之一，标准化产品是公司基于未来行业需求的研判，在市场需求出现之前，预先开发的数据集，具有即用即取的特点，可帮助客户大幅缩短模型研发周期并有效降低数据投入成本。

同时，由于产品本身的知识产权由公司享有，具有一次性研发生产、可重复多次销售的特点，因此可更好帮助公司实现未来可持续性销售、以及毛利空间提升。

因此，为更好适应行业发展需求，公司2024年在产品研发方面持续投入，用于开发覆盖智能语音、计算机视觉以及自然语言等传统深度学习以及大模型领域的相关数据集产品。截止报告期末，公司新增研发超150个训练数据集产品，自有知识产权的训练数据产品储备超过1,700个，尤其在多语种及多音色语音数据集和发音词典、动作捕捉等多模态数据集、以及多语种OCR和手写体数据集等方面积累了更丰富的标准化产品资源，并建成包括“大语言模型中文对话预训练数据集”、“语音大模型（声音复刻、歌曲）预训练及微调数据集”、“视觉大模型（图像-文本）预训练及微调数据集”等在内的多领域大模型数据集。截止报告期末，公司标准化数据集产品储备情况如下：

业务类型	应用领域	储备量（截止 2024年末）	储备量（截止 2023年末）
智能语音	个人助手、语音输入、智能家居、智能客服、机器人、语音导航、智能播报、语音翻译、移动社交、虚拟人、智慧金融等	1,179个	1,088个
计算机视觉	智能驾驶、移动社交、虚拟人、智慧金融、智慧交通、智慧城市、OCR识别等	177个	163个
自然语言	通用AI大模型、机器翻译、智能问答、信息提取、情感分析等	360个	307个
合计	1,716个	1,558个

截止报告期末，公司已向下游客户提供了累计超过9,500次/个定制或标准化训练数据集，并已应用于个人助手、语音输入、内容生成、智能家居、机器人、语音导航、智能客服、智能播报、语音翻译、移动社交、虚拟人、智能驾驶、智慧医疗、智慧教育、智慧交通、智慧城市、智慧金融、机器翻译、智能问答、信息提取、情感分析、OCR识别等22类创新应用领域，赋能人工智能技术与实体经济的深度融合。

3. 语音语言学能力
随着全球化扩张成为头部AI企业收入增长的重要引擎，多语种数据的作用和价值更加凸显。

为更好满足客户多语种拓展需求，公司持续保持语音语言学研究力度，在语音语言学基础研究方面，公司不断丰富合作语言学家团队资源，成员遍布世界各地的学校及研究机构，在语音语言学领域具备丰富经验和技术储备。截止报告期末，公司已经拥有超过205个语种/方言的覆盖能力，不仅包括含英、法、德、意、西、日、韩等常见语种，还包括东南亚、一带一路等国家地区的罕见小语种，尤其在亚洲小语种、中东欧小语种的服务上具备竞争优势。同时，公司建立了成熟的发音词典构建流程，公司已积累下近140个多语种的发音词典，覆盖波斯尼亚语、塞尔维亚语、巽他语、尼泊尔语、奥利亚语、基隆迪语、茨瓦纳语、达利语等小语种，累计词条数超过1,200万条，可支撑构建高质量的智能语音、以及多模态训练数据，是公司的主要竞争壁垒及核心技术之一。

(三)其他综合能力建设情况
1. 数据安全及合规
2024年，中央和地方出台了一系列有关数据要素、数字经济的法律法规和政策，同时，《促进和规范数据跨境流动规定》等法规出台，都对企业的数据安全水准和能力提出了更高要求，也为企业在数据要素、人工智能等领域的发展提供了新的机遇。

公司一直以来非常重视数据安全管理以及相关能力的提升，并将其作为把握新发展机遇所必须练好的“基本功”。2024年，公司在数据安全方面取得了多项工作成果。公司“AIGC训练数据业务的综合合规管理机制”案例荣获中国互联网协会首届“金灵光杯”中国互联网创新大赛企业合规赛道优秀奖。公司积极参与行业发展，提出立法建议、参与行业调研，数据安全能力获得广泛认可。

公司也一直坚持统筹安全与发展并重的原则，在守住安全合规底线的前提下积极拓展包括数据跨境流通在内的数据要素业务。

2. 供应链体系
2024年，在AI大模型技术快速迭代的驱动下，公司战略布局医疗、金融、法律、艺术等垂直领域，深度整合产学研资源，通过与各行业的专业机构及专家的合作成功构建了覆盖诊断、智能投顾、合规风控、数字版权等细分场景的供应链资源池，不仅提升了供应链体系的响应敏捷度与行业适配性，更通过知识图谱与区块链技术的融合应用，实现了跨领域资源的智能匹配与全流程可信溯源，显著增强了供应链生态的多样性与专业壁垒。

在战略供应商生态构建方面，公司深度践行“共生共赢”理念，与战略供应商建立了长期稳定的合作关系，加强了与供应商的风险共担机制，共同应对市场波动和不确定性。

公司也进一步优化了供应链网络，特别是在海外一手资源群体的扩展方面取得了重要进展。

通过建设大型数据基地及精细化管理资源池，供应链的多样性和稳定性得到了显著提升，为实现可持续性产能扩张和成本优化奠定了坚实基础。

在供应链管理体系建设方面，通过建立更细致的成本核算模型和流程监控节点，实现了对供应链各环节成本和效率的精准把控。同时，全面升级线上管理系统，实现了订单处理、资源配置和结算审批的一体化和实时化。

3. 人力资源
报告期内，公司完成销售、生产、研发体系的绩效管理机制优化，并对内部反馈机制及奖金核算机制进行迭代，以期增强绩效牵引力实现更加公平和富于激励性的管理效果。上半年公司组织多种类专项培训及人才发展项目，在大模型领域的探索与应用进行广泛深入的内部交流，组织销售、生产、职能等多体系的软技能培训，对应届高潜毕业生、新锐力量、中坚力量、中高层管理人员采取不同的梯队建设规划，以保障人才队伍的不断夯实。文化建设方面，强化高度敬业和持续创新文化，进行榜样之星等多样化的文化倡导和活动辐射，打造更加尊重信赖和追求卓越的组织基因。同时在人才引进方面，启动海外人才招募、研发专项人才和高潜毕业生吸引计划，引入多名欧美同业专家、优质研发人员、及卓越背景应届毕业生，充实销售、研发及项目交付队伍的人才密度，发展健康、可持续、多元化的人才队伍。

非企业会计准则业绩变动情况分析及展望
□适用√不适用
二、报告期内公司所从事的主要业务、经营模式、行业情况及研发情况说明 (一)主要业务、主要产品或服务情况 1. 主要业务情况公司主要从事AI训练数据的研发设计、生产及销售业务。公司通过设计数据集结构、组织数据采集、对取得的原料数据进行加工，最终形成可供AI算法模型训练使用的专业数据集，通过软件形式向客户交付。自2005年成立以来，公司始终致力于为AI产业链上的各类机构提供算法模型开发训练所需的专业数据集。经过多年发展，公司已成为人工智能基础数据服务领域具有较强国际竞争力的国内头部企业，并实现了标准化产品、定制化服务、相关应用服务全覆盖。公司所提供的训练数据涵盖智能语音（语音识别、语音合成等）、计算机视觉、自然语言等多个核心领域，全面服务于人机交互、智能家居、智能驾驶、智慧金融、智能安防等多种创新应用场景。公司的产品和服务已获得阿里巴巴、腾讯、百度、科大讯飞、海康威视、字节跳动、微软、亚马逊、三星、中国科学院、清华大学等国内外客户的认可，应用于其研发的个人助手、智能音箱、语音导航、内容生成、搜索服务、短视频、虚拟人、智能驾驶、机器翻译等多种产品相关的算法模型训练过程中。目前公司客户累计数量超过1,050家，覆盖了科技互联网、社交、IoT、智能驾驶、大模型等领域的主流企业，以及政企、教育科研机构。图：公司产品服务矩阵示意
2. 主要产品及服务情况
2.1主要产品及服务按业务类型分类
公司研发、生产的训练数据覆盖了智能语音、计算机视觉及自然语言处理三大AI核心领域，广泛应用于算法模型的开发、训练、优化、应用场景拓展等环节。此外，公司还提供与训练数据相关的应用服务。

（1）智能语音
人工智能在语音领域的应用技术主要包括语音识别、语音合成等。

语音识别（AutomaticSpeechRecognition，ASR）是让机器能够“听懂”人类语音的技术，它能使机器自动将语音信号转换为对应的文本信息。

语音合成（TexttoSpeech，TTS）是让机器能够“说出”人类语音的技术，它使机器能将文字信息转化为流畅的语音“朗读”出来，相当于给机器安上了人工嘴巴。

以日常生活中的情景为例，语音输入法、即时通讯软件运用了语音识别技术将用户输入的语音实时转换为文字，实现了软件“听懂”语音并“听写”出文字的效果；而地图、导航软件则运用语音合成技术，实现了软件“发声说话”的效果，为用户提供即时语音导航。

公司通过设计（设计训练数据集结构、供发音人朗读录制的语料文本或对话场景、发音人分布、录音设备场景等）、采集（定义合适的发音人、选取录音设备及软件、组织发音人朗读录制音频）、加工（对音频文件进行切分、标注各类声音特征，形成带时间戳和特征标签的文本和标注文件等）、质检（对数据集进行质量检测，如音字一致性、标注准确率检查等）等训练数据集生产环节；或者针对客户提供的原料音频文件执行加工、质检工作，最终形成客户所需的智能语音训练数据集。

（2）计算机视觉
计算机视觉（ComputerVision，CV）是使机器具备“看”的功能的技术，它使得智能驾驶、智能家居、手机、安防设备等机器能够代替人眼对目标进行识别、跟踪和测量等。

以日常生活中的情景为例，在汽车的自动驾驶功能中，计算机视觉技术使得汽车能够“看见”并识别行车过程中的各种行人、路况场景，为后续作出相应的反应奠定基础；在机场、车站安检中，计算机视觉技术使得人脸识别设备能够识别被检验人员是否为其出示的身份证件显示的人员。

公司通过设计训练数据集结构、采集（如定义合适的人脸、动作、场景作为采集对象，组织被采集人按照要求拍摄照片、录制视频等）、加工（对图像、视频文件进行打点、拉框、分割标注等）、质检（对数据集进行质量检测，如检验图片、视频文件格式是否正确，检查光照环境、物体种类的数量是否达标，打点标框的准确率是否符合要求等）；或者对客户提供的图像、视频文件执行加工、质检工作，最终形成客户所需的计算机视觉训练数据集。

（3）自然语言处理
自然语言处理（NaturalLanguageProcessing，NLP）是使机器能够像人一样理解语言意图的技术。

以日常生活中的情景为例，寄送快递时使用的“智能填写”功能即运用了自然语言处理技术，在输入框中填入整段联系信息，软件应用能够理解语义，并从中识别及提取“收件人”、“联系方式”、“地址信息”等所需信息，完成自动填写；智能客服、聊天机器人等人机交互程序也运用了自然语言处理技术，使得程序、机器能够读懂人类语言的真正意图，并相应做出反应、提供服务等。

公司通过设计训练数据集结构、采集（收集或编写自然语言文本、对话等数据信息）、加工（对自然语言文本数据进行单词分割、词性标注、语义语法标注、情感属性标注等）、质检（对数据集进行质量检测，如检验文本、词性或者语义的标注结果是否准确等）；或者对客户提供的自然语言文本执行加工、质检工作，最终形成客户所需的自然语言训练数据集。

（4）训练数据相关的应用服务
公司开放基于多年行业经验打磨的数据处理工具集及平台，提供包括公有云访问、私有化部署及SaaS化服务的多种能力，满足产业链上各类企业对于数据处理工具及平台能力的需求。

公司基于自身生产的训练数据提供算法相关的模型训练服务、模型评测服务及模型应用服务，运用训练数据研发能力助力下游客户完成其算法模型的语言拓展、特定算法模块拓展、垂直应用领域拓展等，为客户定制针对特定应用场景的专属算法模型，提高AI技术应用效果。

前述产品、服务均以公司生产的专业训练数据集为核心或基础。公司通过设计训练数据集结构、组织原料数据采集、对取得的原料数据进行加工，最终形成可供算法模型训练使用的专业数据集。

成品训练数据集主要由数据文档、说明文档、技术文档三部分构成。以智能语音训练数据集为例，成品训练数据集包含原始采集形成的音频文件、与音频文件对应的带有时间戳的标注文件，训练数据集相关的设计文档、训练数据集说明，发音词典，数据集参数信息文件等，图示如下：图：训练数据集结构（智能语音）示例 2.2主要产品或服务的终端应用场景公司提供的高质量、大规模、结构化的训练数据，为算法模型的训练拓展提供了可靠的训练素材，助力AI技术实现实践应用及商业化落地，赋能AI技术与实体经济深度融合。公司提供的训练数据广泛应用于众多主流AI产品及终端应用的训练过程中，覆盖了个人助手、语音输入、内容生成、智能家居、机器人、语音导航、智能客服、智能播报、语音翻译、移动社交、虚拟人、智能驾驶、智慧医疗、智慧教育、智慧交通、智慧城市、智慧金融、机器翻译、智能问答、信息提取、情感分析、OCR识别等多种应用场景。图：训练数据集服务的算法模型应用场景示意
(二)主要经营模式
1. 盈利模式
与主要产品及服务类型对应，公司的盈利模式主要包括以下三类：
（1）定制服务：公司根据客户需求提供定制训练数据集并收取服务费。在此种模式下，公司享有服务费收入，不享有最终生成的训练数据的知识产权，不可将此类业务生产的训练数据向其他客户重复销售。（2）标准化产品：公司开发自有知识产权的训练数据集产品，通过销售训练数据集产品的使用授权许可，获取让渡资产使用权收入。此类训练数据集一经开发完成，可多次销售并获取授权许可收入。（3）训练数据相关的应用服务：公司基于积累的训练数据和多年行业经验提供数据处理工具集及平台服务、算法相关的模型训练、模型评测及模型应用服务，通常以软件授权或软硬件一体化形式交付平台产品、算法模型拓展、开发成果等，获取让渡资产使用权收入和技术服务等收入。 2. 生产或服务模式（1）训练数据集生产模式公司通过设计训练数据集结构、组织原料数据采集、对取得的原料数据进行加工，最终形成可供算法模型训练使用的专业数据集。图：训练数据生产过程示意图
公司的训练数据生产过程主要包括四个环节：设计（训练数据集结构设计）、采集（获取原料数据）、加工（数据标注）及质检（各环节数据质量、加工质量检测）。

（2）训练数据相关的应用服务模式
公司开放基于多年行业经验打磨的数据处理工具集及平台，提供包括公有云访问、私有化部署及SaaS化服务的多种能力，满足产业链上各类企业对于数据处理工具及平台能力的需求。

公司基于其生产的训练数据提供算法模型相关的训练、评测及应用服务，助力下游客户完成其算法模型的语言拓展、特定算法模块拓展、垂直应用领域拓展等，为客户定制针对特定应用场景（例如特定行业、特定口音等）的专属算法模型，提高AI技术应用效果。

以某大型科技公司客户项目为例，客户研发了特定语音识别算法模型，需要根据算法模型的实际场景（如法院庭审场景）开发落地应用。公司承担了部分落地应用拓展相关的开发工作，围绕客户的算法模型和接口开发，最终协助客户算法模型实现多个麦克风收集庭审语音内容并实时转成文字记录入系统的功能。

3. 采购模式
按照采购的内容及主体划分，公司的采购包括：
数据服务采购：公司在数据采集、加工环节中，向人力资源服务等类型的公司等供应商采购的，非核心技术环节的原料数据采集、标注服务。

岗位服务采购：主要针对临时性的、不设长期岗位的业务领域的外包采购，如保洁、临时招聘服务、少量实习生招聘等。

其他采购：（1）训练数据生产所需的资产，主要包括软、硬件设备及其他需求物品采购；（2）日常运营所需的资产及物品，如办公用房、车辆、办公家具、计算机设备等；（3）日常专项服务采购等，主要包括审计服务、会议服务、差旅服务等。

上述原料数据采集、加工环节所涉及的数据服务采购，为公司最主要的采购类别，由集采中心负责；各部门岗位服务采购由人力资源部负责；其余日常运营相关的资产物品采购、专项服务采购等非业务采购由集采中心负责。财务中心负责参与采购供应商的遴选、监督与管理，并对采购费用进行核算及结算。

经过多年的发展，公司已经建设有完善的《海天瑞声采购管理制度》、《海天瑞声项目资源采购管理制度》、《海天瑞声供应商管理制度》、《海天瑞声岗位服务采购管理制度》等内部规范制度，设立有完善的采购流程和体系，并与主要的供应商形成了良好稳定的长期合作关系。

4. 营销模式
公司采用直接对接并服务客户的直销模式进行营销，符合行业通行惯例。公司以高质量的训练数据集及相关服务吸引客户，并在持续服务客户的过程中提升服务价值和客户黏度。公司通过直接拜访潜在客户、参与学术会议和行业展会新产品发布、搭建并持续升级公司官方网站和建立自媒体矩阵等方式提升品牌知名度、开拓新客户，后续再通过商务谈判、招投标等形式获取具体业务机会。

(三)所处行业情况
1、行业的发展阶段、基本特点、主要技术门槛
1.1行业的发展阶段、基本特点
（1）政策、技术、应用协同共振，全球AI产业迈入高速发展新阶段
当前，全球人工智能产业正迎来历史性发展拐点，政策、技术与应用的三重共振推动行业进入高速增长通道。中、美、欧三大经济体持续加码AI布局：中国通过《新一代人工智能发展规划》和《"十四五"数字经济发展规划》等构建了涵盖技术研发、资源建设和标准制定的全链条政策体系；美国则依托《人工智能行政令》和星际之门计划（Stargate）等，持续巩固其在人工智能基础设施领域的领先优势；欧盟以《人工智能大陆行动计划》为纲领，配套《数字欧洲计划（2025-2027年工作方案》专项资金，重点培育AI与高性能计算融合创新。技术层面，人工智能也正在经历革命性突破，DeepSeekR1等开源模型通过性能提升与成本优化的双重突破，显著降低了技术应用门槛；多模态大模型（如Sora、GPT-4o）也在不断拓展AI能力边界，实现全模态互动能力。这种技术平权运动正在加速AI向千行百业渗透，大模型已逐步开始向金融、医疗、制造等核心领域进行新一轮的赋能，智能风控、AI辅助诊断、智能制造等应用场景不断丰富，推动各行业效率提升和模式创新。全球AI产业也将在上述政策引导、技术迭代与商业落地的正向循环下，迎来前所未有的发展机遇，加速向规模化、价值化阶段迈进。根据国际数据公司（IDC）的数据，2024年全球人工智能(AI)IT总投资规模为3,158亿美元，预计在2028年增至8,159亿美元，年复合增长率(CAGR)为32.9%。数据来源：国际数据公司（IDC）
中国作为全球科技大国，也深度受益AI技术发展。根据艾瑞咨询的数据，2024至2029年中国AI产业将保持32.1%的年均复合增长率，在2029年突破1万亿的市场规模。

（2）训练数据作为AI发展和演进“燃料”的作用更加凸显，并逐渐成为大模型竞赛中的重要决定性要素
在AI产业链中，算法、算力和数据共同构成技术发展的三大核心要素。过去十多年，人工智能产业以算法为核心，通过深度学习算法的不断创新，推动人工智能产业的快速发展。但未来，当更多先进算法趋于开源，算法的差异化壁垒逐渐消除；此外，以DeepSeek为代表的算法架构创新和工程优化，带来了训练以及推理成本的大幅下降，这也意味着算力将不再是制约AI发展的核心因素。在此背景下，训练数据的重要性被进一步放大，成为未来AI发展的关键驱动因素。数据的质量、规模和精准性将直接决定模型能力的上限，高质量的训练数据不仅能显著提升模型的推断可靠性，还能有效减少幻觉和错误信息的产生，成为模型落地效果的关键。因此，高质量数据需求将呈现快速增长趋势。

根据Cognilytica数据统计显示，预计2027年全球AI训练数据市场规模将增长到220亿美元，2021-2027年复合增长率达32%。

数据来源：Cognilytica 中国作为全球人工智能产业增速最快的国家之一，相关数据需求也在快速增长。根据艾瑞咨询的数据，2024年中国人工智能基础数据服务市场规模为58亿元，2028年规模将达到170亿元，年复合增长率为30.84%。数据来源：艾瑞咨询
（3）数据要素市场蓬勃发展，数据行业迎来更为广阔的发展机遇
党的二十届三中全会对加快构建促进数字经济发展体制和机制，完善数据要素市场制度规则等作出部署，为中国数据要素市场化改革发展指明了方向。2023年国家数据局成立以来，我国坚持推进数据要素市场化配置改革“一条主线”，统筹数字中国、数字经济、数字社会“三个建设”的工作思路，推动数据工作更好服务高质量发展。同时，探索完善数据基础制度体系，加快推进数据基础设施建设，提升数据资源开发和利用水平。国家数据局联合多部门制定《“数据要素×”设施建设指引》《关于促进数据标注产业高质量发展的实施意见》等一系列数据产业发展指导意见，体现国家高度重视数据产业高质量发展，《关于促进数据产业高质量发展的指导意见》指明了数据技术和产业重点发展方向；《关于促进数据标注产业高质量发展的实施意见》明确提出培育壮大数据标注产业对于提升数据供给质量，推动人工智能创新发展具有重要支撑作用。

全国各地数据要素市场化配置改革也在加速推进。例如，北京市制定2024数据工作要点，在探索和实践数据基础制度先行示范区、人工智能数据训练基地的基础上，提出“一区三中心”的建设总体思路，开展“高端数据标注基地”建设，不断完善数据基础制度，激发数据要素活力。

2024年国家公布了7个数据标注基地试点城市，数据标注规模再创新高，数据标注总规模达17282TB，相当于中国国家图书馆数字资源总量的6倍左右。其中，成都市发展改革委印发《2024年成都市数字经济发展工作要点》，成都市大数据集团探索精准安全的公共数据开发运营新模式，搭建“成都市公共数据运营服务平台”，保障不同市场主体平等获取数据要素，实现数据要素配置效益最大化、效率最优化。2024年长沙市政府印发《长沙市关于推进国家数据标注基地建设的工作方案》，同时配套出台《长沙市关于推进国家数据标注基地建设若干政策（试行）》，从聚焦加快培育标注产业、支持技术创新攻关、加强专业人才培育、促进数据服务赋能等四大方面推出了14条产业政策，加大扶持力度。沈阳市推动数据要素市场化配置改革，探索数据交易服务机制，实施《沈阳市公共数据授权运营管理办法（试行）》，开展公共数据授权运营探索实践。其他地方政府也非常关注高质量数据集和数据标注产业的发展。例如，呼和浩特市政府印发《关于构建数据基础制度更好发挥数据要素作用的实施方案》，加快构建数据制度，激活数据要素潜能，更好发挥数据要素作用，增强经济发展新动能。打造内蒙古数据要素产业园，创建数据标注基地。

总体来看，随着“人工智能+”和“数据要素×”等国家战略行动计划的实施，全国各地均在加速推进数据要素市场化配置改革，未来将以高质量数据集建设，夯实人工智能数据基石，推动数字经济高质量发展为目标，围绕数据的汇聚、治理、标注、运营、评测、开发利用以及流通交易全流程，将产生包括数据汇聚、数据治理、数据标注、数据运营、数据评测、数据应用、数据流通、可信数据空间、数据标注基地运营等在内的新业态、新模式，将成为我国数字经济发展的新增长极。

（4）训练数据领域的未来发展趋势
随着DeepSeek、GPT-4o等成为全球范围内的现象级应用，以及以手机、具身智能为代表的AI终端的快速推出，人工智能迎来了新的发展机遇，其背后的大模型技术也正在带来相关数据需求的变化和增长。

a.多模态大模型正成为人工智能发展的新趋势，多模态数据需求显著上升当前，大模型正经历从单模态到多模态的范式转变。多模态技术的本质在于跨模态信息融合，即通过协同处理文本、图像、音频、视频等不同形式的数据，使AI具备更接近人类的全维度认知能力。这种演进不仅显著提升了模型在跨模态任务中的鲁棒性，更解锁了诸如视觉问答、跨模态生成、智能语音交互等复杂场景的应用潜力。

以视觉问答为例，系统需同时解析图像中的视觉元素和文本问题的语义信息，并通过模态对齐与知识推理生成准确回答。这一过程的实现，依赖于海量高质量的图文对数据。数据服务商需构建覆盖多样化场景的问答对，通过模拟真实世界的视觉推理逻辑，训练AI建立视觉-语言联合表征能力。而在语音合成领域，要实现富有表现力的拟人化发声，仅有时序对齐的文本-语音数据远远不够，还需引入情感标签、语调标记、韵律特征等细粒度标注，让AI精确捕捉人类语言中的情感起伏和表达风格。

实践证明，数据质量与多样性是多模态AI发展的决定性因素：一方面，优质数据定义了模型的能力上限；另一方面，数据分布的广度直接关系到技术落地的普适性。未来，随着多模态数据生态的持续完善，AI的感知与认知能力有望实现新的跨越。

b.大模型发展正在从"规模驱动"向"推理驱动"转型，高质量思维链（CoT）数据成为提升大模型复杂推理能力的关键突破口
随着DeepSeekR1的推出，思维链技术（ChainofThought,CoT）迅速成为AI领域的研究热点。这项技术通过引导模型模拟人类逐步推理的过程，显著提升了其在逻辑推理、数学计算及复杂问答等任务中的表现。

过往几年，大语言模型（LLM）的发展主要遵循ScalingLaw（规模定律），即通过扩大模型参数量和训练数据规模来提升性能。然而，随着知识积累的边际效益逐渐降低，仅单纯依赖规模的增长已难以实现质的飞跃。于是，让AI像人类一样进行深度、有序的“慢思考”，成为突破现有认知能力瓶颈的关键方向。以数学问题为例，传统LLM往往直接输出最终答案，而省略中间推理过程，导致错误率居高不下。相比之下，具备CoT能力的模型会分步骤解析问题，先理解题意，再梳理已知条件，逐步推导计算，并最终验证结果的合理性。这种显式推理机制不仅大幅提高了模型的准确性，还使其决策过程更加透明，便于开发者理解和优化。

然而，思维链能力高度依赖高质量的CoT数据——即包含详细推理步骤的问答对。这类数据由于专业性强、标注难度高，目前仍属于稀缺资源。具体而言，优质的CoT数据需要领域专家进行人工构建，不仅要确保问题本身的复杂性，还需对解题过程中的每个逻辑进行严格验证，这种双重门槛使得数据生产周期往往长达普通标注任务的数倍。当前即便是最前沿的合成数据技术，在生成具有严密因果关系的多步推理时，仍会有相当概率出现逻辑断层，这也使得高阶人工标注目前仍是不可替代的重要数据来源。

c.从通用到垂直，高质量行业数据需求显著提升
以DeepSeek为代表的开源大模型，以其高性能、低成本，以及允许全球用户无限制商用等特点，进一步加速了AI应用的普及，激发了应用层的创新活力，使AI逐渐从通用大模型向更广泛的应用场景和行业领域拓展，AI不再局限于作为回答通用问题的智能助手，而是能够针对特定行业/场景提供解决方案，或者协助执行各类复杂任务的超级助理（AIAgent）。例如，在医疗领域，AI可以作为影像科医生辅助诊断；在法律领域，AI可以担任法律顾问提供专业咨询；同时，AIAgent也能够独立完成点外卖、制定行程、预订机票等日常任务。

AI不仅在传统行业与生活场景中展现出独特价值，在智能终端领域，同样掀起了革新的浪潮。

例如，AI在智能手机上的应用，可以帮助用户通过文字快速创作专业级摄影大片；当海量照片让整理相册成为难题时，可以快速通过文字描述定位对应图像，实现即时快速检索。在交互层面，AI赋能的语音助手也有质的飞跃。如今的语音助手不再是简单的指令执行者，它们能理解各种不同语种、不同场景下，复杂的语义和情感，并用不同的音色情感与用户进行交互。

与以往通用数据处理需求不同，垂向领域的数据处理更加注重专业性。例如，传统的自然语言处理只包括基本的文本处理工作，例如，分词、词性、正则化等标注需求，这些任务无需标注人员具有特定的行业知识；相对地，开发专门领域，例如医疗大模型，则要求标注人员不仅具备扎实的医疗专业知识，还要能够熟练使用医疗术语进行专业场景下的表达，使医疗模型能够理解和生成专业的医疗内容。这种专业化的需求也对数据服务商提出了更高的要求，数据服务商不仅要对行业有深刻的理解，以设计出符合行业需求的数据解决方案，还需要具备更丰富的专家库储备，以提供高质量的数据标注服务以及相关专业咨询服务。

d.具身智能浪潮来袭，数据供给瓶颈亟待突破
具身智能作为通向通用人工智能（AGI）的关键路径与终极载体，正引领着AI发展的下一波浪潮。与传统大模型不同，具身智能的核心在于构建能够与物理世界深度交互的智能体。这不仅需要突破性的多模态感知技术（包括视觉、听觉等），更重要的是要具备基于环境感知的自主决策与执行能力。实现这一目标的关键在于海量的物理世界交互数据，目前行业主要依赖四种数据来源，机器人遥操（通过人工远程操控获取真实场景下的操作数据）、动作捕捉（记录人类在特定环境中的行为模式）、虚拟合成（利用仿真环境生成训练数据）和互联网开源数据集（整合现有的公开机器人数据）等。其中，虚拟合成技术虽解决了初期数据短缺问题，但由于"仿真差距"的存在，其数据质量往往难以满足高精度训练需求。而开源数据集则面临着数据规模有限（通常仅百万级）、采集条件单一等挑战，无法支撑复杂场景下（需要千万级数据）的模型训练需求。

当前，在具身智能蓬勃发展的大背景下，高质量的数据供给短缺问题愈发凸显，具身智能的训练数据市场呈现出巨大的供需缺口，需求旺盛且潜力巨大。

e.国家法律法规密集落地，对数据安全及合规提出更高要求
近年来，数字经济规模快速扩张，数据作为数字经济时代核心生产要素，重要性更加凸显，但数据不同于传统生产要素，其中可能涉及个人隐私以及国家安全的重要信息，因此，为更好保障数字经济长期稳定的可持续发展，建设规范、安全、合规、高质量的数据安全体系已成为迫切需求。近年，国家陆续出台包括《数据安全法》、《个人信息保护法》、《网络数据安全管理条例》等主流法律法规，为解决数据安全问题、净化行业快速发展中的不良乱象提供了切实可行的法律依据。

未来，随着AI技术不断革新，应用行业以及场景不断增加，各行业、各领域数据安全规范逐渐落地将成为趋势，对于以数据生产为主营业务的数据服务企业，数据安全及合规能力将成为数据服务能力的核心评价维度，成熟的安全合规管理体系将成为重要评价标准，能持续跟踪法律环境变化，积极响应监管政策，牢牢把握发展与安全并重的原则的企业将具有更强的市场竞争力。

1.2行业的主要技术门槛
随着AI技术不断演进、产业应用不断丰富，训练数据的市场需求呈现体量、难度、复杂性、合规性持续上升的趋势，数据服务商须同时具备对人工智能核心算法的理解能力、前瞻性的专业数据集设计能力、丰富的语言覆盖能力及场景采集能力、算法辅助数据生产能力、以及数据合规管理能力，这使得行业的技术门槛持续提升，具体体现为：
（1）在训练数据研发、生产全流程中的算法全面介入
随着AI技术应用落地的规模化效应凸显，客户对于数据规模和处理效率的要求不断提升，数据服务商须在研发、生产流程中全面引入算法以实现高效、合理的人机协作模式，进而实现降本增效的目标。一般而言，在训练数据研发、生产全流程中融入算法技术，可用于训练数据集的设计及训练数据生产的各个环节，例如调度不同类型的标注人员应对不同领域的任务、形成算法自动处理能力以帮助标注人员提升效率、降低对人员的依赖（既有人员数量的降低、也有对人员标注能力要求的降低），并构建训练数据设计、加工相关的核心技术；也可用于检查训练数据集对算法模型的训练效果，进而保障训练数据集质量。（未完）