[中报]海天瑞声(688787):海天瑞声2023年半年度报告

时间:2023年08月30日 18:07:55 中财网

原标题:海天瑞声:海天瑞声2023年半年度报告

公司代码:688787 公司简称:海天瑞声


北京海天瑞声科技股份有限公司
2023年半年度报告








重要提示
一、 本公司董事会、监事会及董事、监事、高级管理人员保证半年度报告内容的真实性、准确性、完整性,不存在虚假记载、误导性陈述或重大遗漏,并承担个别和连带的法律责任。


二、 重大风险提示
公司已在本报告中详细描述可能存在的风险,敬请查阅第三节“管理层讨论与分析”之五“风险因素”部分,请投资者注意投资风险。


三、 公司全体董事出席董事会会议。


四、 本半年度报告未经审计。


五、 公司负责人贺琳、主管会计工作负责人吕思遥及会计机构负责人(会计主管人员)杨韩声明:保证半年度报告中财务报告的真实、准确、完整。


六、 董事会决议通过的本报告期利润分配预案或公积金转增股本预案 无

七、 是否存在公司治理特殊安排等重要事项
□适用 √不适用

八、 前瞻性陈述的风险声明
√适用 □不适用
本报告中所涉及的未来计划、发展战略等前瞻性陈述,不构成本公司对投资者的承诺,敬请投资者注意投资风险。


九、 是否存在被控股股东及其他关联方非经营性占用资金情况


十、 是否存在违反规定决策程序对外提供担保的情况?


十一、 是否存在半数以上董事无法保证公司所披露半年度报告的真实性、准确性和完整性
十二、 其他
□适用 √不适用

目录
第一节 释义..................................................................................................................................... 5
第二节 公司简介和主要财务指标 ................................................................................................. 9
第三节 管理层讨论与分析 ........................................................................................................... 13
第四节 公司治理 ........................................................................................................................... 53
第五节 环境与社会责任 ............................................................................................................... 56
第六节 重要事项 ........................................................................................................................... 58
第七节 股份变动及股东情况 ....................................................................................................... 96
第八节 优先股相关情况 ............................................................................................................. 106
第九节 债券相关情况 ................................................................................................................. 107
第十节 财务报告 ......................................................................................................................... 108



备查文件目录载有公司负责人、主管会计工作负责人、会计机构负责人(会计主管 人员)签名并盖章的财务报表。
 报告期内公开披露过的所有公司文件的正本及公告的原稿。



第一节 释义
在本报告书中,除非文义另有所指,下列词语具有如下含义:

常用词语释义  
本公司、公司、 海天瑞声北京海天瑞声科技股份有限公司
控股股东、实际 控制人贺琳
中瑞智北京中瑞智科技有限公司,为公司的全资子公司
中瑞安北京中瑞安投资中心(有限合伙),为公司股东
中瑞立北京中瑞立投资中心(有限合伙),为公司股东
安徽瑞天数智安徽瑞天数智科技有限公司,为公司的全资子公司
山西瑞天数智山西瑞天数智科技有限公司,为公司的全资子公司
香港海天瑞声海天瑞聲(香港)科技有限公司,为公司的全资子公司
INFINITY AI CORPORATIONINFINITY AI CORPORATION,为香港海天瑞声的全资子公司
创世联合北京创世联合投资管理有限公司,为北京中瑞安投资中心(有限合 伙)普通合伙人、执行事务合伙人
中移投资中移投资控股有限责任公司,为公司的股东
清德投资北京清德投资中心(有限合伙),为公司的股东
上海丰琬上海丰琬投资合伙企业(有限合伙),为公司的股东
中网投中国互联网投资基金(有限合伙),为公司的股东
AppenAppen Limited,是一家成立于澳大利亚的训练数据产品和服务提供 商
数据堂数据堂(北京)科技股份有限公司
标贝科技标贝(北京)科技有限公司,是一家国内同行业的训练数据产品和服 务提供商
证监会中国证券监督管理委员会
上交所上海证券交易所
工信部中华人民共和国工业和信息化部
《公司法》《中华人民共和国公司法》
《证券法》《中华人民共和国证券法》
《上市规则》《上海证券交易所科创板股票上市规则》
《公司章程》《北京海天瑞声科技股份有限公司章程》
《个人信息保护 法》《中华人民共和国个人信息保护法》
《数据安全法》《中华人民共和国数据安全法》
报告期2023年1月1日至2023年6月30日
华泰联合证券华泰联合证券有限责任公司,公司保荐机构、持续督导机构
元、万元、亿元如无特别说明,均以人民币为度量币种
训练数据通过采集与处理等步骤形成的、结构化的、可供人工智能算法模型训 练使用的数据
算法解题方案的准确而完整的描述,是一系列解决问题的清晰指令,算法 代表着用系统的方法描述解决问题的策略机制
算力计算能力
人工智能(AI)Artificial Intelligence,是研究、开发用于模拟、延伸和扩展人 的智能的理论、方法、技术及应用系统的一门技术科学
机器学习Machine Learning,是一门专门研究计算机模拟或实现人类的学习 行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改 善自身性能的学科
深度学习Deep Learning,机器学习研究中的一个新的领域,其动机在于建立、 模拟人脑进行分析学习的神经网络,它模仿人脑的机制来解释数据, 例如图像、声音和文本
模型为解决人工智能领域的相应问题,而专门设计的某种算法框架,并通 过大量数据训练拟合来调整相应参数,最终得到能解决实际问题的 一套算法和参数
引擎是计算机平台上开发相应应用程序或软件系统的核心组件
鲁棒性鲁棒性亦称稳健性、强健性,是指计算机软件/系统在异常和危险情 况下生存的能力。例如,计算机软件在输入错误、磁盘故障、网络过 载或有意攻击情况下,能否不死机、不崩溃,就是该软件的鲁棒性
智能语音实现人机语言的通信,包括语音识别技术(ASR)和语音合成技术 (TTS)
语音识别(ASR)Automatic Speech Recognition,是一种将语音信号自动转换为文 本的技术,是实现智能人机交互的关键技术之一
语音合成(TTS)Text to Speech,即“从文本到语音”,是一种将文字智能地转化为 自然语音的技术
自然语言/自然 语言处理(NLP)Natural Language Processing, 是计算机科学领域与人工智能领域 中的一个重要方向,研究能实现人与计算机之间用自然语言进行有 效通信的各种理论和方法
计算机视觉(CV)Computer Vision, 是一门研究如何使机器“看”的科学,是指用摄 影机和电脑代替人眼对目标进行识别、跟踪和测量等
光学字符识别 (OCR)是指电子设备(例如扫描仪或数码相机)检查纸上打印的字符,通过 检测暗、亮的模式确定其形状,然后用字符识别方法将形状翻译成计 算机文字的过程
IoT物联网(IoT,Internet of things)即“万物相连的互联网”,是 互联网基础上的延伸和扩展的网络,将各种信息传感设备与网络结 合起来而形成的一个巨大网络,实现任何时间、任何地点,人、机、
  物的互联互通
智能驾驶指的是机器帮助人进行驾驶,以及在特殊情况下完全取代人驾驶的 技术
虚拟人虚拟人(VirtualHuman)是通过建模、动作捕捉或AI等科技手段, 制作出具有外貌特征和行为模式的虚拟形象,并通过显示设备呈现 出来。虚拟人创造的价值主要是打破物理的空间限制,提供了更多沉 浸感、参与感和互动感
原料数据Raw Data,即未经加工处理的原始数据
采集使用软件工具、录音设备、图像拍摄设备等收集、录制和获取原料数 据的过程
标注训练数据的生产步骤之一,指对原料数据进行加工,进而生成符合算 法模型训练要求的训练数据的过程
转写通过软件加工、人工听写等手段将语音片段转换为对应的文本的加 工步骤
词性以词的特点划分的词类,如名词、代词、动词、形容词、数词、量词 等
韵律韵律通常指语音语句中各词之间的停顿时长情况
声纹用电声学仪器显示的携带言语信息的声波频谱
音色声音的特征,指的声音在波形方面具有的与众不同的特性
AIGCAI Generated Content,又叫生成式人工智能,是指是使用机器学 习和深度学习算法,从现有数据中学习并生成新内容的一种人工智 能技术。它可以生成各种形式的数据,如图像、音频、视频和文本, 并在虚拟现实、自然语言处理、艺术创作和模拟实验等领域有广泛应 用
GPT-3GPT-3(Generative Pre-trained Transformer 3)是由美国OpenAI 开发的一种自然语言处理模型
ChatGPT美国OpenAI研发的聊天机器人程序,ChatGPT是人工智能技术驱动 的自然语言处理工具,它能够通过理解和学习人类的语言来进行对 话,还能根据聊天的上下文进行互动,真正像人类一样来聊天交流, 甚至能完成撰写邮件、视频脚本、文案、翻译、代码,写论文等任务
LlamaLlama是由Meta开发的一款大语言模型
PalmPalm是由Google开发的一款大语言模型
大模型大模型就是Foundation Model(基础模型),指通过在大规模宽泛 的数据上进行训练后能适应一系列下游任务的模型
多模态多模态机器学习(Multi-modal Machine Learning)是一种机器学 习方法,用于处理多种类型的数据,如图像、文本、音频等。它通过 将来自不同模态的数据进行整合和联合建模,以提取和学习不同模 态之间的相关信息和特征。多模态数据是指用于多模态机器学习训 练使用的跨形态数据类型
人类反馈强化学 习/RLHF英文为Reinforcement Learning from Human Feedback,缩写为 RLHF,是一种机器学习方法,旨在使智能系统从环境中学习,通过引 入“奖励”和“惩罚”信号,让系统自行探索环境并学习最佳行为
  策略,以最大化某种特定目标
Prompt提示文本,提供模型完成下游任务所需的上下文等信息,以帮助模型 更好地理解任务需求,从而更好地完成下游任务
预训练 /Pre- training预训练是通过在大规模数据集上进行初始训练,学习通用特征和表 示的机器学习方法。预训练模型可用于后续任务,并在多个领域应用 广泛
模型微调/Fine- tune微调,是一种常用于预训练模型的模型优化技术,基于已经训练好的 预训练模型进行微调,使模型能够更好地适应目标任务
奖 励 模 型 /Reward Model奖励模型(Reward Model)是在强化学习中使用的一种关键概念。它 定义了在特定任务中,智能体所追求的目标和奖励的方式。奖励模型 通过指定在智能体采取行动后,所获得的奖励信号来引导智能体的 学习和决策过程。奖励模型可以基于任务的目标设定,对智能体的行 为进行正向奖励或负向惩罚,从而影响智能体的策略优化和决策选 择





第二节 公司简介和主要财务指标
一、 公司基本情况

公司的中文名称北京海天瑞声科技股份有限公司
公司的中文简称海天瑞声
公司的外文名称Beijing Haitian Ruisheng Science Technology Ltd.
公司的外文名称缩写DATAOCEAN AI
公司的法定代表人贺琳
公司注册地址北京市海淀区成府路28号4-801
公司注册地址的历史变更情况2012年9月14日,公司地址由北京市海淀区知春路甲48 号3号楼4单元6B变更为北京市海淀区成府路28号4-801
公司办公地址北京市海淀区成府路28号4-801
公司办公地址的邮政编码100083
公司网址www.dataoceanai.com
电子信箱[email protected]
报告期内变更情况查询索引/

二、 联系人和联系方式

 董事会秘书(信息披露境内代 表)证券事务代表
姓名吕思遥张哲
联系地址北京市海淀区成府路28号4-801北京市海淀区成府路28号4-801
电话010-62660772010-62660772
传真010-62660892010-62660892
电子信箱[email protected][email protected]

三、 信息披露及备置地点变更情况简介

公司选定的信息披露报纸名称《中国证券报》《上海证券报》《证券日报》《证券时 报》
登载半年度报告的网站地址www.sse.com.cn
公司半年度报告备置地点公司董事会办公室
报告期内变更情况查询索引/

四、 公司股票/存托凭证简况
(一) 公司股票简况
√适用 □不适用

公司股票简况    
股票种类股票上市交易所 及板块股票简称股票代码变更前股票简称
人民币普通股 (A股)上海证券交易所 科创板海天瑞声688787不适用

(二) 公司存托凭证简况
□适用 √不适用

五、 其他有关资料
□适用 √不适用

六、 公司主要会计数据和财务指标
(一) 主要会计数据
单位:元 币种:人民币

主要会计数据本报告期 (1-6月)上年同期本报告期比上年 同期增减(%)
营业收入74,460,903.49114,784,441.98-35.13
归属于上市公司股东的净利润-17,241,392.6919,425,375.66-188.76
归属于上市公司股东的扣除非经常性 损益的净利润-23,104,588.438,239,795.49-380.40
经营活动产生的现金流量净额-23,873,756.60-3,435,381.42不适用
 本报告期末上年度末本报告期末比上 年度末增减(%)
归属于上市公司股东的净资产797,858,485.60829,522,849.25-3.82
总资产826,017,040.18876,927,792.15-5.81
(二) 主要财务指标

主要财务指标本报告期 (1-6月)上年同期本报告期比上年 同期增减(%)
基本每股收益(元/股)-0.290.45-164.44
稀释每股收益(元/股)-0.290.45-164.44
扣除非经常性损益后的基本每股收 益(元/股)-0.380.19-300.00
加权平均净资产收益率(%)-2.102.39减少4.49个百分 点
扣除非经常性损益后的加权平均净 资产收益率(%)-2.821.01减少3.83个百分 点
研发投入占营业收入的比例(%)43.2637.18增加6.08个百分 点

公司主要会计数据和财务指标的说明
√适用 □不适用
(1)报告期内,公司营业收入较去年同期下降35.13%,由11,478.44万元下降至7,446.09万元,主要系受境外部分客户进行阶段性裁员或业务方向调整,导致其预算释放进度放缓,同时叠加数据出境相关法规落地实施的阶段性影响,公司境外收入同比大幅下滑所致。

(2)报告期内,归属于上市公司股东的净利润为-1,724.14万元,实现归属于上市公司股东的扣除非经常性损益的净利润-2,310.46万元,分别较上年同期减少188.76%、380.40%。主要系报告期内,营业收入下滑的同时,为配合整体战略发展及业务拓展目标,公司在营销体系建设、管理架构及激励体系升级方面持续加大投入,叠加新购置办公楼带来折旧费用同比增加,使得管理费用、销售费用大幅增长所致。

(3)报告期内,经营活动产生的现金流量净额为-2,387.38万元,同比减少2,043.84万元。

主要系报告期内,受境外部分客户进行阶段性裁员或业务方向调整,导致其预算释放进度放缓,同时叠加数据出境相关法规落地实施的阶段性影响,公司境外收入同比大幅下滑显著,导致公司整体营业收入同比下降;另外,年初支付上年度已计提奖金,以及为配合公司战略发展及业务拓展目标,公司在管理架构、营销体系建设方面加大投入,相关支出大幅增长所致。

(4)报告期内,基本每股收益、稀释每股收益均较上年同期减少164.44%,扣除非经常性损益后的基本每股收益较上年同期减少 300.00%。主要系报告期内归属于上市公司股东的净利润及归属于上市股东的扣除非经常性损益的净利润降幅明显,同时2023年上半年,公司完成限制性股票激励计划首次授予部分的归属以及资本公积转增股本后,股本总额增加所致。


七、 境内外会计准则下会计数据差异
□适用 √不适用

八、 非经常性损益项目和金额
√适用 □不适用
单位:元 币种:人民币

非经常性损益项目金额附注(如适用)
非流动资产处置损益-112,971.65 
越权审批,或无正式批准文件,或 偶发性的税收返还、减免  
计入当期损益的政府补助,但与公 司正常经营业务密切相关,符合国 家政策规定、按照一定标准定额或 定量持续享受的政府补助除外1,183,781.73主要系产业扶持资金补贴等
计入当期损益的对非金融企业收 取的资金占用费  
企业取得子公司、联营企业及合营 企业的投资成本小于取得投资时 应享有被投资单位可辨认净资产 公允价值产生的收益  
非货币性资产交换损益  
委托他人投资或管理资产的损益  
因不可抗力因素,如遭受自然灾害 而计提的各项资产减值准备  
债务重组损益  
企业重组费用,如安置职工的支 出、整合费用等  
交易价格显失公允的交易产生的 超过公允价值部分的损益  
同一控制下企业合并产生的子公 司期初至合并日的当期净损益  
与公司正常经营业务无关的或有 事项产生的损益  
除同公司正常经营业务相关的有 效套期保值业务外,持有交易性金 融资产、衍生金融资产、交易性金 融负债、衍生金融负债产生的公允 价值变动损益,以及处置交易性金 融资产、衍生金融资产、交易性金 融负债、衍生金融负债和其他债权 投资取得的投资收益4,778,743.61公司为提高资金使用效益,购 买银行保本浮动收益型理财 产品取得的投资收益
单独进行减值测试的应收款项、合 同资产减值准备转回  
对外委托贷款取得的损益  
采用公允价值模式进行后续计量 的投资性房地产公允价值变动产 生的损益  
根据税收、会计等法律、法规的要 求对当期损益进行一次性调整对 当期损益的影响  
受托经营取得的托管费收入  
除上述各项之外的其他营业外收 入和支出855,533.40 
其他符合非经常性损益定义的损 益项目  
减:所得税影响额841,891.35 
少数股东权益影响额(税后)  
合计5,863,195.74 

对公司根据《公开发行证券的公司信息披露解释性公告第1号——非经常性损益》定义界定的非经常性损益项目,以及把《公开发行证券的公司信息披露解释性公告第1号——非经常性损益》中列举的非经常性损益项目界定为经常性损益的项目,应说明原因。

□适用 √不适用

九、 非企业会计准则业绩指标说明
□适用 √不适用
第三节 管理层讨论与分析 一、 报告期内公司所属行业及主营业务情况说明 (一) 所属行业情况 1. 行业的发展阶段、基本特点、主要技术门槛 根据国家统计局《战略性新兴产业分类(2018)》,公司所从事的训练数据生产业务属于“新 一代信息技术产业—新兴软件和新型信息技术服务—新型信息技术服务—信息处理和存储支持服 务—数据加工处理服务”行业,是国家重点支持的“新一代信息技术领域”的战略性新兴产业。 公司通过设计训练数据集结构、执行数据采集、加工处理过程,生产用于算法模型开发训练用途 的专业数据集,并以软件形式向客户交付,所属行业为软件和信息技术服务业。 1.1行业的发展阶段、基本特点 (1)在全球数字经济发展以及大模型技术的共同驱动下,全球人工智能产业进入新一轮加速 发展期 当前,新一轮科技革命和产业变革深入发展,数字化转型成为大势所趋,世界主要国家均高度 重视发展数字经济,纷纷出台战略规划,重塑数字时代的国际竞争新格局。人工智能作为数字经 济发展的底层核心技术之一,正在发挥更加重要的作用。例如,随着数字经济发展的不断深入, 数据体量以及复杂度均不断提升,为更好解决产业数字化中数据提取、处理、分析等工作,将会 产生更多样化的人工智能需求,人工智能支出也将成为支持企业数字化转型支出的主力因素之一。 根据IDC报告,全球范围内,企业在人工智能市场的投资增速将显著高于数字化转型支出((DX) 和GDP增速。 数据来源:国际数据公司(IDC)
此外,以ChatGPT为代表的大模型在近期的现象级智能化表现引发行业强烈关注。作为全新的人工智能聊天机器人,在推出两个多月时,ChatGPT全球用户已突破1亿,人工智能通过极具 颠覆性的能力再次走入大众视野,并获得了产业界的广泛关注。可以预见,人工智能行业将在以 ChatGPT为代表的大模型技术的推动下进入新一轮产业高速发展期。 未来,受益于数字经济政策和大模型技术的双重驱动,人工智能将具备更强的产业融合能力, 并将深刻影响千行百业的运行规则,以及人们的生活方式,人工智能产业的发展将随之进入快车 道。 根据国际数据公司(IDC)的数据,2021年,全球人工智能市场规模为885.7亿美元,预计 2025年将达到2,218.7亿美元,年复合增长率达到26.2%。 数据来源:国际数据公司(IDC)
在市场需求拉动和国家政策的支持引导下,当前我国人工智能产业加速发展,已形成基础底层设施、中层技术以及上层应用的完备的产业链生态,一批创新活跃、特色鲜明的创新企业不断涌现,并联合推动中国人工智能产业实现规模增长。根据艾瑞咨询的数据显示,2022年中国人工智能产业规模达1,948亿元,预计2027年市场规模将达到6,122亿元,年复合增长率为25.6%,主要与智算中心建设以及大模型训练等需求拉动的AI芯片市场、无接触服务需求拉动的智能机器人及对话式AI市场等快速增长相关。有望在下游制造、交通、金融医疗等多领域不断渗透,实现大规模落地应用。

数据来源:艾瑞咨询
(2)训练数据作为AI发展和演进“燃料”的作用更加凸显,并逐渐成为大模型竞赛中的重要决定性要素
在AI产业链中,算法、算力和数据共同构成技术发展的三大核心要素。算法模型从技术理论到应用实践的落地过程依赖于大量的训练数据。训练数据越多、越完整、质量越高,模型推断的结论越可靠。过去十年,人工智能产业以算法为核心,通过深度学习算法的不断创新,推动人工智能产业的快速发展。但未来,当算法发展趋于开源、算力能力大幅提升及人工智能模型从技术理论应用到更多的垂直场景,想要更快更好提升人工智能能力,数据将发挥更重要的作用。

尤其在大模型时代下的今天,数据正在被视为大模型落地以及竞赛中重要的决定性要素。在大模型领域,过去业界普遍认为模型参数量是模型效果增强的核心要素,模型参数越大,性能表现越好,而如今这一(“参数”定律正在打破。Meta今年开发的新模型Llama((Large(Language(Model(Meta(AI)证明,相比于单纯参数量提升,训练数据规模以及多样性的增强,可带来更好的模型效果提升。根据新浪财经报道,Llama-13B虽然在参数规模上相较于GPT-3((175B)小了十几倍,但由于其大幅提升了训练数据规模((Llama-13B训练数据量约为GPT-3的3倍),其表现能力在大部分指标上均超越了后者;与此同时,Llama-65B也是凭借数据规模优势,与谷歌5400亿参数的PaLM-540B在表现上旗鼓相当。

可以看出,数据正在逐渐成为大模型时代下的重要推动力量,并产生快速增长的数据需求。根据Cognilytica数据统计显示,2021年全球AI训练数据市场需求约为42亿美元,并预计到2027年这一需求将增长到220亿美元,2021-2027年复合增长率达32%。

数据来源:Cognilytica 中国作为全球人工智能产业增速最快的国家之一,相关数据需求也在快速增长。根据德勤数 据,2022年中国人工智能基础数据服务市场规模为45亿元,2027年规模将达到130-160亿元, 年复合增长率为23.6%-28.9%。 数据来源:德勤
(3)数据要素市场蓬勃发展,数据行业迎来更为广阔的发展机遇
近年来,我国数字经济蓬勃发展,数据要素因具有基础性战略资源和关键性生产要素的双重属性,相关市场规模持续增长。尤其在《中共中央、国务院关于构建数据基础制度更好发挥数据要素作用的意见》出台后,我国系统性布局了数据基础制度体系的(“四梁八柱”,加速了数据流通交易和数据要素市场发展,进一步推动了公共数据、企业数据、个人数据合规高效流通使用。为更好响应中央号召,北京、上海、广州、深圳、杭州等地数据政策陆续出台,逐步构建了多层次、多元化数据要素市场生态体系。

以北京为例,《关于更好发挥数据要素作用进一步加快发展数字经济的实施意见》《北京市促进通用人工智能创新发展的若干措施》和《关于推进北京市数据专区建设的指导意见》指出,北京市要加快建设“数据基础制度先行先试示范区”(以下简称“先行先试示范区”),“支持北京经济技术开发区等开展数据基础制度先行先试,打造政策高地、可信空间和数据工场”,探索打造数据训练基地,归集高质量基础训练数据集,推动数据要素高水平开放,提升本市人工智能数据标注库规模和质量,并建设针对重大领域、重点区域或特定场景建设专题数据区域,吸纳市场主体和数据、技术、资本等多元要素参与。北京市陆续出台的多项文件旨在打破数据壁垒,推动数据融合利用,加快推动公共数据开放,促进数据要素流通,激发数字市场创新活力,释放和发展数字化生产力,打造多层级数据要素市场,成为具有竞争力和影响力的数字产业集群。按照“政府引导、市场运作、创新引领、安全可控”的原则,(“先行先试示范区”有望成为国际领先的数据要素高效流通核心枢纽。

数据要素市场受政策推动,进入高速发展期,未来围绕数据的价值利用以及流通交易,将产生大量新增数据需求,为数据行业开拓了新的增长空间,提供了新的业务拓展机遇。未来,数据要素也将成为数据行业增长的重要推动力量。

(4)训练数据领域的未来发展趋势
a.大模型技术的突破和跃升,将驱动新型数据需求持续增长
随着ChatGPT成为全球范围内的现象级应用,人工智能迎来了新的发展机遇,其背后的大模型技术也将进一步引导人工智能产业变革并带来相关数据需求的变化和增长。

首先,和传统的深度学习模型相比,大模型的数据需求规模将呈指数级增长。传统深度学习技术路线下,训练一个专有小模型大约需要GB级数据,而训练一个大模型通常需要TB级数据(例如,GPT-3的原始文本语料多达45TB)。此外,大模型数据丰富程度显著增加,大模型不仅包含海量语言类、知识类信息,还包括各类垂直领域以及多模态数据,通过多样化数据的引入,大幅提升模型的通用能力以及迁移能力,并使其可服务更多的任务类型与场景。同时,数据质量会显著拉开大模型预训练阶段的效果差距。另外,相比于传统模型训练,大模型的数据需求类型也将有所转变,更多模型或将采用类强化学习模式来进行特定领域或特定方向上的优化迭代,以使得机器能够以更加接近于人类期望的方式提供答案输出。对于大模型训练而言,不仅需要持续获取大规模、多样化((多模态、多场景、多垂向)、高质量的数据,更须具备持续迭代的高质量数据清洗和标注策略,以不断提升包括预训练((Pre-training)、模型微调((Fine-tune)及奖励模型((Reward(Model)等过程中所需数据(例如指令(instruction)类数据)的质量,确保语言类和常识性知识之外的其他垂直领域的应用场景的能力提升,为大模型精确性、通用性及泛化能力的实现奠定坚实基础。

在以上背景下,一方面,大规模、多样化、高质量数据集重要性凸显,成为模型训练效果的核心支撑之一。另一方面,AI发展所面对的数据前沿性及工程化技术的挑战也更为显著。长期看,只有AI数据处理技术的不断拓新与发展,才能及时适应甚至超前引领大模型技术和应用的发展。

b.多模态数据受AIGC、虚拟人等应用发展驱动,将呈现快速增长趋势 随着AIGC技术发展,AI可在更多维度、更多场景辅助人类进行内容生产以及创作。例如,通过大模型等AIGC技术,人类仅需输入一段简单的文字指令,AI即可按照人类描述生成一幅画、一段语音或一段视频,以此帮助人类完成内容创作。想要实现上述功能,AI除了要具备理解人类文字指令的能力,还需要通过对齐不同独立模态关键特征的方式,建立文字与图、语音、视频等一一映射关系,这背后将依赖大量的多模态数据,AI需要对多模态数据进行学习,以实现跨模态的创作能力。

此外,随着AI虚拟主播、虚拟学生、虚拟员工轮番上岗,数字人概念逐渐走入大众视野,成为人工智能的热门技术赛道。想要让虚拟数字人实现与人类的自然交互,不仅需要发音标准自然、身体动作流畅,其表情、口型与声音也要实现细节的精准匹配,而多模态技术就是打破传统人工智能单一感官局限、让各类AI能力协同使用的重要技术。通过对高质量多模态训练数据集的持续学习,AI可实现图像、视频、音频、语义文本等多维度能力的融合,使得虚拟人在行为上更接近人类。

未来,随着以AIGC、虚拟人为代表的AI技术以及应用的不断发展,多模态数据需求将呈现加速增长趋势,具备多模态数据服务能力,以及多模态数据集储备的企业将获得更多市场机会。

c.人工智能企业全球化布局加速,多语种能力成为企业业务拓展核心支撑 2013年,共建“一带一路”的倡议正式面世,十年来,随着国家“一带一路”战略的深入推进,国内一批具有较强创新能力和过硬技术实力的企业,纷纷踏出国门,积极拓展海外市场,通过不断扩大企业出海战略版图,获得高速发展机会。另一方面,境外头部企业也继续践行“全球化”战略,搭乘全球出海的快车。

随着境内、外企业的全球化扩张成为确定性趋势,多语种能力作为支撑企业顺利出海的核心要素之一,重要意义更加凸显。未来,多语种训练数据将对客户侧在语音助手、智能汽车、智能家居、智能客服、机器人、多语种OCR等各领域产品/应用的全球化推广起到积极作用。因此,随着各类客户群体扩张步伐加速,多语种需求也将快速增长,具有强大语言研究能力的数据服务企业将获得更多商业机会。

d.人工智能技术加速向产业渗透融合,催生更多垂向领域数据需求
随着深度学习技术的不断突破,人工智能发展已经进入2.0时代,相关训练需求正逐渐从通用基础能力建设,向更为专业的垂向场景/行业拓展。一方面,以大模型为代表的AI基础技术不断取得重大突破,AI模拟人类认知的能力飞速提升,因此从技术能力维度看,AI已具备与垂直产业融合并规模化应用的前提条件;另一方面,受国家数字经济发展战略推动,产业数字化和智能化将进一步席卷各行各业,智能化技术与传统产业的融合将成为数字经济时代的新发展趋势,并创造出巨大的蓝海空间。

当前AI技术正在加速与各类产业融合,在汽车、金融、医疗、工业等传统行业的渗透率和应用场景不断提升,展现出可观的商业价值和巨大的发展潜力,而数据作为打通算法技术与行业需求的核心桥梁,作用更加凸显,可以说数据能力一定程度上决定了算法模型在对应产业的适用性以及实用性,成为加速AI产业化落地的关键要素。

e.国家法律法规密集落地,对数据安全及合规提出更高要求
近年来,数字经济规模快速扩张,数据作为数字经济时代核心生产要素,重要性更加凸显,但数据不同于传统生产要素,其中可能涉及个人隐私以及国家安全的重要信息,因此,为更好保障数字经济长期稳定的可持续发展,建设规范、安全、合规、高质量的数据安全体系已成为迫切需求。近年,国家陆续出台包括《数据安全法》、《个人信息保护法》等主流法律法规,为解决数据安全问题、净化行业快速发展中的不良乱象提供了切实可行的法律依据。

未来,随着AI技术不断革新,应用行业以及场景不断增加,各行业、各领域数据安全规范逐渐落地将成为趋势,对于以数据生产为主营业务的数据服务企业,数据安全及合规能力将成为数据服务能力的核心评价维度,成熟的安全合规管理体系将成为重要评价标准,能持续跟踪法律环境变化,积极响应监管政策,牢牢把握发展与安全并重的原则的企业将具有更强的市场竞争力。

1.2 行业的主要技术门槛
随着AI技术不断演进、产业应用不断丰富,训练数据的市场需求呈现体量、难度、复杂性、合规性持续上升的趋势,数据服务商须同时具备对人工智能核心算法的理解能力、前瞻性的专业数据集设计能力、丰富的语言覆盖能力及场景采集能力、算法辅助数据生产能力、以及数据合规管理能力,这使得行业的技术门槛持续提升,具体体现为:
(1)在训练数据研发、生产全流程中的算法全面介入
随着AI技术应用落地的规模化效应凸显,客户对于数据规模和处理效率的要求不断提升,数据服务商须在研发、生产流程中全面引入算法以实现高效、合理的人机协作模式,进而实现降本增效的目标。一般而言,在训练数据研发、生产全流程中融入算法技术,可用于训练数据集的设计及训练数据生产的各个环节,例如调度不同类型的标注人员应对不同领域的任务、形成算法自动处理能力以帮助标注人员提升效率、降低对人员的依赖(既有人员数量的降低、也有对人员标注能力要求的降低),并构建训练数据设计、加工相关的核心技术;也可用于检查训练数据集对算法模型的训练效果,进而保障训练数据集质量。

(2)平台工具链功能及适配性要求持续提升
当前,客户侧的数据采集、标注需求范围在逐渐拓宽,数据采集与标注需满足的AI应用场景比以往明显更加广泛、复杂,这就对数据服务商的平台工具能力提出了更高要求,平台上处理过多大规模的数据、这些处理过的数据的多样性和复杂程度如何、算法引擎投票机制如何建立、置信区间如何设置、算法在平台中如何应用、数据流转的工程化程度如何等等这些因素都决定了平台的适配性和能力如何,并最终决定了数据处理的质量、效率、成本。

(3)语音语言学基础研究方面须有深厚积累
伴随语音技术进一步发展落地、并向各行各业和更多垂直场景不断渗透,同时受到中国企业出海需求、国外企业区域拓展需求两方面的支撑,客户在多语种、多音色、音素集、发音规则、发音词典等方面的要求在不断抬升,这意味着只有那些在语音语言学基础研究方面投入更多、拥有深厚积累的数据服务商才能满足客户在这方面的多元化需求。

因此,市场上仅有极少数企业通过长期自主研发的方式能够达到上述核心技术门槛,成为有能力向不同客户群体提供综合、高效、合规的数据产品及服务的供应商。

2. 公司所处的行业地位分析及其变化情况
作为行业的头部阵营企业,海天瑞声在经营情况、技术实力、以及以数据安全为代表的其他综合能力方面都展示出明显优势,并具有较强国际竞争力。近年来公司紧跟AI技术发展趋势,尤其关注在客户资源、技术实力、产品/服务等方面的竞争优势,树立国内领先基础数据服务商的品牌形象,以巩固公司的行业领先地位。与同行业国内外竞争对手的对比情况及优势体现如下:
项目海天瑞声Appen数据堂标贝科技
基本经营情况    
成立 年份2005年1996年2010年2016年
市场地位概述是我国最早从事 训练数据研发销 售的企业之一; 国内首家且是目 前唯一一家A股 上市的人工智能 训练数据服务企 业较早从事数据资 源开发的数据资 源产品服务提供 商,经营历史较 长,规模、体量 较大新三板挂牌企 业,是国内较 早从事数据交 易、数据采标 的服务商之一-
员工 数量2511,136 (截至2022年 12月31日)299 (截至2022年 12月31日)未公开披露
主要客户/合作伙 伴情况大型科技公司, 如阿里巴巴、 Meta、腾讯、百 度、字节跳动、 微软、三星等; 人工智能企业, 如科大讯飞、商 汤科技、云知 声、海康威视 等;科研机构, 如中国科学院、微软、亚马逊、 谷歌等大型科技 公司、汽车厂商 及政府包括百度、腾 讯、阿里巴 巴、奇虎360、 联想、科大讯 飞等国内互联 网和高科技企 业,微软、 NEC、Canon、 Intel、 Samsung、 Fujitsu等企业微软、百度、 阿里、腾讯、 京东、滴滴、 字节跳动、网 易、360、三 星、小鹏、美 的、中科大、 中电科、中国 银行等
 清华大学、中国 科学技术大学等 及在华研发机 构 
客户 数量881家未公开披露未公开披露100余家
技术研发及产品能力    
技术实力概述海天瑞声拥有自 主研发的一体化 数据处理平台, 所提供的训练数 据涵盖智能语 音、计算机视 觉、自然语言等 多个AI核心领 域,可服务于人 机交互、智能家 居、智能驾驶、 智慧金融、智能 安防等19种创 新应用场景。Appen拥有人工 智能辅助数据注 释平台,在全球 170多个国家与 100多万名专业 承包商合作,训 练数据涵盖科 技、汽车、金融 服务、零售、医 疗健康和政府等 各个领域。拥有人工智能 数据与生产服 务平台,可提 供数据定制服 务、人工智能 数据集产品、 人工智能数据 处理平台私有 化部署服务, 数据采集范围 遍及全球30多 个国家,合作 伙伴遍布世界 10多个国家。拥有语音合成 模型和算法, 通过算法+专业 的人工数据处 理方式,为客 户提供优质的 语音合成服 务。拥有TOBI 标注体系,通 过自主研发的 TTS评测系统, 为客户提供高 质量的数据服 务。
应用领域智能语音、计算 机视觉、自然语 言智能语音、计算 机视觉、自然语 言智能语音、计 算机视觉、自 然语言智能语音、计 算机视觉、自 然语言
拥有的成品训练数 据集数量1,498个超过400个291个190个
语种/方言覆盖能 力超过200个超过235个100余个10余个
已取得专利授权34项4项33项21项
计算机软件著作权 数量164项未公开披露173项30项
综合能力    
数据安全能力乙级测绘资质; ISO27001信息安 全管理体系认 证、ISO27701隐 私信息管理体系 认证; 信息系统安全等 级保护三级; 中国信通院数据 安全推进计划成 员单位未公开披露乙级测绘资 质、 ISO27001信息 安全管理体系 认证、 ISO27701隐私 信息管理体系 认证ISO27001信息 安全管理体系 认证、 ISO27701隐私 信息管理体系 认证、 ISO27017云服 务信息安全管 理体系认证、 ISO27018公有 云中保护个人 身份信息的信 息安全管理体 系认证、信息 系统安全等级 保护二级
资质荣誉国家高新技术企 业、国家专精特 新“小巨人”企 业、“北京市企 业技术中心”、 工信部“新一代 人工智能产业创 新重点任务揭榜 优胜单位”等多 个国家或市级重 要奖项、2022年 度综合实力型智 慧赋能名牌企 业、 第一批入选北京 市通用人工智能 产业创新伙伴计 划不适用国家高新技术 企业、国家级 专精特新“小 巨人”企业、 中国自动化学 会CAA科技进 步一等奖国家高新技术 企业、中关村 高新技术企 业、北京市专 精特新“小巨 人”企业、优 秀服务机器人 企业奖
数据来源及说明:
1、Appen、数据堂、标贝科技数据:截至2023年6月,前述公司官网及公开披露信息;国家知识产权局中国及多国专利审查信息查询平台(https://www.cnipa.gov.cn/)、中国版权保护中心CPCC微平台等公开信息查询渠道及第三方机构查询信息。

2、海天瑞声数据:除特别标注外,均为截至2023年6月30日数据。

(二) 主营业务情况说明
公司主要从事AI训练数据的研发设计、生产及销售业务。公司通过设计数据集结构、组织数据采集、对取得的原料数据进行加工,最终形成可供AI算法模型训练使用的专业数据集,通过软件形式向客户交付。

算法、算力、数据是人工智能技术发展的三大要素,其中训练数据是算法发展和演进的“燃而大量训练数据的训练支撑则是深度学习算法实现的基础。深度学习分为“训练”和“推断”两个环节:训练需要海量数据输入,训练出一个复杂的深度神经网络模型;推断指利用训练好的模型,去“推断”现实场景中的待判断数据,并得出各种结论。训练数据越多、越完整、质量越高,模型推断的结论越可靠。因此,要使算法模型实现从技术理论到应用实践的落地过程,就需要提供大量的训练数据,对算法模型加以训练。通常,从自然数据源简单收集取得的原料数据并不能直接用于深度学习算法的训练,必须经过专业化的采集、加工处理,形成相应的工程化数据集后才能供深度学习算法等算法、模型训练使用。

自2005年成立以来,公司始终致力于为AI产业链上的各类机构提供算法模型开发训练所需的专业数据集。经过多年发展,公司已成为人工智能基础数据服务领域具有较强国际竞争力的国内头部企业,并实现了标准化产品、定制化服务、相关应用服务全覆盖。公司所提供的训练数据涵盖智能语音(语音识别、语音合成等)、计算机视觉、自然语言等多个核心领域,全面服务于人机交互、智能家居、智能驾驶、智慧金融、智能安防等多种创新应用场景。

公司的产品和服务已获得阿里巴巴、腾讯、百度、科大讯飞、海康威视、字节跳动、微软、亚马逊、三星、中国科学院、清华大学等国内外客户的认可,应用于其研发的个人助手、智能音箱、语音导航、搜索服务、短视频、虚拟人、智能驾驶、机器翻译等多种产品相关的算法模型训练过程中。目前公司客户累计数量为881家,覆盖了科技互联网、社交、IoT、智能驾驶、智慧金融等领域的主流企业,教育科研机构以及部分政企机构。

图:公司产品服务矩阵示意
(三) 主要经营模式
1. 盈利模式
与主要产品及服务类型对应,公司的盈利模式主要包括以下三类:
(1)定制服务:公司根据客户需求提供定制训练数据集并收取服务费。在此种模式下,公司享有服务费收入,不享有最终生成的训练数据的知识产权,不可将此类业务生产的训练数据向其他客户重复销售。

(2)标准化产品:公司开发自有知识产权的训练数据集产品,通过销售训练数据集产品的使用授权许可,获取让渡资产使用权收入。此类训练数据集一经开发完成,可多次销售并获取授权许可收入。

(3)训练数据相关的应用服务:公司基于生产的训练数据提供算法模型相关的模型拓展及训练服务,通常以软件授权或软硬件一体化形式交付算法模型拓展、开发成果,获取让渡资产使用权收入和技术服务收入,以及少量硬件销售收入。

2. 生产或服务模式
(1)训练数据集生产模式
公司通过设计训练数据集结构、组织原料数据采集、对取得的原料数据进行加工,最终形成可供算法模型训练使用的专业数据集。

图:训练数据生产过程示意图
公司的训练数据生产过程主要包括四个环节:设计(训练数据集结构设计)、采集(获取原料数据)、加工(数据标注)及质检(各环节数据质量、加工质量检测)。

(2)训练数据相关的应用服务模式
公司基于其生产的训练数据提供算法模型相关训练服务,助力下游客户完成其算法模型的语言拓展、特定算法模块拓展、垂直应用领域拓展等,为客户定制针对特定行业和口音的专属算法模型,提高AI技术应用效果。

以某大型科技公司客户项目为例,客户研发了特定语音识别算法模型,需要根据算法模型的实际场景(如法院庭审场景)开发落地应用。公司承担了部分落地应用拓展相关的开发工作,围绕客户的算法模型和接口开发,最终协助客户算法模型实现多个麦克风收集庭审语音内容并实时转成文字记录入系统的功能。

3. 采购模式
按照采购的内容及主体划分,公司的采购包括:
数据服务采购:公司在数据采集、加工环节中,向人力资源服务等类型的公司等供应商采购的,非核心技术环节的原料数据采集、标注服务。

岗位服务采购:主要针对临时性的、不设长期岗位的业务领域的外包采购,如保洁、临时招聘服务、少量实习生招聘等。

其他采购:(1)训练数据生产所需的资产,主要包括软、硬件设备及其他需求物品采购;(2)日常运营所需的资产及物品,如办公用房、车辆、办公家具、计算机设备等;(3)日常专项服务采购等,主要包括审计服务、会议服务、差旅服务等。

上述原料数据采集、加工环节所涉及的数据服务采购,为公司最主要的采购类别,由集采中心负责;各部门岗位服务采购由人力资源部负责;其余日常运营相关的资产物品采购、专项服务采购等非业务采购由集采中心负责。财务中心负责参与采购供应商的遴选、监督与管理,并对采购费用进行核算及结算。

经过多年的发展,公司已经建设有完善的《海天瑞声采购管理制度》、《海天瑞声项目资源采购管理制度》、《海天瑞声供应商管理制度》、《海天瑞声岗位服务采购管理制度》等内部规范制度,设立有完善的采购流程和体系,并与主要的供应商形成了良好稳定的长期合作关系。

4. 销售模式 公司采用直接对接并服务客户的直销模式进行营销,符合行业通行惯例。公司以高品质的训 练数据集及相关服务吸引客户,并在持续服务客户的过程中提升服务价值和客户黏度。公司通过 直接拜访潜在客户、口碑传播、参与学术会议和行业展会、官方网站和自媒体展示等方式建立品 牌知名度、与客户建立联系,后续再通过商务谈判、招投标等形式获取具体业务机会。 二、 核心技术与研发进展 1. 核心技术及其先进性以及报告期内的变化情况 公司高度重视并坚持科技创新,通过持续的研发投入积累形成了12项核心技术,覆盖基础研 究、平台工具、训练数据生产三个层次,应用于训练数据生产的设计、采集、加工、质检全流程 之中;按照从底层自下而上的顺序对上述三个层次的核心技术情况介绍如下: 图:各层次核心技术示意图
上述核心技术构成了公司生产经营的基础,通过上述核心技术的成果转化,公司形成了基于核心技术的训练数据相关产品和服务。具体如下表所示,其中5项核心技术具备较高技术壁垒(下表中以★标示):

核心技术 层次核心技术核心技术项下的细分技术示例核心技术在训练数据 生产中的应用环节   
   设 计采 集加 工质 检
基础研究语音识别算法语音数据库质量预估技术、语 音识别系统评测技术
 语音合成算法语音合成数据库评估技术、说 话人自适应语音合成技术、语 音合成系统评测技术   
 计算机视觉算法人脸检测和识别技术、物体识 别技术、光学字符识别技术、 场景分割技术、运动轨迹跟踪 技术、3D点云目标检测技术、 3D点云语义分割技术  
 ★语音语言学基 础研究基于词典与模型的发音预测技 术   
核心技术 层次核心技术核心技术项下的细分技术示例核心技术在训练数据 生产中的应用环节   
   设 计采 集加 工质 检
 训练数据集设计 技术多语种文本正则化技术、基于 语言模型的文本易读性评测技 术、多语种情感及领域分类技 术   
平台工具一体化数据处理 平台基于C/S架构和B/S架构的大 规模语音处理平台,基于C/S 架构的音素标注技术,多语言 分布式文本处理技术,基于 C/S架构和B/S架构的文本标 注技术,基于C/S架构和B/S 架构的图像标注技术,基于 B/S架构的3D点云标注技术, 大规模数据采集及标注平台
训练数据 生产★多语种多模态 训练数据设计技 术多语种语料清洗技术、多语种 语音库设计技术、多语种音素 均衡语料设计技术、混合语言 语料设计技术   
 多模态多通道数 据采集技术多通道录音技术、移动设备上 的语音采集技术、分布式图片 内容分析技术、移动设备上的 图片采集技术、多语言手写体 数据采集技术、多模态数据采 集技术   
 ★数据同步技术音频对齐技术   
 实时采集质控技 术语音信号质量检测技术  
 ★大数据驱动的 高效数据处理技 术多语种拼写检查技术、视频流 中特定帧定位技术、音素边界 自动预测技术、基于语音特征 的韵律预测技术、基于CRF的 韵律预测技术、基于HMM/CRF 的词性预测技术、基于CRF的 命名实体识别技术、2D障碍物 自动检测和跟踪技术、2D车道 线自动检测技术、3D点云自动 贴合技术、3D点云障碍物自动 检测和跟踪技术   
 ★分布式高性能 自动校验技术音素标注正确率校验技术、相 似说话人自动筛查技术、音字 一致校对技术   
(1)基础研究层面,报告期内,公司持续在智能语音、计算机视觉、自然语言、以及包括智能驾驶为代表的垂直领域进行技术拓展,并有多项核心技术取得显著进展。例如,在基础算法研究方面,新增数十个基础模型,包括波兰语、斐济语等多个ASR语音识别模型、多语种合成数据库韵律预测模型、25类自动驾驶场景交通目标物检测模型、3D动捕数据姿态检测模型等众多模型;同时完成了多个现有模型的优化升级,多个语种的ASR模型准确率提升20%以上,3D场景的目标检测和语义分割模型更是实现约 50%的准确率提升;在语音语言学方面,新增完成阿富汗达利语、比利时法语等多个语言学研究工作,有效支撑相关语言的数据生产项目;训练数据集设计技术领域内,探索利用大模型技术解决语料设计中稀缺资源问题,成功落地数个重要语料设计项目;同时完成了文本混淆度打分、多语种情感识别等多个数据库设计基础技术的优化升级。

(2)平台工具层面,得益于基础研究领域内多种算法、技术的持续支撑,在诸如大规模语音数据采集及标注平台、支撑智能驾驶数据业务的图像/视频/点云标注平台、以及大规模OCR数据采集及标注平台等方向完成重大升级,并完成包括 4D点云标注、3D点云语义分割、交互式弹性框辅助标注、渐进式点云目标物智能标注等技术课题的攻坚与落地,整体上实现了一体化数据处理平台覆盖领域、处理能力的升级。

(3)训练数据生产层面,公司在多语种多模态训练数据设计技术、多模态多通道数据采集技术、数据同步技术、实时采集质控技术等方向形成新突破,与基础研究能力的不断增强、平台工具功能的持续提升等趋势相辅相成、互相促进、形成合力,共同推动公司的训练数据生产不断向智能化方向演进。

以上技术突破均将对更广泛人工智能数据服务产生积极影响。报告期内,公司新申请发明专利5项并均获受理,获得发明专利授权3项;新获得的软件著作权1项,均为原始取得。具体见第三节“管理层讨论与分析”二、“核心技术与研发进展”之“报告期内获得的知识产权列表”。


国家科学技术奖项获奖情况
□适用 √不适用

国家级专精特新“小巨人”企业、制造业“单项冠军”认定情况
√适用 □不适用

认定主体认定称号认定年度产品名称
北京海天瑞声科技股份有 限公司国家级专精特新“小巨人”企业2020(2023年 复审通过)/

2. 报告期内获得的研发成果
报告期内,公司新申请发明专利5项并均获受理,获得发明专利授权3项;新申请并获得登记的软件著作权1项,均为原始取得。截至2023年6月30日,公司共获得专利授权34项,获得登记的软件著作权164项。

报告期内获得的知识产权列表


 本期新增 累计数量 
 申请数(个)获得数(个)申请数(个)获得数(个)
发明专利533532
实用新型专利0011
外观设计专利0011
软件著作权61169164
其他1165954
合计2210265252
注:“其他”中统计的数量为公司持有的境内外商标数量总和。

3. 研发投入情况表
单位:元

 本期数上年同期数变化幅度(%)
费用化研发投入32,213,644.5942,681,075.64-24.52
资本化研发投入---
研发投入合计32,213,644.5942,681,075.64-24.52
研发投入总额占营业收入 比例(%)43.2637.18增加6.08个百分 点
研发投入资本化的比重(%)---

研发投入总额较上年发生重大变化的原因
□适用 √不适用

研发投入资本化的比重大幅变动的原因及其合理性说明
□适用 √不适用

4. 在研项目情况
√适用 □不适用
单位:元

序号项目名称预计总投资规 模本期投入金额累计投入金额进展或阶段性成 果拟达到目标技术水平具体应用前景
1面向语音 数据库生 产的云-端 协同管理 平台3,172,000.001,746,318.902,831,790.40已上线多语种韵 律预测、分词预 测等功能,进一 步优化移动端的 采集能力。支持语音文件的 高精度切音能 力,支持对移动 端语音采集的任 务管理与数据管 理能力,优化 IOS端和安卓端 的采集能力与采 集效率。支持面向语音数 据库生产的高效 移动端采集能 力,有效提升云 -端一体数据制 作与管理能力重点支持语音识 别采集数据的研 发与生产,助力 智能语音业务发 展
2多语种语 音转写平 台升级3,254,500.00240,572.343,182,745.63上线后处理二 期,最终完成所 有语音识别转写 业务的全流程数 据不落地;并最 终完成数据预处 理策略的优化, 提升数据处理效 率。优化语音转写业 务的数据接入能 力和数据交付能 力,满足数据全 流程不落地要 求,进一步提升 数据安全和项目 管理效率。支持面向智能语 音业务的数据转 写能力,有效提 升数据全流程管 理水平重点提升语音数 据加工效率,支 持语音识别算法 的提升,助力智 能语音业务的发 展
3面向中文 语音转写 的多标注 任务预处 理技术研 究2,812,000.00234,779.182,662,019.80已完成 ModelScope框架 接入,新增30 余个ASR模型。提升中文语音识 别基础算法能 力,适配音频处 理与语音转写业 务,新增性别检 测、年龄检测等 算法能力。引入K2语音识 别框架,显著提 升语音识别模型 扩展能力提升智能语音数 据库的数据质量 和生产效率,助 力智能语音业务 发展
4面向自动 驾驶数据 标注的任 务管理平 台5,202,000.001,257,209.155,959,985.45进一步优化了多 个自动驾驶标注 环节中的任务管 理模块,针对新 增项目做部分调 整和优化。面向自动驾驶数 据标注领域,优 化项目管理模 块、优化数据流 转机制、新增多 角度统计分析工 具。有效提升面向自 动驾驶数据标注 服务的生产效率支撑大范围、规 模化、高效率的 自动驾驶训练数 据的生产能力, 提升自动驾驶领 域的整体技术水 平
5面向自动 驾驶业务 的2D场景 预处理算 法研究1,927,000.00454,186.491,782,884.34新增支持2类2D 算法预识别算 法,优化了车道 线和障碍物检测 为主的多个模 型,并部署运用 到生产平台。面向自动驾驶数 据标注领域,优 化2D图像的算 法预识别技术, 包括对车道线、 障碍物、行驶区 域的算法识别。在自有测试集上 平均识别准确率 在70%以上高效支撑基于图 像的自动驾驶数 据业务,助力商 业化自动驾驶领 域的快速发展
6面向3D点 云标注的 预处理算 法研究2,047,000.00386,004.621,928,133.14重点优化了3D 点云中车道线识 别模型,新增3D 点云语义分割算 法支持。面向自动驾驶数 据标注领域,优 化3D点云下物 体检测、运动属 性检测、连续帧 下的物体跟踪等 算法能力。显著提升3D点 云标注任务中的 离散帧对象标注 与连续帧推向跟 踪标注的能力, 显著提升基于3D 的自动驾驶场景 的数据生产效率支撑自动驾驶场 景的3D点云语 义分割数据研发 与生产,进而应 用于商业化自动 驾驶领域
7多语种语 料设计平 台10,920,000.002,546,230.479,824,762.72完成语料设计流 程的优化,新增 情感打标、多音 词标注等平台能 力,优化包括语 种识别、混淆度 打分算法、情感 识别等多个算法 模块。针对智能语音数 据库生产中的设 计环节,提供支 持多语种定制化 的语料生成、校 对与设计平台。提升智能语音数 据库的设计能力重点围绕智能语 音算法需要,提 升数据库质量, 助力智能语音算 法研发水平,促 进语音行业整体 进步
8DOTS平台 建设-账号 体系和权 限升级5,531,517.662,765,758.832,765,758.83已完成DOTS平 台供应商管理模 块建设。统一DOTS平台 账户体系,提高 供应商管理、用 户管理等模块的 复用性;实现用 户体系与功能体 系解耦,进一步 提高DOTS平台 权限管理的可扩 展性。支持DOTS平台 中面向语音、文 本、2D、3D等所 有数据生产模块 中功能体系、用 户体系和权限体 系三者解耦。重点提升面向智 能语音、计算机 视觉和自然语言 理解三大领域基 础数据生产的管 理能力,助力基 础数据在人工智 能全行业的重要 作用。
9DOTS平台 建设-面向 自动驾驶 数据处理 能力升级10,816,063.295,408,031.655,408,031.65已支持300万大 点云数据处理能 力。实现自动驾驶平 台大点云处理能 力升级,支持激 光点云4D标注 能力,并优化算 法预处理能力的 接入与管理。支持自动驾驶场 景的大点云标注 能力,支持点云 场景下4D标注 能力,支撑500 万级别以上点云 数据的处理能 力。同时,显著 提升对预处理算 法的接入管理, 包括灰度上线能 力、算法可视化 能力等。支撑自动驾驶场 景的4D标注、 多帧融合、稠密 点云等高难度数 据生产需求,进 而应用于商业化 自动驾驶领域。
10DOTS平台 建设-面向 语音与文 本的数据 服务能力 升级4,918,432.772,951,059.662,951,059.66已完成语音数据 任务流转模块优 化、语料处理、 项目管理能力优 化、重复发音人 算法的对接等。实现短音频为主 的语音数据采集 与处理能力升 级,优化对文本 数据的处理能 力,进一步提高 云-端协同的智提升多端协同的 语音数据和文本 数据的采集与处 理能力,提高数 据生产效率,同 时通过引入声纹 识别等技术提升 数据采集质量。提升智能语音数 据库和文本数据 库的生产效率和 数据质量,助力 智能语音业务快 速发展。
      能语音数据生产 效率。  
11面向多语 种语音转 写的算法 预处理技 术研发与 升级644,309.36322,154.68322,154.68已完成灰度上线 能力搭建,并支 持算法识别效果 的数字化管理。针对实际语音数 据服务场景,训 练及部署多语种 语音识别模型, 并支持数据迭代 和模型调优,进 一步提升数据生 产效率。支撑10万+小时 时长的多语种语 音数据转写和校 对,提升标注效 率。重点提升语音数 据处理效率,扩 大语音识别算法 的应用,助力智 能语音业务的发 展。
12面向智能 语音的算 法框架升 级及预处 理能力优 化研究1,099,124.52274,781.13274,781.13已完成意大利 语、丹麦语、达 利语等6个语种 的语音识别模型 的训练和上线。支持更多语音框 架,训练更多语 种识别模型,提 升模型预处理速 度。引入MMS新语音 识别框架,新增 50+语音识别模 型,覆盖10+语 种。提升智能语音数 据库的数据质量 和生产效率,助 力智能语音业务 发展。
13面向CV和 AD数据服 务的算法 预处理技 术研发与 升级670,616.32335,308.16335,308.16已完成灰度上线 能力搭建,支持 算法识别效果的 数字化管理。针对实际CV和 AD数据服务场 景,训练及部署 多类型物体检 测、物体跟踪等 模型,并支持数 据迭代和模型调 优,进一步提升 数据生产效率。支撑1w+帧的2D 图像中目标检 测、语义分割等 算法预标注,提 升标注效率。重点提升包括车 内和车外多个场 景的自动驾驶数 据业务,助力商 业化自动驾驶领 域的快速发展。
14面向CV和 AD的算法 框架升级 及预处理 能力优化 研究503,790.85125,947.71125,947.71已上线鱼眼语义 分割,已优化关 键点检测、障碍 物检测、停车位 检测等多个场景 下的模型。新增更多计算机 视觉领域的模型 框架支持,训练 并优化包括物体 检测、物体跟踪引入SAM、 OneFormer、 Yolo系列等有代 表性的计算机视 觉框架或算法, 新增8+不同场景重点支撑基于图 像的自动驾驶数 据业务,助力商 业化自动驾驶领 域的快速发展。
      等模型;提升模 型预处理速度。的视觉类算法预 处理技术。 
15海天瑞声 人工智能 算法预处 理平台三 期建设2,996,859.42299,685.94299,685.94已完成多个语义 分割算法的预处 理速度优化。完善数据驱动的 模型训练和推理 平台升级,支持 数据自动流转和 模型自动迭代升 级与验证。打通数据管理模 块、数据生产模 块、算法预处理 模块、算法训练 模块、算法评测 模块五大模块, 实现数据驱动的 模型自动迭代、 升级与应用。提升算法预处理 水平,加速数据 生产效率的提 升,助力人工智 能行业整体进 步。
16面向大模 型训练、 调优及评 测服务等 的技术研 究2,598,141.912,338,327.722,338,327.72针对大模型预训 练数据集设计与 处理技术进行初 步研究和规划, 并基于研究成果 开展了 CommonCrawl、 中文书籍等适用 于预训练阶段的 数据的获取与清 洗工作,形成了 各项技术的框架 方向;开展大模 型评测技术调 研,完成基础框 架设计,形成可 行性结论。完成面向大模型 预训练阶段的数 据清洗技术、任 务对齐阶段的调 优、强化学习技 术的框架规划和 可行性分析。论 证面向大模型技 术的评测服务能 力构建可行性, 包括评测方案设 计、评测数据获 取、自动评测等 能力。新增面向海量文 本的50+类清洗 技术,掌握多种 开源大模型的指 令微调技术,新 增面向大模型能 力的评测技术。支撑基于大模型 的业务能力升 级,扩展大模型 在数据服务垂直 领域的应用,助 力人工智能行业 整体进步。
合计/59,113,356.1121,686,356.6342,993,376.96////
(未完)
各版头条