[中报]虹软科技(688088):2023年半年度报告
原标题:虹软科技:2023年半年度报告 公司代码:688088 公司简称:虹软科技 虹软科技股份有限公司 2023年半年度报告 重要提示 一、 本公司董事会、监事会及董事、监事、高级管理人员保证半年度报告内容的真实性、准确性、完整性,不存在虚假记载、误导性陈述或重大遗漏,并承担个别和连带的法律责任。 二、 重大风险提示 公司已在本报告中阐述了公司在经营过程中可能面临的风险因素,敬请查阅本报告“第三节 管理层讨论与分析/五、风险因素”部分。 三、 公司全体董事出席董事会会议。 四、 本半年度报告未经审计。 五、 公司负责人Hui Deng(邓晖)、主管会计工作负责人林诚川及会计机构负责人(会计主管人员)林诚川声明:保证半年度报告中财务报告的真实、准确、完整。 六、 董事会决议通过的本报告期利润分配预案或公积金转增股本预案 无 七、 是否存在公司治理特殊安排等重要事项 □适用 √不适用 八、 前瞻性陈述的风险声明 √适用 □不适用 本报告中所涉及的未来计划、发展战略等前瞻性描述,均不构成公司对投资者的实质性承诺,投资者及相关人士均应对此保持足够的风险认识,并且应当理解计划、预测与承诺之间的差异。 敬请投资者注意投资风险。 九、 是否存在被控股股东及其他关联方非经营性占用资金情况 否 十、 是否存在违反规定决策程序对外提供担保的情况 否 十一、 是否存在半数以上董事无法保证公司所披露半年度报告的真实性、准确性和完整性 否 十二、 其他 □适用 √不适用 目录 第一节 释义.................................................................. 4 第二节 公司简介和主要财务指标 ................................................ 7 第三节 管理层讨论与分析 ..................................................... 11 第四节 公司治理 ............................................................. 47 第五节 环境与社会责任 ....................................................... 49 第六节 重要事项 ............................................................. 50 第七节 股份变动及股东情况 ................................................... 68 第八节 优先股相关情况 ....................................................... 73 第九节 债券相关情况 ......................................................... 73 第十节 财务报告 ............................................................. 74
第一节 释义 在本报告书中,除非文义另有所指,下列词语具有如下含义:
第二节 公司简介和主要财务指标 一、 公司基本情况
二、 联系人和联系方式
三、 信息披露及备置地点变更情况简介
四、 公司股票/存托凭证简况 (一) 公司股票简况 √适用 □不适用
(二) 公司存托凭证简况 □适用 √不适用 五、 其他有关资料 □适用 √不适用 六、 公司主要会计数据和财务指标 (一) 主要会计数据 单位:元 币种:人民币
(二) 主要财务指标
公司主要会计数据和财务指标的说明 √适用 □不适用 1、上述追溯调整系公司根据财政部于 2022 年 11 月 30 日发布的《企业会计准则解释第 16号》(财会〔2022〕31号,以下简称解释第16号、本解释)的要求,自2023年1月1日起施行“关于单项交易产生的资产和负债相关的递延所得税不适用初始确认豁免的会计处理”内容。根据解释第 16 号“关于单项交易产生的资产和负债相关的递延所得税不适用初始确认豁免的会计处理”的衔接规定,对于在首次施行本解释的财务报表列报最早期间的期初至本解释施行日之间发生的适用本解释的单项交易,企业应当按照本解释的规定进行调整。对于在首次施行本解释的财务报表列报最早期间的期初因适用本解释的单项交易而确认的租赁负债和使用权资产,以及确认的弃置义务相关预计负债和对应的相关资产,产生应纳税暂时性差异和可抵扣暂时性差异的,企业应当按照本解释和《企业会计准则第18号——所得税》的规定,将累积影响数调整财务报表列报最早期间的期初留存收益及其他相关财务报表项目。 2、报告期内,公司营业收入较上年同期增长 29.73%、归属于上市公司股东的净利润较上年同期下降10.30%、归属于上市公司股东的扣除非经常性损益的净利润较上年同期增长147.65%,主要原因为:(1)公司移动智能终端视觉解决方案本期实现营业收入31,186.21万元,较上年同期增长 36.09%。(2)随着行业的快速发展,公司结合智能驾驶业务发展路径,加大了对关键人才的招聘力度,相应职工薪酬等相关支出增加。(3)公司本期利用闲置资金进行现金管理取得的银行理财收益和利息收入为2,799.47万元,较上年同期增长21.33%。 3、报告期内,公司经营活动产生的现金流量净额较上年同期增长155.96%,主要系公司本期销售回款大幅增加所致。 4、报告期内,公司扣除非经常性损益后的基本每股收益较上年同期增长175.00%、扣除非经常性损益后的加权平均净资产收益率较上年同期增加0.99个百分点,主要系公司本期归属于上市公司股东的扣除非经常性损益的净利润增加所致。 七、 境内外会计准则下会计数据差异 □适用 √不适用 八、 非经常性损益项目和金额 √适用 □不适用 单位:元 币种:人民币
对公司根据《公开发行证券的公司信息披露解释性公告第1号——非经常性损益》定义界定的非经常性损益项目,以及把《公开发行证券的公司信息披露解释性公告第1号——非经常性损益》中列举的非经常性损益项目界定为经常性损益的项目,应说明原因。 √适用 □不适用 单位:元 币种:人民币
九、 非企业会计准则业绩指标说明 □适用 √不适用 第三节 管理层讨论与分析 一、 报告期内公司所属行业及主营业务情况说明 (一)所属行业发展情况 1 所属行业 根据《国民经济行业分类》(GB/T4754-2017),公司所属行业为“I65软件和信息技术服务业”中的“I6513 应用软件开发”。根据中国上市公司协会《中国上市公司协会上市公司行业统计分类指引》,公司所属行业为“信息传输、软件和信息技术服务业-软件和信息技术服务业”,行业代码为“I65”。 公司从事计算机视觉技术算法的研发和应用,主要产品有移动智能终端视觉解决方案、智能驾驶视觉解决方案和其他AIoT智能设备视觉解决方案,根据公司主要产品功能及服务对象的特点,公司所属行业为计算机视觉行业,属于软件和信息技术服务业。 根据国家发改委公布的《战略性新兴产业重点产品和服务指导目录2016版》,公司属于“新一代信息技术产业”。 2 所属行业的发展情况 (1)行业发展阶段、基本特点、产业政策 在新科技革命和产业变革的大背景下,人工智能加快向各产业渗透,日益成为科技创新、产业升级和生产力提升的重要驱动力量。视觉人工智能行业为各类人工智能应用提供基础支持技术,广泛应用于各类人工智能细分领域。政府积极出台政策促进人工智能技术发展和应用,深化落实与视觉人工智能息息相关的人工智能、智能制造、信息化和工业化的相关政策,为视觉人工智能的发展提供了政策与配套资源支持。2023年以来,新出台的主要人工智能产业政策如下: 2023年2月,国务院印发了《数字中国建设整体布局规划》,明确数字中国建设按照“2522”的整体框架进行布局,推进数字技术与经济、政治、文化、社会、生态文明建设“五位一体”深度融合;推动数字技术和实体经济深度融合,在农业、工业、金融、教育、医疗、交通、能源等重点领域,加快数字技术创新应用;提升数字文化服务能力,打造若干综合性数字文化展示平台,加快发展新型文化企业、文化业态、文化消费模式。 2023年3月,在《2023年国务院政府工作报告》中,提出要大力发展数字经济,支持平台经济发展,促进数字经济和实体经济深度融合,加快传统产业和中小企业数字化转型,着力提升高端化、智能化、绿色化水平。 2023年7月10日,国家网信办联合国家发展改革委、教育部、科技部、工信部、公安部、广电总局公布《生成式人工智能服务管理暂行办法》,鼓励生成式人工智能技术在各行业、各领域的创新应用,生成积极健康、向上向善的优质内容,探索优化应用场景,构建应用生态体系。 支持行业组织、企业、教育和科研机构、公共文化机构、有关专业机构等在生成式人工智能技术创新、数据资源建设、转化应用、风险防范等方面开展协作。同时,对生成式人工智能的服务规范、监督检查和法律责任等方面进行了规定。 2023年7月18日,工信部、国家标准化管理委员会发布了《国家车联网产业标准体系建设指南(智能网联汽车)(2023 版)》,提出到 2025 年,系统形成能够支撑组合驾驶辅助和自动驾驶通用功能的智能网联汽车标准体系。到2030年,全面形成能够支撑实现单车智能和网联赋能协同发展的智能网联汽车标准体系。 2023年7月21日,国家发展改革委等部门印发了《关于促进电子产品消费的若干措施》,提出加快电子产品技术创新。顺应新一轮科技革命和产业变革趋势,推动供给端技术创新和产业升级,促进电子产品消费升级。鼓励科研院所和市场主体积极应用国产人工智能(AI)技术提升电子产品智能化水平,增强人机交互便利性。依托虚拟现实、超高清视频等新一代信息技术,提升电子产品创新能力,培育电子产品消费新增长点。 (2)细分领域发展状况 移动智能终端细分领域 受到宏观经济弱运行影响,消费疲软、下游需求复苏力度不及预期,全球消费电子市场需求严重萎缩,智能手机出货量继续下滑。据 Counterpoint 数据统计,2023 年第一季度,全球智能手机出货量同比下降14%、环比下降7%至2.802亿台;2023年第二季度,全球智能手机出货量同比下降8%、环比下降5%,连续八个季度下降。从机型出货及销量上看,消费者换机周期拉长,手机创新趋同,以往销量较高的中低端市场需求被削弱。但售价在600美元以上的高端手机销量持续增长,在第二季度售出的智能手机中,高端手机占比超过20%,是该季度唯一实现增长的市场。 面对日益加剧的竞争,手机厂商致力于为消费者带来更高质量的体验,智能手机不断在产品形态、运算性能、显示和影像能力等方面升级、演变。头部手机厂商为寻求高质量、可持续发展,越发注重产品的创新性和差异化,为旗舰产品赋予更强大的计算摄影能力的同时,也诠释着自身对计算摄影艺术的独特理解。 近年来,越来越多国内外科技巨头战略卡位被称为“下一代计算平台”的XR头戴设备相关技术和产品。2023年6月,苹果发布了首款MR产品,主要应用场景除拓展到游戏领域以外,还将生活、工作与XR更完美地融合,有望带动相关应用场景的产业化,为产业发展注入新动力。行业认为,当前XR终端设备产品成本和售价尚需进一步降低,用户体验欠佳,随着产业链和技术的不断发展,生态参与者加速入局,内容应用逐步繁荣,XR终端设备出货量将获得提升。 智能汽车细分领域 当前外部环境依然复杂,消费需求不足,汽车行业面临较大压力。2023年上半年,在中央和地方政策的刺激、轻型车国六标准的实施、多地的汽车营销活动以及新车型的推出等多重因素的推动下,我国汽车市场实现了较高的增长。据中汽协统计数据,2023年上半年,中国汽车产销量分别为1,324.8万辆和1,323.9万辆,同比分别增长 9.3%和 9.8%。其中,乘用车产销分别完成1,128.1万辆和1,126.8万辆,同比分别增长8.1%和8.8%;商用车产销分别完成196.7万辆和197.1万辆,同比分别增长 16.9%和 15.8%。新能源汽车产销持续快速增长,2023 年上半年,分别完成378.8万辆和374.7万辆,同比分别增长42.4%和44.1%。 汽车行业正经历电动化、智能化、网联化的变革,智能座舱和自动驾驶成为其中智能化的两个典型代表,汽车的产品定位正由单一交通工具转变为以用户需求为导向的“移动第三空间”。 伴随着消费者需求的不断升级,领跑汽车智能化的智能座舱成为重塑汽车产品差异化的重要方向,各大车企以及科技公司纷纷发力智能座舱领域,产业快速迭代,驱动着算力和软件的需求高涨。 据IHS预测,到2030年,全球智能座舱市场规模将达到681亿美元,其中中国市场规模将超1,600亿人民币。而得益于硬件平台和软件算法的逐步成熟,新车搭载L2部分功能也正在逐步成为前装标配。随着高级别自动驾驶渗透率的不断提升,单车搭载包括摄像头、雷达在内的传感器数量将较以往大幅增长,相应搭载的各类软件算法也将迎来更多需求。 3 主要技术门槛 视觉人工智能属于高知识密集型领域,有较高的技术门槛,公司为各类移动智能终端、智能汽车等智能设备提供视觉人工智能解决方案,在前述领域的主要技术门槛包括: (1)端计算和边缘计算技术的积累 边缘计算极大程度上解决了物联网背景下集中式运算架构中的带宽和延迟两大瓶颈问题,主要难点在于低资源的嵌入式平台环境的开发能力,基于移动终端的边缘计算具有巨大的应用价值,但是受限于移动终端有限算力,诸多企业望而却步。 公司自2003年开始便明确了在嵌入式设备研发相关视觉人工智能技术的发展方向,在边缘计算技术领域积累深厚,多年来建立了全面、复杂的多平台适用的底层嵌入式开发库。公司积累的算法具有高度的紧凑性、稳定性以及易调用性,可以在高性能、有效大幅降低资源消耗的情况下实现高精度运行。 公司长期专注于嵌入式设备算法的研究与开发,多年来积累了大量基于端设备的视觉人工智能算法开发经验。目前公司基于端设备的视觉人工智能算法适用性高、运行稳定,可以在边缘侧发起高效的运算,通过诸如智能手机、笔记本电脑、智能可穿戴等设备实现高效的图像优化、识别与检测等功能。公司的移动智能终端视觉解决方案、智能驾驶视觉解决方案和其他AIoT智能设备视觉解决方案等业务均是从边缘侧发起运算,在智能手机、笔记本电脑、智能可穿戴设备、汽车和各类AIoT设备上实现各类视觉人工智能的功能。 (2)视觉人工智能技术的层次积累 在数码相机以及手机功能机时代,公司就开始专注于视觉人工智能技术的研发与应用,公司主要算法技术都经过了长时间的锤炼,从基本的黑白小分辨率图像的摄取、增强、编辑、检测识别到高清大图像、视频的实时处理均打下了坚实的基础,创造了有利和领先的条件。 公司掌握的视觉人工智能算法技术具有通用性和延展性。多年来,公司积极致力于将视觉人工智能算法与行业应用相结合,凭借先进的科研力量、强大的产品开发能力以及卓越的工程实施能力,公司快速将视觉人工智能算法技术落地为成熟的解决方案,并进一步将应用领域从智能手机扩展到智能汽车、智能家居、智能零售等多个行业,助推行业升级。此外,公司基于自身深厚的技术积累,能够为上述行业快速提供高性能、高效率、硬件平台适应性强,功耗控制优良的解决方案,大大降低各类客户的产品使用先进技术的门槛,帮客户提升产品竞争力,助力视觉人工智能和人工智能相关应用的普及。 (3)工程落地能力 虹软创立至今,除不断积累和发展自身技术、掌握持续开发、迭代与硬件更加匹配的算法的能力,还一直致力于与核心产业链内主流公司开展长期、广泛的合作。公司与高通、联发科等各主流芯片公司建立了长期稳定的合作关系,研发中持续合作交流,深入了解平台硬件特性并为其针对性优化,共同开发核心功能,不断提高视觉人工智能技术算法产品与移动芯片的适配性。公司还与索尼传感器、三星半导体、格科微、OmniVision、舜宇光学、信利等业内核心器件合作伙伴建立了业务交流或合作关系,在项目早期就针对特定相机或硬件做算法适配和调优。针对智能终端的芯片平台,公司具备针对CPU、GPU、DSP和NPU等各个算力单元的强大优化能力。结合各硬件算力单元的能力和算法模块的算力需求,公司具备的异构计算优化能力能够从系统层面更有效地优化性能、降低功耗。得益于此,除核心技术能力突出外,公司同时具备优势明显的工程落地能力,在客户提出技术需求后,能更好地联合和发挥在相机模组、软硬件平台、产线、算法等多方资源合作优势,进而提供效果好、能耗低、效率高、硬件平台适应性广并能够快速落地的解决方案。 (二)主要业务、主要产品及其用途 公司专注于计算机视觉领域,为行业提供算法授权及系统解决方案,是全球领先的视觉人工智能企业,始终致力于视觉人工智能技术的研发和应用,坚持以技术创新为核心驱动力,在全球范围内为智能设备提供一站式视觉人工智能解决方案。 公司拥有丰富的针对智能手机等移动智能终端以及智能驾驶的视觉算法产品线,主营业务收入来源于自主研发核心技术的授权许可使用。目前主要客户包括三星、小米、OPPO、vivo、荣耀、Moto等全球知名手机厂商以及国内主要的自主品牌、部分合资品牌汽车主机厂商。 针对智能手机,基于多年的研究开发,公司可以提供目前市面上大部分主流智能手机视觉人工智能算法产品,包括单/双/多摄摄像头在各种场景下的拍摄和高质量成像、深度摄像头在各种场景下的拍摄和高质量成像、潜望式长焦摄像头无级变焦、3D 建模、全景、SLAM、AR/VR、人脸解锁、超像素无损变焦、人体驱动等重要核心功能。 针对其他移动智能终端设备,公司也提供了相应的解决方案。在笔记本电脑上,公司从画质、隐私、美颜等几个方面来提升用户视频会议体验。通过视频去噪、提升动态范围来改善会议时的画质;通过背景虚化、换背景实现用户隐私进行保护;通过人像美颜、人体自动居中、人脸细节恢复和增强、眼镜去反光等技术提升视频会议效果。在VR/MR/AR智能可穿戴设备上,公司从标定、感知、交互和视觉呈现四大方向布局算法解决方案。可以提供VR/MR/AR一站式多传感器标定解决方案,头显6DoF跟踪、平面检测、稠密重建、语义分析、深度估计、实时人体分割/手部分割/3D Mesh重建等空间感知解决方案,手柄6DoF跟踪、裸手3D手势交互、视线跟踪和虚拟数字人表情驱动、人体驱动等交互解决方案,以及异步时间扭曲、空间扭曲、视频透视(VST)等视觉呈现解决方案。 在智能驾驶领域,面向舱外,公司在行车辅助功能上储备了基于前视、周视、环视、后视、夜视摄像头系统的视觉感知算法,可以提供ACC、LCC、AEB、ILC等高级智能驾驶辅助功能;在自动泊车功能(APA)上储备了视觉感知算法、超声波视觉融合算法、规控算法;提供360°环视视觉子系统,支持2D/3D AVM全景影像功能,支持透明底盘功能。面向舱内,公司主要在DMS、OMS两种产品形态上积累了一系列视觉感知算法,可以提供例如疲劳检测、分心检测、健康监测、身份识别(Face ID)、手势识别、遗留提醒等座舱监控、互动系统功能。 (三)主要经营模式 1、盈利模式:公司主要盈利模式是将计算机视觉算法技术与客户特定设备深度整合,通过合约的方式授权给客户,允许客户将相关算法软件或软件包装载在约定型号的智能设备上使用,以此收取技术和软件使用授权费用。同时,公司也向客户销售软硬一体视觉解决方案。 2、研发模式:公司主要采取自主研发的模式。研发过程大致分为以下9个步骤:①获取需求信息;②管理层决策研发方向;③搭建研发项目组;④验证研发项目算法,进行项目测试;⑤集体讨论决策项目算法;⑥进行底层算法与实际环境的结合优化;⑦进行实际产品结合测试;⑧产品成熟后路演,选择合适的客户进行测试合作;⑨测试合格后大规模推广。 3、销售模式:公司采用直销的方式,主要向智能手机、智能汽车、笔记本电脑、智能家居、智能零售以及各类带摄像头的AIoT设备制造商销售计算机视觉算法软件及相关解决方案。 4、收费模式:按照业务合同的不同类型划分,公司的计算机视觉算法软件主要收费模式可划分为固定费用模式和计件模式两种模式。①固定费用模式:按合同约定的软件授权期限,收取固定金额的软件授权费用。特定客户在软件授权期限内,针对某款、某系列的特定设备内,可以合法地把含有虹软科技算法技术的特定软件无限量装载在合约限定的智能设备上。②计件模式:在合同约定的软件授权期内,按照客户生产的装载有虹软科技算法技术智能设备的数量进行收费。 通常情况下,公司会与客户就不同生产数量区间,约定阶梯价格,保障双方利益。针对软硬一体解决方案,公司目前采用计件模式。 5、采购模式:公司的主要采购内容包括运营、研发和测试所需的各类硬件设备、软件、服务,以及产品解决方案所需的物料等。根据需求部门的请购申请,采购部门按照《采购管理制度》的要求,执行供应商选择、采购合同签订、合同执行跟踪、采购付款申请等流程。针对软硬一体解决方案,由公司进行硬件的设计并购买相应部分核心部件后,委托第三方进行组装生产。 (四)市场地位 目前,视觉人工智能市场格局已经初步形成,核心技术、产品化能力、产业生态链合作均构成行业的核心壁垒,建立在自主创新能力基础之上的产品化能力成为最终创造社会价值和商业价值的核心,而能否寻找到规模化、商业化的应用场景则决定了企业是否能够长远发展。 公司是计算机视觉行业领先的算法服务提供商及解决方案供应商,是全球领先的计算机视觉人工智能企业。除本公司外,行业中国内企业主要有商汤科技、旷视科技,国外企业主要有Seeing Machines、Mobileye、Cipia、Smarteye。 全年出货量达十几亿台的智能手机市场是视觉人工智能技术的重要应用领域。基于多年的研发和积累,目前公司可以提供大部分主流智能手机的视觉人工智能算法产品和技术。根据IDC所统计的2019年度至2022年度全球出货量前五的手机品牌中,除苹果公司完全采用自研视觉人工智能算法外,其余安卓系统手机的主流机型均有搭载公司视觉人工智能解决方案。在继续巩固智能手机算法影像行业领导地位的同时,公司依靠对行业演进规律和技术更迭的理解,成熟有效的产品落地能力,正横向大力推进在智能驾驶领域的落地。在该领域,公司为客户提供 VisDrive?一站式车载视觉软件解决方案,目前已经成为国内基于高通8000系列智能座舱平台上的主流视觉算法供应商。 二、 核心技术与研发进展 1. 核心技术及其先进性以及报告期内的变化情况 目前,公司积累了大量视觉人工智能的底层算法,构建了完整的视觉人工智能技术体系。 公司自主研发了诸如人脸分析及识别/人脸美化及修复/人体分析及美化、手势识别/物体识别/场景识别、行为分析、暗光图像增强/超分辨率图像增强/视频画质增强/画质修复、光学变焦、虚化技术、3D AR 动画等诸多可应用于智能手机、智能座舱、智能辅助驾驶、笔记本电脑、智能可穿戴设备等终端领域的核心技术。 针对单摄/多摄/TOF/结构光等不同种类的摄像头,公司均可提供相应的3D与AR视觉解决方案,帮助厂商在移动设备上便捷高效地实现落地。为满足各智能终端对于VR/MR/AR应用的需求,公司已经研发并可以直接落地使用的解决方案,包括基于双摄/多摄/TOF/结构光的深度获取和优化,以及基于单摄的深度获取引擎,这些深度数据成为一些上层逻辑应用的核心基础;实现了SLAM中环境 Map 的构建,物体的 3D Modeling,视线的检测、跟踪,人体和动作静态、动态姿态的检测和跟踪,解决了实时显示中的延迟等多种问题。为满足智能驾驶人机交互的需求,公司主要研发了基于红外相机、单摄RGB摄像头、双摄、深摄的交互技术,包括手势交互引擎包、头部动作和口部动作交互引擎、经典表情识别,以及视频、照片拍摄时的娱乐功能。 公司在人体分析、人脸识别、人体识别、手势识别、人体美化等技术上,在当前状态下的中段平台达到超过 95%的正确率、毫秒级实时性,这些引擎也可以有效鲁棒地支持低端硬件平台,人物属性分析、对象属性分析、多帧多通道质量提升等技术点能达到业界先进的低功耗、高性能、相对强鲁棒的水平。 公司大部分智能手机视觉解决方案达到国内外先进水平,多数新创技术在行业内属于技术首发,能够满足目前市面上中高端智能手机大多数与视觉相关的技术与应用的算法需求,且公司的智能手机视觉解决方案在除苹果之外的主流手机品牌的大部分旗舰机型上获得使用。 公司拥有多项原始创新的核心技术,主要核心技术列表如下:
(1)人脸分析及识别 人脸检测算法针对大姿态人脸场景进行了进一步优化,手机版本在内部通用测试集上保持精度不变的情况下,召回率提升1.46%,尤其是纯侧脸难例数据集上召回率提升7.59%。另外,人脸检测算法在车载舱内场景也得到较大提升,针对车内乘客非配合场景存在角度过大以及被座椅遮挡等情况,在车载设备上量产版本性能效果得到较大提升,增加了对大姿态和遮挡人脸检测的鲁棒性。人脸关键点定位技术在自测数据集上精度提升2%,尤其是对遮挡效果提升较为明显,同时五官遮挡属性输出准确率提升4.8%。在智能座舱场景中,人脸角度和位置估计采用全新方案,耗时降低30%,角度输出精度提升2%,在人脸位置估计上精度提升约5%。人脸重建技术在稳定性及速度上进一步优化,不断提升稳定性及贴合性,在自测集上平均精度提升2%,同时也应用到公司4D实时美妆产品中,可提供更好的手机摄像体验。同时该技术也对VR 眼镜下的表情跟踪自然度及流畅性进行优化,不断提升对不同脸型的支持度,并进一步提升大胡子遮挡、吐舌、眼球转动等难例的表情精度,在自测集上平均精度提升5%。 Face ID效果持续改善,其中2D版本在FAR≤100k的情况下,常规场景和戴口罩场景下,FRR改善2.1%~2.5%;3D版本在FAR≤100k的情况下,常规场景和戴口罩场景下,FRR改善0.7%~0.9%;尤其针对海外一些客户,大胡子用户较多、误识率偏高的情况,做了定制改善效果。通用版本针对儿童做了定制调优,整体改善幅度达 13%,以适配校园场景的刷脸应用。车载版本进一步优化口罩及大角度场景,FRR改善2.8%~5.5%,同时完成了支持全人种的通用版本;RGB静默活体针对黑人、大胡子、复杂背景等情况调优,整体SAR下降3.8%,同时完成了配合式活体版本。 (2)人体分析及美化 人体检测方案进一步提升,针对车内场景,改善了由于遮挡导致的乘客漏检问题,尤其对后排乘客只露出部分人脸或者肩膀的漏检情况,改善明显;同时也对宠物、座椅、衣物、抱枕等容易误检的部分做了相应优化,尤其是印有人脸图案的抱枕误检降低明显。人体骨骼关键技术,在抬手、座椅遮挡等情况下,针对性提升较为明显,另外点位稳定性和平滑性有较大提升,为数字人驱动产品提供了更加精准的动作捕捉。同时在智能座舱场景中,在不降精度的情况下,降低计算量,为车载后续功能,如乘客占位、儿童检测等提供更快、更轻量级的算法支持。Body Clone针对数字人项目进行优化,视频模式下人体重建的稳定性提升2%,更好地支持数字人的行为驱动。 行为识别技术不断完善,在智能后备箱产品上,新增对上半身部分缺失的支持,改善长裙、强光、交叉腿场景的效果。基于行为识别的环视哨兵功能,在正常场景下,召回率提升2.7%,尤其对于车角和车边缘的人物漏检问题得到改善,召回率提升4.5%。 (3)宠物分析 宠物身体检测技术采用新的方案,在减少参数量的同时,mAP提升约8%,有力地支持了Bokeh等产品的宠物场景效果提升。宠物面部关键点检测技术针对大角度姿态、小目标场景进行优化,检测率提升约 20%,有效提升了复杂场景下检测的鲁棒性,在宠物面部关键点检测的基础上进一步开发了宠物眼睛关键点检测,可以获取更加准确的宠物眼睛轮廓,为后续宠物眼睛增强等产品提供了强力支持。 (4)行为分析 继续提升满足DDAW以及Euro NCAP法规的驾驶员疲劳/分心检测技术方案。通过大量路测数据对疲劳/分心的误报进行实车数据分析,通过多数据融合将基于车机信号与车辆控制信号在内的驾驶员行为数据与视觉感知信息进行融合,通过数据统计的方式为正常行车过车中的误检信息去除提供有效方案。与此同时,根据大量KSS以及心理行为研究实验结论,结合大量实车疲劳路测数据分析,完成了更加符合疲劳认知的全新疲劳解决方案的研发。根据大量疲劳研究实验进行了真实疲劳数据采集和真实疲劳检测技术更新,提升了基于真实疲劳反应的驾驶员疲劳分级检测,在视觉信息获取上增加多帧、多时间窗口的分析,增大疲劳分析的时间窗口区间,将大量与疲劳行为相近但表现形式有差异的混淆行为进行鉴别,对诸如低头向下看、从左右两侧注视手机屏幕或者其他交互区域等行为与闭眼或疲劳进行区分,形成了与市场同类产品技术的差异化,目前正在将该新技术尝试融入量产方案中,并且实车测试已达到DDAW认证要求。 视线追踪技术已经支持了众多智能座舱量产项目,结合座舱标定方案为驾驶员分心技术提供视线落点输出支持,完成了Euro NCAP法规中需要支持的视线落点检测研发,对驾驶员视线检测覆盖到舱内23个区域。满足了车上所有可能摆放手机位置下的驾驶员看手机分心检测要求,满足Euro NCAP所有视线分心测试场景的检测要求,并将过标方案融合入量产方案中,实现了更多满足法规要求的视线功能设计。视线追踪技术继续对多摄像头方案进行研究,并根据项目需要应用在量产项目中,全面提升驾驶员在车内的视线精度,尤其是在人脸大角度下的视线精度,全面覆盖各种摄像头下的人脸全角度。与此同时,自主研发了基于用户行为的无感自标定视线精度提升方案,对于视线基础引擎的精度做了较大的提升。该方案基于用户行为中与视线交互相关的行为进行自标定研究。同时,视线研发团队还对眼睛瞳孔虹膜特征在成像上的差异进行深入研究,获得了一整套获取最适用于视线的摄像头设计准则,指导量产项目中的视线摄像头设计。为了更好地解决量产项目中对于不同车型以及各种容易引起摄像头位姿变化的外界影响,研发了一整套完善的视线无感自标定解决方案,为主机厂降低了相机标定带来的成本,目前该方案已经大规模用于量产项目中,适配各种车型的活动摄像头安装需求。 基于XR头显中的眼动追踪完成了双眼双目多光源方案的研发与调优,并配合头显的需要完成了与眼动相关的外围视觉算法研发,完成了设备端部署,精度效果已经达到业内领先水准。同时对适用于多种条件下的眼动算法进行研究,提升底层引擎的检测精度,并设计融合方案实现眼动追踪精度最优化。 车载危险行为检测在车内支持的摄像头安装位置扩展到了B柱,并且开始支持全车乘客的行为检测。在抽烟打电话行为识别上,重点针对在成像画面中与目标极为相似的物体(如吸管等)可能被误识的问题进行优化,设计了更加合理和先进的场景感知模型和识别策略,该模型可以获得更加精准贴合的目标检测结果,同时可推理出更多辅助感知信息(如烟的端点位置和掩膜(Mask)等),相似物体的误报率降低至3%以下;对一些低算力平台应用场景,研发了更加高效的小算力算法模型,较之前的模型不仅计算效率更高,算法识别效果也取得了较大的提升。对于自顶向下(top-down)视角的玩手机与方向盘脱手检测,设计了更加合理的检测逻辑与测试方案,针对一些画质较差的摄像头模组,事件召回率较之前版本提升10%以上。配合公司智能座舱DMS和OMS一体化产品的布局,针对单颗摄像头的集抽烟、打电话、玩手机、喝水、方向盘脱手等多种危险驾驶行为检测为一体的all-in-one解决方案也在研发测试中。 (5)手势识别 手势识别相关底层算法模块持续优化改进,在车载、手机、数字人与AIGC等多个业务方向上优化提升,改善了遮挡、模糊、双手近距离交互等复杂场景下的检测和跟踪效果,保障了下游算法的效果,提升了用户体验。在公司内部客观测试集上,mAP相比历史最优模型提升4%。在通用场景下训练了基于Transformer的大模型,助力公司的AIGC产品线;车载应用场景下,新增支持了更多车载目标平台,在更多的NPU、DSP芯片上部署量化加速模型,并针对车载OMS等场景优化了姿态估计精度。 面向3D TOF摄像头,基于深度图的手部分割算法和3D手部关节点估计算法在精度和性能上均有提升,针对实车场景和车规级TOF摄像头做了相应优化,提升了较远距离下小目标手型和常见手型的手部分割和关键点回归精度,并且增加对左右手属性识别的支持,为上层手势应用奠定了更好的基础。 车载手势产品方面,交互技术推陈出新,继手掌鼠标交互解决方案又新推出了食指鼠标交互解决方案。相比手掌鼠标控制,食指鼠标的手部动作更加自然省力,可以有更好的用户体验。为丰富车载产品矩阵,分别研发了基于TOF摄像头和基于RGB/IR摄像头的食指鼠标技术方案。依托手部跟踪、手部分割及精准的3D关节点估计,对食指运动进行建模分析,完成基于食指跟踪、食指点击、推拽等动作的与设备的交互。基于OMS RGB/IR镜头的车载手势技术,持续提升检测、跟踪、姿态估计和动作识别等基础模块的效果;增加了支持的静态手势、动态手势数量,如静态手势食指左右指、动态手势挥手再见等,更好的满足客户的定制化需求。 VR/AR/MR手势技术方向,在获取大批量的手部3D关键点标记数据的基础上,设计算法自动去粗取精,减少人工清洗的工作量,得到更准确的真值数据。手部检测模块针对差光照和自遮挡场景做了优化,在暗光、高光、和双手近距离交互下也有良好的检测效果。手部关节点估计和3D模型参数估计持续改进,3D关键点精度指标MPJPE和稳定性指标MPJPA达到业内领先水平。 (6)图像质量分析 人像质量分析重点改善光照、遮挡、角度这三个使用频率最高,客户对指标要求最细的case方面。光照判断正确率提升4.6%;对遮挡的情况进一步细分,例如口罩遮挡、手遮挡、异物遮挡等,针对性优化,整体效果改善 9.9%;对人脸角度,利用高精度采集设备,构建标准化数据集,帮助改善算法,整体效果提升6.8%。 HDR 场景识别技术持续优化算法方案,在保持低计算量的前提下,稳步提升预测稳定性和场景预测准确率;通用场景的图像画质分析技术,综合评分基础上增加对比度、亮度、色彩度、清晰度、噪声等维度的评分,同时优化评分的单调性,并支持加权组合以灵活适配不同应用场景。 (7)高动态范围(HDR) YUV HDR支持了旗舰处理器AEB模式下的HDR融合。该模式配合改进的HDR融合算法,实现了零延时的高动态范围合成,实现了高光还原和亮度过渡的平衡,实现了防鬼影和防噪音的平衡, 实现了对霓虹灯、日落、天空、室内flicker等不同场景的智能优化,提高了整体的合成率和还原度。在防鬼影方面,加入了基于AI的增强技术,实现了提亮和去噪,减少了运动区域的噪音,提高了运动场景的画质。针对中低端平台无法提供ISP提亮帧的情况,通过调整原有框架,改进HDR融合算法和鬼影处理策略,改善融合结果。开发暗光环境人像HDR功能,在暗光人像模式能更好的还原场景动态,同时保持人像的亮度和人脸的细节。根据对不同风格的要求,定制HDR融合策略。基于RAW域的HDR在AI去噪、高动态图像获取方面都取得了巨大进步,针对HDR摄影的复杂环境,从白天到夜晚都准备了鬼影处理策略,在影调方面以保持真实场景亮度分布为出发点,自适应调整影调,在保持原本动态范围扩展能力的基础上使最终结果更贴近客户从美学角度的需求。针对运动场景实现了智能优化,提升了运动区域的画质,提高了抓拍成片率。弱光环境结合图象分割方面,根据图象区域分割的结果动态调整局部的融合策略,最终的融合结果更加自然。 开发暗光环境闪光灯模式和屏幕补光模式人像HDR功能,在暗光人像模式能更好地还原场景动态,同时保持人像的亮度和人脸的细节。 (8)暗光图像增强 暗光图像增强技术,公司为客户的摄像头传感器做了针对性支持,确保每个摄像头的去噪以及保留细节达到最佳效果。改进对齐算法,提升运动区域和人像的配准精度。改进针对运动区域的去噪和融合算法,消除模糊。改进多帧融合算法,后处理结合AI增强提升细节。改进训练策略,使得落地后的性能优化版本,效果更好。改进算法框架,调整算法参数结构,有效的提升算法在落地过程中的调试成本。针对中低端设备虫噪严重的特点,开发新的单帧处理算法优化图像。针对人脸部分,开发专门的算法对人脸进行去噪和增强,有效改善人脸的视觉效果。对不同的平台计算资源,比如NPU、GPU、DSP等做性能的最佳适配。同时,针对更低平台做了算法的针对性改进,维持效果和性能的最佳平衡,使得算法可以平铺到更多的客户设备。 (9)超分辨率图像增强 超分辨率图像增强技术,通过不同方案的尝试和实践,最终方案在清晰度上有突出优势,在效果和性能上达到了一个新的高度,满足市场客户的需求。YUV 图像超分,改进运动区域检测策略和配准精度,改进融合算法,优化AI模型训练流程,提升AI增强的效果,改进针对不同摄像头传感器的去噪效果,提升结果细节。优化代码框架,提升性能。新增RAW域图像超分,优化AI训练方式,结合多帧融合算法,在不同的放大倍率上,都展现出更好的去噪以及细节水平。 (10)画质修复 屏下摄像头画质修复技术实现了预期的功能,在抑制图像原有噪声的同时提升图像清晰度、对比度和色彩饱和度,图像整体视觉效果更接近普通摄像头效果。文档图像去阴影技术更新了基础模型,改善了阴影mask检测的效果。通过对模型的优化和精简,在降低计算量的同时,也大幅降低了内存占用开销,并且效果和之前基本一致,从而使得该技术在更多中低端手机上落地应用。 此外,通用场景去阴影技术的研发,也拓展了该技术的应用领域。 美食阴影去除方案,提升了对美食阴影区域的精确分割,支持对室内各种强弱和不同形状的阴影做更合理的处理,在阴影去除后恢复出真实的食物颜色和对比度,进一步提升了用户的使用体验。在数据方面,阴影分割模型仅使用少量标注数据训练预标注模型,大幅节省数据人力需求,提高了数据迭代的效率。支持开发了多种合成数据方案,有效补充了不同美食和阴影数据的场景组合。目前美食阴影方案在平均得分上超越竞品2%,同时在多个困难场景主观评测上得到提升,满足用户的画质处理需求。 通过对摩尔纹产生机理的深入研究,对摩尔纹合成算法进行了改进,可以根据不同场景,生成对应的摩尔纹,提升了数据的真实性和丰富性。算法上尝试了多种新的方案,提升了去摩尔纹的效果以及泛化性能,同时精简了模型,降低了计算量。去反光技术细分各种拍摄场景,设计了有效区分反光层和背景层的代价函数,有效地改善了强反光边缘的场景并抑制误去除,相比基础版本有明显的改善,未来还需要进一步与竞品效果做比较。 (11)视频画质增强 视频超夜技术,持续改善AI降噪模型的降噪能力和细节保持能力。针对PC端需求,合理根据多款摄像头的不同噪声特性,设计针对性的训练方案和量化策略,达到降噪质量和性能上的较好平衡。针对PC端视频会议的需求,提升视频噪声估计模块的准确率,使算法在不同环境下自适应调整处理强度,获得更好的效果。视频超分技术,持续改善AI超分模型的效果,针对视频会议应用中的文字内容,着重提升了其在多种字体下较小字号时的清晰度和可阅读性,以及提升了人像区域的清晰度。视频插帧技术,针对该技术在模拟长曝光场景的应用,持续提升了其在大运动和频闪等复杂场景下的追踪能力和稳定性,改善了运动轨迹的平滑性和动态范围。 (12)畸变消除 进一步优化了光学畸变消除性能和功耗表现,提升了视频流的处理性能;进一步提升了身体部分的修正效果并增加了任意输入区域透视畸变弱化的效果;设计实现了人脸和身体透视畸变检测及自适应矫正的方案,扩展了人像矫正的适用范围。 (13)光学变焦 平滑切换支持更多的摄像头组合,变焦算法扩展至更多的低平台,同时在更多的场景下支持fallback模式,新增融合过渡,使得切变效果更加自然;改进融合技术涉及到的核心算法,自适应处理不同场景下的融合切变,效果提升明显。支持客户isz模式输入的光学变焦,fallback模式和融合切变。 (14)多摄标定 进一步扩大AVM标定和BSD标定的适配范围,以完成更多厂商/车型的需求,设计完成全套车载摄像头标定解决方案,包括 EOL、在线、售后车载多摄像头标定姿态相对/绝对标定解决方案,设计完成激光雷达标定、AR HUD标定、红外传感器标定方案。 (15)全景拼接 增加了对RAW数据作为输入的支持,在低光场景下对噪声抑制有一定的提升,并能够扩展全景图的动态范围;针对一些带有运动物体的场景,通过检测运动场景内的运动物体并加以保护,减少鬼影,对于大的运动物体,效果提升比较明显。针对3x摄像头下图像帧间移动距离变大,景深差异更大的特点,改进了匹配和融合算法,改善了拼接错位,减小了扭曲程度。 (16)人脸美化及修复 公司在图像修复与编辑方向上长期致力于Live Photo、视线校正、人头姿态校正等人脸修复与编辑技术。LivePhoto技术提出特有的口腔修复算法,显著提升了合成动画中口腔部分的效果,减少了牙齿、舌头等的帧间不连续、模糊等问题。除了使用单帧照片合成视频,新提出了基于一段输入视频训练专有模型的方案。该方案合成的动画,牙齿等与真人保持一致,比单帧图像输入方案效果更好。视线校正技术大幅扩大算法支持的人物头部角度范围,由原来的准正脸范围拓展至 yaw 角度±30°左右,pitch 角度在±15°左右,视线角度范围由原来的单一方向拓展至全方向校正,支持的视线角度范围 yaw 角度在±35°左右,pitch 角度在±30°左右,融合重影、虚影、眨眼、不自然等问题均有明显改善,结果自然度提升明显。人头姿态校正进行技术方案迭代,相较于上一版本作用区域由脸部拓展至整个头部区域,能适应各种人物姿态,处理结果在自然度、稳定性上有明显的提升,消除了之前版本中出现的抖动、穿模、锯齿、不自然等问题。目前已经进行了GPU、NPU设备的适配,进入项目的工程部署阶段。 在人脸美化技术上实现拍照磨皮新方案,提升了细节表现力、肤质纹理更加自然,增强了对不同画质人脸去噪的自适应性,改善人脸明暗不均现象的同时立体感也得到保持提升;实现预览磨皮算法,在去脏能力、通透度、立体感、肤质细腻度方面都有所提升;对标OpenGL版本,实现了腮红、眼影、SkinGloss等美妆技术的Vulkan方案,在基本保持性能和视觉效果优势的情况下,解决了客户不同设备平台间驱动更新时产生的兼容性问题,降低了产品的维护成本;实现了 AI预览祛斑算法,较大提升了预览美颜的祛斑、去脏能力,对肤质纹理也有很好的保留;图像祛斑方面也增加了去抬头纹、去颈纹等新功能。性能功耗方面,进行了模型优化和NPU硬件优化,优化了拍照AI祛斑算法,对大侧脸提升祛斑效果的稳定性。预览头发柔顺技术可以去除视频中的杂乱发丝、捋顺发束,达到美发风格化的效果。针对海外市场需求,定制实现了Bindi检测技术,可保护印度女性眉心Bindi,提升美颜效果;针对客户对高清人像的需求,开发了结合 AI的人像算法,在调整光影瑕疵、修饰皮肤质感和恢复五官结构上做到了光影更好看、肤质更细腻、五官更清晰,打造了人像审美的高级感。 低光照和极暗光线下的人脸美颜解决方案继续扩展了超清人像美颜风格的应用平台,人像视觉效果更加自然、整洁,同时保持清晰度和立体感。视频任务上,针对移动设备端改善了模型以及任务框架,增强人像效果以及自然程度,同时提升了性能并优化了功耗。而PC端主要增强人像修复强度,提升人像解析力,同时针对不同平台的做了专门的性能优化。实现针对车载、平板、PC、手机等设备的视频人像修复的轻量级模型部署。 (17)虚化技术(Bokeh) 视频虚化继续打磨产品细节,持续保持行业领先水平。升级到了新一代渲染算法,该算法在效果上更加逼近大光圈的单反镜头,光斑更具真实性、自然性和艺术性;改善了渐变的层次感,使其更加立体、自然;改善了边界的准确性,使其更加锐利;进一步改善了虚化效果的准确性及渐变虚化的层次感,进一步提升了成片率;支持了圆形及椭圆形电影镜头级光斑效果。支持了高通SM8550等旗舰手机平台4K分辨率30FPS实时渲染,同时支持下沉到高通SM7325等中端手机平台并成功出货。实现了已拍摄视频在相册中重新编辑虚化强度、对焦点等功能的算法原型;作为底层核心技术,多维度达到了业内领先水平,为电影模式在多家手机客户成功出货提供了重要技术支撑。 升级了视频换背技术,能够根据背景图像自适应地调整前景的色调和亮度,使融合结果更加自然、真实。优化了手机前置摄像头自拍场景下的人像虚化效果,发丝更加准确、真实、自然。 双摄虚化基于更加精确的双摄AI深度,进一步优化算法,使得效果更加精确和自然,接近单反相机拍照的效果。同时虚化算法、HDR 和超级夜景等画质类算法结合,显著提高了虚化光斑的层次感和真实感。进一步基于特定的单反相机或镜头专门优化光斑效果,使得效果更加接近光学镜头拍摄的效果如哈苏风格化等。结合AIMatting技术,进一步改善头发区域的虚化效果,使得发丝更加分明。使用全新的AI技术对虚化效果进行渲染,在获得更加自然的虚化效果的同时,还可以修复深度图上的瑕疵,使得虚化效果更加精确。 (18)深度恢复 根据应用场景、精度需求及平台算力限制,支持了多种不同大小的模型训练和部署,特别是训练和部署了超大模型,具有极高精度和良好的泛化性,可以为AIGC等应用提供有力支持,以及持续精细化迭代优化适用于人像虚化在预览模式、视频模式和拍照模式下的深度恢复质量、性能和功耗。进一步提升了单帧/多帧画面的深度恢复精度,包括大幅改善了主体一致性和均匀性、人物及物体的边界精度、中远距离的错误、深度信息的层次性,特别是前后排人物深度的层次性、和人物同距离物体深度的准确性等等;大幅提升了前后帧的稳定性;进一步裁剪和压缩模型,大幅优化了功耗和性能;作为底层核心技术,在多维度均达到了业内领先水平,为电影模式在多家手机客户成功出货提供了重要技术支撑。依托大模型和大数据,单目AI拍照模式也显著提升了极夜和近景场景的表现,报告期内算法在背景与前景物体的深度一致性,细小物体的细节等多个维度效果提升显著。双目AI视频方案显著改善了深度准确性、精细度与稳定性。 为满足实时低功耗要求,在性能和功耗方面也有极大的改善,进一步满足客户要求。双摄方案利用全新的技术对双摄深度进行估计,对传统方法比较难处理的重复纹理,无纹理区域有着极大的改善,并且极大的提高了深度的准确性和精细度。同时针对一些特殊情况,比如细小物体,透明物体,反光物体,低光夜景场景等,训练了全新的双摄深度大模型,深度精准度进一步提高。 针对夜景低光场景输入画质很差的问题,结合人像分割的先验升级了针对夜景的双摄深度模型,使得深度效果更加稳定。 (19)图像语义分割 实现了人像分割超大模型的训练和部署,具有良好的精度和泛化性,为素材标注降本增效,同时也赋能AIGC等应用。优化人像matting算法,接入人像虚化拍摄功能,使得发丝等细节效果更加自然。同时针对多种平台进行性能和功耗优化,适配多种机型。继续优化AI Camera智能场景识别算法,效果上通过算法更新和数据迭代,显著提升了天空、植物、宠物、人像、及人体相关区域的分割精度和鲁棒性。功能上增加了对face区域的语义分割功能,在不显著提高性能的情况下,获取了更多的细粒度语义信息。性能上,通过优化网络结构和充分利用底层硬件资源,实现了8550机器上的多类别实时处理。接入HDR等上层应用,为分区域画质增强提供了有力支持。 (20)物体识别 车牌检测解决方案针对行车记录、哨兵模式等应用场景进一步优化效果。支持常见自动驾驶芯片和车机芯片,并结合GPU、DSP、NPU等高性能运算资源进一步优化性能,可以满足在线实时检测的需求。同时车牌检测解决方案已支持Android、Linux和QNX等操作系统。目前车牌检测技术可以支持多种常见的车牌类型。当前在内部车载多种应用场景实车采集测试集中测试结果满足中汽协《汽车传输视频及图像脱敏技术要求与方法》中相关的要求,通过特定的硬件和环境适配,召回率和误检率指标还可以进一步提高。 (21)场景识别 场景检测引擎GPU版本继续更新迭代算法模型,支持高通、MTK等NPU平台的运行,进一步提升了全体场景检测准确率,改善支持任意角度和有限度遮挡的目标场景检测。 (22)三维重建 三维重建技术实现了一套全新的基于神经渲染的物体三维重建方法。交互方式与之前的方案基本一致,即使用手机围绕物体拍摄一段视频或若干照片。重建算法在服务器端运行,重建算法与之前方法相比,重建模型的精度显著提升,能够准确地还原毫米级的凹凸细节,并且能表现各项异性的光照效果。该方法能实现在移动设备及网页端的实时渲染。 针对XR眼镜应用场景,迭代和部署实时三维重建技术。双目深度学习算法通过双目输入实时估计场景深度数据,添加更多XR场景数据,提升深度恢复效果,尤其是室内弱纹理区域。优化网络结构,降低双目深度恢复模块耗时,减少时延。增加空间射线和场景几何的碰撞计算,为用户空间交互提供支持。 开发静态场景隐式建模技术,可能生成高真实感的新视点图像。该技术方案根据视频与实时获取的相机位姿,用神经网络隐式建模三维场景,通过可微的体渲染技术,实现端到端训练。该技术方案可重新规划相机路径后渲染得到新的视频,用于视频编辑和立体视频生成等。结合神经辐射场和隐式符号距离函数几何表达,还可用于重建静态场景的三维网格模型。 (23)光照重建 扩充去阴影功能训练数据集,继续优化了对鼻子阴影,嘴巴阴影,眼镜阴影,头发阴影等较难场景的处理效果;结合图像后处理技术,增强去阴影后人脸的皮肤细节,改善部分图像人脸发灰、对比下降等问题;结合去阴影和原有人像重打光算法,实现自动去阴影+重打光的功能,并优化性能和内存占用和原来仅做单项重打光接近;结合公司双摄深度估计技术,新实现了物体的单色舞台光功能。 (24)即时定位与地图构建(SLAM) VR手柄跟踪是SLAM技术的一个新拓展领域,是VR终端设备的刚需技术。2023年上半年,VR手柄算法从仿真转变到了实际设备的开发。支持多种第三方设备,并支持双手柄实时交互,实现了安全区设定、空间划线等功能。对VR手柄跟踪算法的性能、鲁棒性、精度等进行了全面的优化,在高通XR2设备平台上,算法单帧耗时在22ms以内,支持视野可见范围内2m/s的剧烈运动,平均定位精度小于6.5mm。除了基于光斑的传统VR手柄,还开发了使用手机作为VR手柄的功能,可以使用普通的android手机实现实时六自由度跟踪定位,实现菜单点选、简单的游戏交互等。 对手机手柄跟踪算法的性能、鲁棒性、精度等进行了全面的优化。从逻辑上优化了用户体验,使得输出轨迹更加光滑、流畅。 SLAM技术在XR眼镜的头部位姿估计上取得显著进展。头部位姿估计是XR眼镜的一个核心技术和基础功能,要求低功耗、高精度和低时延。通过优化SLAM算法和把部分计算从CPU移到DSP,整体计算效率提升20%,有效降低功耗和时延。针对XR使用场景,对建图模块进行大量优化,极大提高后端建图和实时定位精度。同时,改进姿态预测模块,实时定位准确度提升 30%,接近业内毫米级的定位精度要求。已有版本在多款XR原型眼镜上集成,为快速、准确的头部位姿估计提供良好的用户体验。 (25)3D AR动画 公司打通了3D数字人创建、编辑、实时驱动全流程。支持基于单张图或扫描模型完成数字?重建。与之前的重建算法相比,改善了头顶区域、眼睛的相似度,提升了纹理重建效果。编辑模块支持对重建模型的脸型、头型、五官、脖子等进行直观地修改。实现了基于单个RGB摄像头的实时全身驱动,包括表情跟踪与手势跟踪,实时动画效果基本达到业界领先水平。 (26)健康监测 持续提升座舱健康监测技术。其中心率检测算法,引入时序深度学习框架,提取连续帧关键区域信息,构建多态深度学习分析网络模型,从而有效提升镜头和场景适配程度,缩短单独适配调试周期50%,减少数据成本30%;呼吸检测算法方面,增加实时呼吸次数检测功能,有效提升不同呼吸率下输出结果的稳定性,总体准确率提高 20%,显著提高用户体验;血压检测算法方面,进一步细化用户个性范围,同时使用BMI与RPPG相结合的算法提升异常个例识别率,底线通过率提升5%。 (27)高级驾驶辅助系统(ADAS) ADAS 技术按照L2 落地应用重点攻坚感知核心引擎。前视解决方案中,持续提升感知算法技术指标,障碍物检测方面针对远距离小目标专题强化,其中行人远距离精准率提升5%,车辆远距离精准率提升4%,并新增对水马护栏的检测支持;道路分析技术方面,车道线综合召回率提升4%,其中夜间环境下召回率提升8%;标定技术方面,进一步优化产线标定、售后标定和在线标定等功能,成功率提升40%,耗时减小50%;障碍物测量技术方面,针对目标物遮挡和截断情况,整体测量误差减小2%。周视解决方案中,持续提升障碍物感知算法精度,车辆整体召回率提升1%,并重点针对封闭道路中大型车辆以及城市道路中行人非机动车精准率强化,在自建专题测试集中,大型车辆精准率提升15%,行人及非机动车精准率提升27%;针对指令变道功能持续优化,在融合区域内异形车测量准确率提升30%,跳变率降低20%。夜视解决方案中,利用远近红外双目摄像头,支持各种复杂场景下不同距离的车辆、行人和其他交通目标的识别。增加了对危险目标的高亮支持,进一步提升了夜间驾驶的安全性。在数据方面,目前夜视算法已经积累了大量不同天气和地区的实际场景数据和异常 case,大大提升了算法的场景适配性。实车功能上,完成自适应巡航(ACC)、车道居中保持(LCC)、自动紧急刹车(AEB)在DEMO车上的实际部署,针对指定城市道路持续优化用户体验。 AVM技术扩展统一了各视图的效果调整策略,可以有效地支持客户对效果的不同定制化需求;精细优化了产品的动态效果,支持前视图和透明底盘的动态展示,增加全景视图到局部视图切换动画,丰富车模的动画效果;深入改善了透明底盘功能,改进在车辆变速、转弯等复杂场景下的对齐效果,提升底盘内容的清晰度。 (28)图像特效 基于丁达尔效应产生的物理原理,选择合适的场景对仿真实现进行合理的简化和模拟,最终实现一套结合AI和CG的方法,为特定的场景图像添加上合适的丁达尔特效效果,提升图像艺术感。人像线条画效果和宠物线条画效果,这两种效果都结合了 AI 技术和审美的艺术,首先通过AI算法提取出具有表现力的线条,然后根据审美的评判制定一些准则将原始图像转换为一幅线条艺术画,并突出原图的主要特征和美感。这两种效果目前都已实现手机端的部署,并有参数控制线条粗细、颜色、数量等,从而可以根据不同场合满足用户的自适应调整需求。 国家科学技术奖项获奖情况 □适用 √不适用 国家级专精特新“小巨人”企业、制造业“单项冠军”认定情况 □适用 √不适用 2. 报告期内获得的研发成果 截至报告期末,公司拥有专利259项(其中发明专利238项)、软件著作权146项。相较于2022年末,报告期内净增发明专利11项、软件著作权17项。(未完) ![]() |