[中报]虹软科技(688088):2024年半年度报告
原标题:虹软科技:2024年半年度报告 公司代码:688088 公司简称:虹软科技 虹软科技股份有限公司 2024年半年度报告 重要提示 一、 本公司董事会、监事会及董事、监事、高级管理人员保证半年度报告内容的真实性、准确性、完整性,不存在虚假记载、误导性陈述或重大遗漏,并承担个别和连带的法律责任。 二、 重大风险提示 公司已在本报告中阐述了公司在经营过程中可能面临的风险因素,请查阅本报告“第三节 管理层讨论与分析/五、风险因素”部分。敬请投资者注意投资风险。 三、 公司全体董事出席董事会会议。 四、 本半年度报告未经审计。 五、 公司负责人Hui Deng(邓晖)、主管会计工作负责人韦凯及会计机构负责人(会计主管人员)韦凯声明:保证半年度报告中财务报告的真实、准确、完整。 六、 董事会决议通过的本报告期利润分配预案或公积金转增股本预案 经公司第二届董事会第十七次会议审议通过,公司2024年半年度利润分配预案为:拟以实施权益分派股权登记日登记的总股本扣减公司回购专用证券账户中的股份为基数进行利润分配,每10股派发现金红利1.50元(含税),公司不进行资本公积金转增股本,不送红股。 根据《上海证券交易所上市公司自律监管指引第7号——回购股份》等有关规定,上市公司回购专用账户中的股份,不享有利润分配的权利。因此,本公司回购专用证券账户中的股份将不参与公司本次利润分配。 截至2024年8月26日,公司总股本401,170,400股,回购专用证券账户中股份总数为439,000股,以此计算合计拟派发现金红利60,109,710.00元(含税),占公司2024年半年度归属于上市公司股东净利润的97.80%。 如在本报告披露之日起至实施权益分派股权登记日期间,公司总股本扣减公司回购专用证券账户中的股份发生变动的,公司拟维持每股分配比例不变,相应调整分配总额,并将另行公告具体调整情况。 七、 是否存在公司治理特殊安排等重要事项 □适用 √不适用 八、 前瞻性陈述的风险声明 √适用 □不适用 本报告中所涉及的未来计划、发展战略等前瞻性描述,均不构成公司对投资者的实质性承诺,投资者及相关人士均应对此保持足够的风险认识,并且应当理解计划、预测与承诺之间的差异。 敬请投资者注意投资风险。 九、 是否存在被控股股东及其他关联方非经营性占用资金情况 否 十、 是否存在违反规定决策程序对外提供担保的情况 否 十一、 是否存在半数以上董事无法保证公司所披露半年度报告的真实性、准确性和完整性 否 十二、 其他 □适用 √不适用 目录 第一节 释义 ......................................................................................................................................... 5 第二节 公司简介和主要财务指标 ..................................................................................................... 8 第三节 管理层讨论与分析 ............................................................................................................... 12 第四节 公司治理 ............................................................................................................................... 59 第五节 环境与社会责任 ................................................................................................................... 61 第六节 重要事项 ............................................................................................................................... 63 第七节 股份变动及股东情况 ........................................................................................................... 87 第八节 优先股相关情况 ................................................................................................................... 92 第九节 债券相关情况 ....................................................................................................................... 93 第十节 财务报告 ............................................................................................................................... 94
第一节 释义 在本报告书中,除非文义另有所指,下列词语具有如下含义:
第二节 公司简介和主要财务指标 一、 公司基本情况
二、 联系人和联系方式
三、 信息披露及备置地点变更情况简介
四、 公司股票/存托凭证简况 (一) 公司股票简况 √适用 □不适用
(二) 公司存托凭证简况 □适用 √不适用 五、 其他有关资料 □适用 √不适用 六、 公司主要会计数据和财务指标 (一) 主要会计数据 单位:元 币种:人民币
(二) 主要财务指标
公司主要会计数据和财务指标的说明 √适用 □不适用 1、报告期内,公司营业收入较上年同期增长 11.97%、归属于上市公司股东的净利润较上年同期增长22.82%、归属于上市公司股东的扣除非经常性损益的净利润较上年同期增长21.70%,主要原因为:(1)公司移动智能终端视觉解决方案本期实现营业收入33,192.34万元,较上年同期增长6.43%;公司智能驾驶及其他IoT智能设备视觉解决方案本期实现营业收入4,336.40万元,较上年同期增长93.19%。(2)公司本期利用闲置资金进行现金管理取得的利息收入为2,922.33万元,较上年同期增长21.53%。 2、报告期内,公司经营活动产生的现金流量净额较上年同期减少130.82%,主要系公司部分客户为了加深与公司合作,在上年度提前支付销售款,导致本期销售款收回减少所致。 3、报告期内,公司基本每股收益较上年同期增长 25.00%、稀释每股收益较上年同期增长25.00%、扣除非经常性损益后的基本每股收益较上年同期增长18.18%、加权平均净资产收益率较上年同期增加0.36个百分点、扣除非经常性损益后的加权平均净资产收益率较上年同期增加0.30个百分点,主要系公司本期归属于上市公司股东的净利润、归属于上市公司股东的扣除非经常性损益的净利润增加所致。 七、 境内外会计准则下会计数据差异 □适用 √不适用 八、 非经常性损益项目和金额 √适用 □不适用 单位:元 币种:人民币
对公司将《公开发行证券的公司信息披露解释性公告第1号——非经常性损益》未列举的项目认定为的非经常性损益项目且金额重大的,以及将《公开发行证券的公司信息披露解释性公告第 1号——非经常性损益》中列举的非经常性损益项目界定为经常性损益的项目,应说明原因 √适用 □不适用 单位:元 币种:人民币
九、 非企业会计准则业绩指标说明 □适用 √不适用 第三节 管理层讨论与分析 一、 报告期内公司所属行业及主营业务情况说明 (一)所属行业发展情况 1 所属行业 根据《国民经济行业分类》(GB/T4754-2017),公司所属行业为“I65软件和信息技术服务业”中的“I6513 应用软件开发”。根据中国上市公司协会发布的《中国上市公司协会上市公司行业统计分类指引》,公司所属行业为“信息传输、软件和信息技术服务业-软件和信息技术服务业”,行业代码为“I65”。 公司从事计算机视觉技术算法的研发和应用,主要产品有移动智能终端视觉解决方案、智能驾驶视觉解决方案和其他AIoT智能设备视觉解决方案,根据公司主要产品功能及服务对象的特点,公司所属行业为计算机视觉行业,属于软件和信息技术服务业。 根据国家发改委公布的《战略性新兴产业重点产品和服务指导目录2016版》,公司属于“新一代信息技术产业”。 2 所属行业的发展情况 (1)行业发展阶段、基本特点、产业政策 在新科技革命和产业变革的大背景下,人工智能加快向各产业渗透,日益成为科技创新、产业升级和生产力提升的重要驱动力量。视觉人工智能行业为各类人工智能应用提供基础支持技术,广泛应用于各类人工智能细分领域。政府积极出台政策促进人工智能技术发展和应用,深化落实与视觉人工智能息息相关的人工智能、智能制造、信息化和工业化的相关政策,为视觉人工智能的发展提供了政策与配套资源支持。2024年以来,新出台的主要人工智能产业政策如下: 2024年3月,在《2024年国务院政府工作报告》中,提出要深化大数据、人工智能等研发应用,开展“人工智能+”行动,打造具有国际竞争力的数字产业集群。 2024年3月,国务院印发《推动大规模设备更新和消费品以旧换新行动方案》,提出开展汽车以旧换新,加大政策支持力度,畅通流通堵点,促进汽车梯次消费、更新消费。组织开展全国汽车以旧换新促销活动,鼓励汽车生产企业、销售企业开展促销活动,并引导行业有序竞争。 2024年4月,国家发展改革委办公厅、国家数据局综合司印发《数字经济2024年工作要点》,提出适度超前布局数字基础设施、深入推进产业数字化转型、加快推动数字技术创新突破、不断提升公共服务水平、推动完善数字经济治理体系、全面筑牢数字安全屏障、主动拓展数字经济国际合作、加强跨部门协同联动等内容。 2024 年 6 月,工业和信息化部等四部门印发《国家人工智能产业综合标准化体系建设指南(2024版)》,提出以抢抓人工智能产业发展先机为目标,完善人工智能标准工作顶层设计,强化全产业链标准工作协同,统筹推进标准的研究、制定、实施和国际化,为推动我国人工智能产业高质量发展提供坚实的技术支撑。 2024年7月,国家发展改革委、财政部印发《关于加力支持大规模设备更新和消费品以旧换新的若干措施》,就支持地方提升消费品以旧换新能力、提高汽车报废更新补贴标准、支持家电产品以旧换新等方面提供提出了一系列支持措施。 (2)细分领域发展状况 移动智能终端细分领域 根据市场研究机构 Counterpoint 统计数据,2024 年前两个季度,全球智能手机出货量分别约为2.97亿台和2.89亿台。其中2024年第二季度实现了8%的同比增长,是全球智能手机市场连续第三个季度保持增长,显示出市场回暖的积极信号。Counterpoint报告还指出,全球智能手机市场的整体收入同比增长8%,平均售价达到了历年同期的最高水平。高端市场(800美元以上)的份额也有所增加,同比上升2个百分点。 2024 年,三星、荣耀、小米、OPPO、vivo、传音等多家安卓手机厂商先后推出了带有 AI 功能的手机产品。2024年6月,苹果在WWDC24也正式发布了Apple Intelligence(苹果智能系统),同时宣布与OpenAI合作,Apple Intelligence将接入GPT-4o模型。以苹果为代表的端侧AI厂商持续在端侧 AI 领域发力布局,AI 大模型在端侧的垂直场景应用有望加速落地。Counterpoint预测,2027年全球AI手机渗透率约40%,出货量有望达5.22亿部。行业认为,交互方式的革新、功能升级以及诸如折叠屏等新形态的出现等因素相辅相成,预计在一定程度上会推动换机需求。 苹果在2023年发布了其首款头戴式显示设备Apple Vision Pro,并于2024年正式对外发售,产品一经发布便受到市场广泛关注。行业认为,Vision Pro的定价表明,该产品主要面向专业用户和内容开发者,而非普通消费者,但其仍旧是当前AR/VR设备领域的标杆,对XR产业的产品范式、内容生态与产业链迭代都产生着积极影响。根据公开资料,谷歌于 2012 年首次推出采用 AR技术的Google Glass,尽管产品备受瞩目,但市场表现不佳。此后,Meta、小米等大厂纷纷入局智能眼镜赛道。近年,随着各类显示技术的出现与成熟,硬件微型化与计算能力的提升,以及端侧AI技术的赋能,AR眼镜作为AI具有性价比的硬件落地方案又重回大众视野。 智能汽车细分领域 中汽协数据显示,2024年上半年,我国汽车销量继续保持增长,汽车产销分别完成1,389.1万辆和1,404.7万辆,同比分别增长4.9%和 6.1%。其中,乘用车产销分别完成 1,188.6万辆和1,197.9万辆,同比分别增长5.4%和6.3%;商用车产销分别完成200.5万辆和206.8万辆,同比分别增长2%和4.9%。上半年,中国汽车出口总量279.3万辆,保持30.5%的快速增长,拉动了市场整体增长。 当前汽车智能化按照电动化、智能化、网联化顺序逐步推进,智能化的发展空间正在不断拓展。据国家发展改革委的预测,到2025年,我国智能汽车的数量预计将达到2,800万辆,市场渗透率预计为82%;到2030年,智能汽车的数量将增至3,800万辆,渗透率预计将达到95%。 智能驾驶技术已成为众多汽车制造商争夺市场份额的关键领域,同样也是众多供应商竞相投入的焦点。从传统的汽车制造商、新兴的汽车企业、传统的 Tier 1、科技企业、互联网公司,到消费电子公司,都在积极推进智能驾驶技术的商业化,城市NOA、去高精地图、舱驾融合等技术成为智能驾驶领域的主要趋势,这些技术的发展将推动智能驾驶向更高层次的自动化和智能化迈进。在座舱领域,行业认为,持续优化座舱和其他智能设备的互联互通,以及车载大模型的加入,会是2024年智能座舱发展的主要趋势。 3 主要技术门槛 视觉人工智能属于高知识密集型领域,有较高的技术门槛,公司为各类移动智能终端、智能汽车等智能设备提供视觉人工智能解决方案,在前述领域的主要技术门槛包括: (1)端计算和边缘计算技术的积累 边缘计算极大程度上解决了物联网背景下集中式运算架构中的带宽和延迟两大瓶颈问题,主要难点在于低资源的嵌入式平台环境的开发能力,基于移动终端的边缘计算具有巨大的应用价值,但是受限于移动终端有限算力,诸多企业望而却步。 公司自2003年开始便明确了在嵌入式设备研发相关视觉人工智能技术的发展方向,在边缘计算技术领域积累深厚,多年来建立了全面、复杂的多平台适用的底层嵌入式开发库。公司积累的算法具有高度的紧凑性、稳定性以及易调用性,可以在高性能、有效大幅降低资源消耗的情况下实现高精度运行。 公司长期专注于嵌入式设备算法的研究与开发,多年来积累了大量基于端设备的视觉人工智能算法开发经验。目前公司基于端设备的视觉人工智能算法适用性高、运行稳定,可以在边缘侧发起高效的运算,通过诸如智能手机、笔记本电脑、智能可穿戴等设备实现高效的图像优化、识别与检测等功能。公司的移动智能终端视觉解决方案、智能驾驶视觉解决方案和其他AIoT智能设备视觉解决方案等业务均是从边缘侧发起运算,在智能手机、笔记本电脑、智能可穿戴设备、汽车和各类AIoT设备上实现各类视觉人工智能的功能。 (2)视觉人工智能技术的层次积累 在数码相机以及手机功能机时代,公司就开始专注于视觉人工智能技术的研发与应用,公司主要算法技术都经过了长时间的锤炼,从基本的黑白小分辨率图像的摄取、增强、编辑、检测识别到高清大图像、视频的实时处理均打下了坚实的基础,创造了有利和领先的条件。 公司掌握的视觉人工智能算法技术具有通用性和延展性。多年来,公司积极致力于将视觉人工智能算法与行业应用相结合,凭借先进的科研力量、强大的产品开发能力以及卓越的工程实施能力,公司快速将视觉人工智能算法技术落地为成熟的解决方案,并进一步将应用领域从智能手机扩展到智能汽车、智能家居、智能零售等多个行业,助推行业升级。此外,公司基于自身深厚的技术积累,能够为上述行业快速提供高性能、高效率、硬件平台适应性强、功耗控制优良的解决方案,大大降低各类客户的产品使用先进技术的门槛,帮客户提升产品竞争力,助力视觉人工智能和人工智能相关应用的普及。 (3)工程落地能力 虹软创立至今,除不断积累和发展自身技术、掌握持续开发、迭代与硬件更加匹配的算法的能力,还一直致力于与核心产业链内主流公司开展长期、广泛的合作。公司与高通、联发科等各主流芯片公司建立了长期稳定的合作关系,研发中持续合作交流,深入了解平台硬件特性并为其针对性优化,共同开发核心功能,不断提高视觉人工智能技术算法产品与移动芯片的适配性。公司还与索尼传感器、三星半导体、格科微、OmniVision、舜宇光学、信利等业内核心器件合作伙伴建立了业务交流或合作关系,在项目早期就针对特定相机或硬件做算法适配和调优。针对智能终端的芯片平台,公司具备针对CPU、GPU、DSP和NPU等各个算力单元的强大优化能力。结合各硬件算力单元的能力和算法模块的算力需求,公司具备的异构计算优化能力能够从系统层面更有效地优化性能、降低功耗。得益于此,除核心技术能力突出外,公司同时具备优势明显的工程落地能力,在客户提出技术需求后,能更好地联合和发挥在相机模组、软硬件平台、产线、算法等多方资源合作优势,进而提供效果好、能耗低、效率高、硬件平台适应性广并能够快速落地的解决方案。 (二)主要业务、主要产品及其用途 公司专注于计算机视觉领域,为行业提供算法授权及系统解决方案,是全球领先的视觉人工智能企业,始终致力于视觉人工智能技术的研发和应用,坚持以技术创新为核心驱动力,在全球范围内为智能设备提供一站式视觉人工智能解决方案。 公司拥有丰富的针对智能手机等移动智能终端以及智能汽车的视觉算法产品线,主营业务收入来源于自主研发核心技术的授权许可使用。目前主要客户包括三星、小米、OPPO、vivo、荣耀、Moto等全球知名手机厂商以及国内主要的自主品牌、部分合资及外资品牌汽车主机厂商。 针对智能手机,基于多年的研究开发,公司可以提供目前市面上大部分主流智能手机视觉人工智能算法产品,包括单/双/多摄摄像头在各种场景下的拍摄和高质量成像、深度摄像头在各种场景下的拍摄和高质量成像、潜望式长焦摄像头无级变焦、3D 建模、全景、SLAM、AR/VR、人脸解锁、超像素无损变焦、人体驱动等重要核心功能。在笔记本电脑上,公司从画质、隐私、美颜等几个方面来提升用户视频会议体验。通过视频去噪、提升动态范围来改善会议时的画质;通过背景虚化、换背景实现用户隐私进行保护;通过人像美颜、人体自动居中、人脸细节恢复和增强、眼镜去反光等技术提升视频会议效果。 在XR领域,与多家业界头部厂商保持密切沟通和交流。在VR/MR/AR智能可穿戴设备上,公司从标定、感知、交互和视觉呈现四大方向布局算法解决方案。可以提供VR/MR/AR一站式多传感器标定解决方案,包括头显6DoF跟踪、平面检测、稠密重建、语义分析、深度估计、实时人体/手部分割、实时3D Mesh重建等空间感知解决方案,手柄6DoF跟踪、裸手3D手势交互、视线跟踪和虚拟数字人表情驱动、人体驱动等交互解决方案,以及异步时间扭曲、异步空间扭曲、视频透视(VST)等视觉呈现解决方案。 在智能汽车领域,面向舱外,公司在行车辅助功能上储备了基于前视、周视、环视、后视、夜视摄像头系统的视觉感知算法,可以提供ACC、LCC、AEB、ILC等高级智能驾驶辅助功能;在自动泊车功能(APA)上储备了视觉感知算法、超声波视觉融合算法、规控算法;提供360°环视视觉子系统,支持2D/3D AVM全景影像功能,支持透明底盘、哨兵监测功能。面向舱内,公司主要在DMS、OMS两种产品形态上积累了一系列视觉感知算法,可以提供例如疲劳检测、分心检测、健康监测、身份识别(Face ID)、手势识别、遗留提醒等座舱监控、互动系统功能。 面向商业拍摄领域,公司基于ArcMuse计算技术引擎推出的智能商拍解决方案PhotoStudio? AI智能商拍摄影云工作室(以下简称PSAI),不仅提供了AI试衣、AI模特视频生成功能,而且对于用户输入的各类真人图、人台图以及商品图,均可高质量生成服装模特展示图和商品展示图。 此外,PSAI还提供了包括智能抠图、魔法擦除、画质增强、智能美化、智能补光等丰富功能的AI编辑工具箱。 (三)主要经营模式 1、盈利模式:公司主要盈利模式是将计算机视觉算法技术与客户特定设备深度整合,通过合约的方式授权给客户,允许客户将相关算法软件或软件包装载在约定型号的智能设备上使用,以此收取技术和软件使用授权费用。同时,公司也向客户销售软硬一体视觉解决方案。 2、研发模式:公司主要采取自主研发的模式。研发过程大致分为以下9个步骤:①获取需求信息;②管理层决策研发方向;③搭建研发项目组;④验证研发项目算法,进行项目测试;⑤集体讨论决策项目算法;⑥进行底层算法与实际环境的结合优化;⑦进行实际产品结合测试;⑧产品成熟后路演,选择合适的客户进行测试合作;⑨测试合格后大规模推广。 3、销售模式:公司采用直销的方式,主要向智能手机、智能汽车、笔记本电脑、智能家居、智能零售以及各类带摄像头的AIoT设备制造商销售计算机视觉算法软件及相关解决方案。 4、收费模式:按照业务合同的不同类型划分,公司的计算机视觉算法软件主要收费模式可划分为固定费用模式和计件模式两种模式。①固定费用模式:按合同约定的软件授权期限,收取固定金额的软件授权费用。特定客户在软件授权期限内,针对某款、某系列的特定设备内,可以合法地把含有虹软科技算法技术的特定软件无限量装载在合约限定的智能设备上。②计件模式:在合同约定的软件授权期内,按照客户生产的装载有虹软科技算法技术智能设备的数量进行收费。 通常情况下,公司会与客户就不同生产数量区间,约定阶梯价格,保障双方利益。针对软硬一体解决方案,公司目前采用计件模式。 5、采购模式:公司的主要采购内容包括研发、测试和运营所需的各类硬件设备、软件、服务,以及产品解决方案所需的物料等。根据需求部门的请购申请,采购部门按照《采购管理制度》的要求,执行供应商选择、采购合同签订、合同执行跟踪、采购付款申请等流程。针对软硬一体解决方案,由公司进行硬件的设计并购买相应部分核心部件后,委托第三方进行组装生产。 (四)市场地位 目前,视觉人工智能市场格局已经初步形成,核心技术、产品化能力、产业生态链合作均构成行业的核心壁垒,建立在自主创新能力基础之上的产品化能力成为最终创造社会价值和商业价值的核心,而能否寻找到规模化、商业化的应用场景则决定了企业是否能够长远发展。 公司是计算机视觉行业领先的算法服务提供商及解决方案供应商,是全球领先的计算机视觉人工智能企业。除本公司外,行业中国内企业主要有商汤科技、旷视科技,国外企业主要有Seeing Machines、Mobileye、Cipia、Smarteye。 全年出货量达十几亿台的智能手机市场是视觉人工智能技术的重要应用领域,也是公司人工智能产品落地应用最为广泛的领域。基于多年的研发和积累,目前公司可以提供大部分主流智能手机的视觉人工智能算法产品和技术。根据IDC所统计的2019年度至2023年度全球出货量前五的手机品牌中,除苹果公司完全采用自研视觉人工智能算法外,其余安卓系统手机的主流机型均有搭载公司视觉人工智能解决方案。在继续巩固智能手机算法影像行业领导地位的同时,公司依靠对行业演进规律和技术更迭的理解,成熟有效的产品落地能力,正横向大力推进在智能驾驶领域的落地。在该领域,公司为客户提供VisDrive?一站式车载视觉软件解决方案,目前已经成为国内基于高通智能车载芯片平台上的主流视觉算法供应商。 二、 核心技术与研发进展 1. 核心技术及其先进性以及报告期内的变化情况 目前,公司积累了大量视觉人工智能的底层算法,构建了完整的视觉人工智能技术体系。 公司自主研发了诸如人脸分析及识别/人脸美化及修复/人体分析及美化、手势识别/物体识别/场景识别、行为分析、暗光图像增强/超分辨率图像增强/视频画质增强/画质修复、光学变焦、虚化技术、3D AR 动画等诸多可应用于智能手机、智能座舱、智能辅助驾驶、笔记本电脑、智能可穿戴设备等终端领域的核心技术。 针对单摄/多摄/TOF/结构光等不同种类的摄像头,公司均可提供相应的3D与AR视觉解决方案,帮助厂商在移动设备上便捷高效地实现落地。为满足各智能终端对于VR/MR/AR应用的需求,公司已经研发并可以直接落地使用的解决方案,包括基于双摄/多摄/TOF/结构光的深度获取和优化,以及基于单摄的深度获取引擎,这些深度数据成为一些上层逻辑应用的核心基础;实现了SLAM中环境 Map 的构建,物体的 3D Modeling,视线的检测、跟踪,人体和动作静态、动态姿态的检测和跟踪,解决了实时显示中的延迟等多种问题。为满足智能驾驶人机交互的需求,公司主要研发了基于红外相机、单摄RGB摄像头、双摄、深摄的交互技术,包括手势交互引擎包、头部动作和口部动作交互引擎、经典表情识别,以及视频、照片拍摄时的娱乐功能。 公司在人体分析、人脸识别、人体识别、手势识别、人体美化等技术上,在当前状态下的中段平台达到超过 95%的正确率、毫秒级实时性,这些引擎也可以有效鲁棒地支持低端硬件平台,人物属性分析、对象属性分析、多帧多通道质量提升等技术点能达到业界先进的低功耗、高性能、相对强鲁棒的水平。 公司大部分智能手机视觉解决方案达到国内外先进水平,多数新创技术在行业内属于技术首发,能够满足目前市面上中高端智能手机大多数与视觉相关的技术与应用的算法需求,且公司的智能手机视觉解决方案在除苹果之外的主流手机品牌的大部分旗舰机型上获得使用。 公司拥有多项原始创新的核心技术,主要核心技术列表如下:
(1)人脸分析及识别 针对人脸检测技术在人脸、宠物脸场景下的误检问题进行了进一步优化,同时提升小人脸的检测率,手机版本在内部最新自建难例测试集上保持速度不变的情况下,召回率由 93.9%提升到97.5%,精度由99.2%提升到99.7%。人脸关键点定位技术在自测数据集上精度提升2%,在手机应用中针对残缺人脸的定位精度和跟踪稳定性进一步提升。同时也提升了智能座舱应用中镜片反光场景眼睛点的精度,从而使得DMS功能对摄像头的要求降低。在智能座舱场景中,人脸角度和位置估计新方案平均角度在新的难例自建数据集上精度误差由2.98度降低到2.18度。不断提升人脸重建技术在不同表情、不同人脸角度下的稳定性及贴合性,尤其是在自拍场景下的眼睛、嘴巴贴合度更高,在自测集上贴合精度提升3%。 2D Face ID进一步改善效果,在FAR≤100k的情况下,常规场景和戴口罩场景下,FRR改善1.9%~2.4%,优化注册方案,不同场景整体改善2.5%~3.3%;3D Face ID在FAR≤100k的情况下,常规场景和戴口罩场景下,FRR改善1.2%~3.1%;车载场景的RGB/IR交叉识别持续改善,FRR改善 1.6%~2.2%,同时进一步改善海外人种识别效果;通用版本支持开放平台全面更新,较旧版本有大幅度提升;人脸识别大模型更新,在FAR百万分之一的条件下多个场景FRR降至1%以下。静默式活体RGB及IR版本持续改善,同时完成了RGB炫光活体的初始版本,效果更优于常规静默版本。性别识别RGB版本精度提升2.6%,IR版本精度提升3.9%;年龄识别效果大幅提升,RGB版本MAE减少28.6%,IR版本MAE减少33.3%。 (2)人体分析及美化 人体检测技术进一步提升,针对手机移动端场景,提升了人体召回率并且降低了误检率,同时提升了目标跟踪稳定性,在内部困难自测数据集上,召回率提升了3.2%达到90.9%,精度提升1.1%达到 94.5%,尤其是伸手、踢腿、弯腰等场景的检测效果更加稳定。而车载场景下召回率提升1.4%达到93.19%,精度提升2.75%达到98.75%。人体骨骼关键点技术,在座舱内场景中存在复杂动作、成像存在大畸变的情况下,点位的准确性和稳定性提升较为明显,整体map提升1.81%,为后续人体分析提供了更加可靠的基础信息。人体重建技术通过多相机球型实验室数据的采集和补充以及新方案改进,SMPL模型精度提升2%。遗留儿童检测技术在人脸方案和人体方案两个方面都进行了算法效果提升,人体版本儿童召回提升1.02%,精度提升1.45%。行为识别技术不断完善,针对座舱内场景,精准定位>50个自适应动态关键点,辅助行为分析,进一步提高儿童危险行为识别率。基于行为识别的环视哨兵功能,报警输出算法召回率提升,提高画面中间位置人体很近时的跟踪率,前后画面距离很近破坏车牌场景,以及左右画面前车窗距离很近场景的召回率提升,整体报警召回率提升2%达到98.9%。 人脸美型方案,在效果、性能、稳定性方面有了很大的改进。效果方面,在保持原有形变效果的基础上,精细参数调节,实现非局部形变的功能,模拟出更加自然的形变效果,通过客户验收并获得认可。性能方面,在开启多个形变功能时,优化变形逻辑,提升预览性能,用户体验更好。重构强边缘及大角度保护机制,增强预览稳定性,降低美型失效概率。新增AI人脸美型,参考真实整容技术,注重保留用户原本的脸部特征,使用户脸型美化更加自然,并实现个性化脸型美化效果。人脸美化方向由视觉艺术团队主导,使得美型效果更显美观。基于AI美型方案,已经实现个性化人脸强边缘平滑功能,效果达到预期,计划添加更多美型效果。 人体美型方案根据客户需求,新增人像自然瘦腹功能,提升人像气质。升级人体感知模块,应用人体语义分割、三维人体重建等技术点,人体参数感知结果更准确,变形控制更到位。 (3)宠物分析 宠物身体检测技术采用新的方案进一步提高mAP,有力地支持了Bokeh等产品的宠物场景效果提升。宠物面部关键点检测技术针对大角度姿态、小目标场景进行优化,检测率提升约 16%,有效提升了复杂场景下检测的鲁棒性,在宠物面部关键点检测的基础上进一步开发了宠物五官关键点检测,眼睛状态分类,面部姿态分类,可以获取更加准确的宠物五官轮廓,为后续宠物表情增强等产品提供了强大支持。 (4)行为分析 继续提升满足DDAW以及Euro NCAP法规的驾驶员疲劳/分心检测技术方案。通过大量路测数据对疲劳/分心的误报进行实车数据分析,通过多数据融合将基于车机信号与车辆控制信号在内的驾驶员行为数据与视觉感知信息进行融合,通过数据统计优化行车中的误检问题。与此同时,根据大量KSS以及心理行为研究实验结论,结合大量实车疲劳路测数据分析,完成了更加符合疲劳认知的全新疲劳解决方案的研发。根据大量疲劳研究实验进行了真实疲劳数据采集和真实疲劳检测技术更新,提升了基于真实疲劳反应的驾驶员疲劳分级检测,在视觉信息获取上增加多帧、多时间窗口的分析,增大疲劳分析的时间窗口区间,将大量与疲劳行为相近但表现形式有差异的混淆行为进行鉴别,对诸如低头向下看、从左右两侧注视手机屏幕或者其他交互区域等行为与闭眼或疲劳进行区分,形成了与市场同类产品技术的差异化,目前正在尝试将该新技术融入量产方案中,并且实车测试已达到DDAW认证要求。 视线追踪技术已经支持了众多智能座舱量产项目,结合座舱标定方案为驾驶员分心技术提供视线落点输出支持,完成了Euro NCAP法规中需要支持的视线落点检测研发,对驾驶员视线检测覆盖到舱内23个区域。满足了车上所有可能摆放手机位置下的驾驶员看手机分心检测要求,满足Euro NCAP所有视线分心测试场景的检测要求,并将过标方案融入量产方案中,实现了更多满足法规要求的视线功能设计。 根据对ADDW法规解读与技术实现分析,目前已经完成ADDW实车专项测试,并即将在各量产方案中设计算法方案,满足该法规标准继续进行单摄像头下视线追踪技术的精度提升,自主研发基于3D人脸重建与追踪的底层数据特征表达,实现3D视线追踪技术,该技术方案在客观数据指标上实现总体20%的提升,并在大角度场景下实现近30%的精度提升;视线追踪技术继续对多摄像头方案进行研究,并根据项目需要应用在量产项目中,全面提升驾驶员在车内的视线精度,尤其是在人脸大角度下的视线精度,全面覆盖各种摄像头下的人脸全角度。基于多相机方案的视线真值系统已经进入了第二阶段产品原因的研发,目前已经实现了实验室、演示箱与座舱三种场景的搭建,可在多种条件下采集视线与头部位姿的真值数据;与此同时,自主研发了基于用户行为的无感自标定视线精度提升方案,对于视线基础引擎的精度做了较大的提升。当前该方案已经取得了重大进展,通过多组实验获得了新型自研模型,在无需用户配合的条件下完成用户个性化特征提取,与原有方案对比平均视线精度获得了20%以上的提升,当前方案的迭代还在持续进行中。 该方案有望实现视线技术在量产方案中的精度突破,为智能座舱交互带来更好的用户体验。同时,视线研发团队还对眼睛瞳孔虹膜特征在成像上的差异进行深入研究,获得了一整套最适用于视线的摄像头设计准则,指导量产项目中的视线摄像头设计。 为了更好地解决量产项目中的不同车型以及各种容易引起摄像头位姿变化的外界影响,研发了一整套完善的视线无感自标定解决方案,为主机厂降低了相机标定带来的成本,目前该方案已经大规模用于量产项目中,适配各种车型的活动摄像头安装需求。与此同时自标定方案在 2024年继续进行新技术方案探索,挖掘各种不同车型座舱的共性特征,大规模降低自标定技术依赖的数据存储空间与车型适配成本。该新自标定技术方案架构将在今后的量产方案中大规模应用,为视线一体化方案带来更高的鲁棒性。该技术方案目前可以兼容支持由于内饰颜色、纹理、光照带来的差异,并可以较高精度兼容有差异的车型之间的自标定方案共用,大大提升了产品的容错率与大平台化的可能性。同时该技术方案也在公司的一体化DOMS相机产品中发挥了作用,新的自标定方案将为DOMS一体化带来可靠的技术保障,让DOMS一体化产品的落地提供有力的保证。 基于 XR 头显的眼动追踪完成了双眼双目多光源方案的研发与调优,并配合头显的需要完成了与眼动相关的外围视觉算法研发,完成了设备端部署,精度效果已经达到业内领先水准。同时对适用于多种条件下的眼动算法进行研究,提升底层引擎的检测精度,并设计融合方案实现眼动追踪精度最优化。 车载表情识别与唇语关键词识别技术也有了重大突破。为了设计出符合用户感知习惯的技术方案,满足更好的用户体验,通过大量实车数据分析,构建了一套全新基于用户无感表情标定的表情识别技术,可以满足个性化用户表情识别的需求,精准捕捉到一些具有个性化的面部行为,大大提升了用户体验。唇语关键词识别技术完成了多模态技术的研发,将语音与图像信息融合,解决了一些有歧义的唇语关键词无法用单一视觉技术方案覆盖的问题。 车载危险行为检测,大力推进基于人体行为分析的多通道信息融合方案,针对目标物存在遮挡、光照条件恶劣等边界场景和困难场景,结合人体姿态信息,在时空域感知目标物体和动作,在对危险行为做出检测的基础上实现初步预测,使得之前单帧方案无法解决的抽烟、打电话难例也能被检出,并且进一步降低了误检的风险。这种结合人体的多通道信息融合方案,也应用在包括方向盘脱手检测在内的危险驾驶行为all-in-one解决方案上,进一步优化了产品体验。面向商用车市场,由于平台差异,研发了不同算力的标准化模型,在提升产品体验的同时大大降低了模型的部署难度和资源消耗。 (5)手势识别 手势识别相关底层算法持续优化改进。手部检测/跟踪算法针对不同目标硬件平台,可选择不同运算量的基础模型,并且增加了左右手等属性的输出,加强了算法的适用性。尝试基于大模型的视频手部跟踪算法。手部姿态估计算法鉴于应用场景越来越多,将姿态估计算法分别整合为不同模型。新的方案通过模型优化,基本解决了关键点估计在大角度及自遮挡条件下效果欠佳的业界痛难点问题,并且提升了所输出的关键点置信度的可靠性。手部姿态估计模型,通过以手部左右手属性为先验输入,可以用之前一半的算力获得更好的性能和精度。持续改善包含手部关键点的上半身人体关键点检测模型,在公司内部客观测试集上,在双手交互的场景下,手部姿态估计的mAP相比单独手部的姿态估计算法提升接近10%。 移动端和PC端手势产品线在推进手势技术落地方面持续发力,多个新增的手势解决方案接近上线。针对手机AON设备的近距离凌空手势控制方案,报告期内针对实际应用场景,优化了识别率和误识率,并且放宽了对用户动作的限制,使得用户可以自然地通过上下、左右挥手,按压和画圈等动作隔空控制手机APP,实现翻页、切歌、播放/暂停、接听/拒接电话等功能。针对手机直播、社交等应用场景,推出了基于单双手静动态手势识别的手势特效解决方案,体现出手势交互的趣味性。此外,应用于windows一体机的静动态手势交互方案,通过系统级整合,将手势交互技术无缝应用于任务管理、多媒体控制、视频会议等场景。目前这些技术正在性能和功耗等方面持续调优,并且根据复杂的实际使用环境逐步提升用户体验。 车载智能座舱手势产品线,基于OMS的RGB/IR镜头的静动态手势交互技术,在报告期内重点优化动态手势,通过在时间域上考察更加完整的手部运动规律来排除相似动作的误识,并实现自适应帧率机制以适应不同设备平台的不同算法调用帧率。此外,针对不同车型在镜头布置上的区别,不断调整算法方案,提升算法效果,保证算法交付质量,为终端用户提供良好的交互体验。 鼠标手势交互技术重点提升多人场景下手势检测和跟踪的稳定性,优化用户体验。随着手部姿态估计底层算法的改进,鼠标手势在大角度姿态、手部自遮挡等较难场景下提升了动作的识别精度。 为提升舱内手势产品竞争力,新研发了基于双目输入的舱内 3D 手势识别方案,该方案利用双目视觉算法、双目手部检测/跟踪算法,双目手部3D姿态估计/3D mesh 建模算法,实现精准的手部3D位置和姿态的估计。并以此为基础,开发舱内/舱外3D空间目标指向识别、3D手势动作识别等新颖的手势应用。此外,为满足部分新增客户需求,研发了多项手势demo。其中手指指向识别demo基于单目RGB/IR摄像头,可准确区别至少8个方向上的手指指向,该技术可用于舱内多模态交互应用;石头剪刀布、切水果等流行手势游戏demo,具有高准确性、低延迟等特点,能为用户提供有趣的游戏体验。 VR/AR/手势产品线,基于双目输入的 3D 手势解决方案持续优化。其中手部检测模块重点优化了一些边界条件下的检测效果,整体性能也有了大幅度的提升。基于双目图像输入的手部关键点估计算法优化幅度较大,不论是3D关键点精度还是模型推理速度都有较大改善,尤其对于一些复杂的自遮挡情况算法也有较好的鲁棒性。另外,通过引入时序信息,关键点的帧间稳定性也有所改善。目前3D手势解决方案在准确性、稳定性和流畅性等方面稳步提升。 (6)图像质量分析 人像质量分析重点优化车载客户关注的人脸遮挡,对不同类型的遮挡(口罩、墨镜、手、水杯等)判断正确率提升0.6%~3.1%;以3D建模数据辅助改善角度判断,效果提升2.0%。 HDR场景识别技术持续优化算法方案,在保持低计算量的前提下,稳步提升预测稳定性和场景预测准确率;通用场景的图像画质分析技术,综合评分基础上增加对比度、亮度、色彩度、清晰度、噪声等维度的评分,同时优化评分的单调性,并支持加权组合以灵活适配不同应用场景。 (7)高动态范围(HDR) YUV HDR支持了旗舰处理器AEB模式下的HDR融合。该模式配合改进的HDR融合算法,实现了零延时的高动态范围合成,实现了高光还原和亮度过渡的平衡,实现了防鬼影和防噪音的平衡,实现了对霓虹灯、日落、天空、室内flicker等不同场景的智能优化,提高了整体的合成率和还原度,该模式支持对动态曝光输入的自适应调整,保持输出曝光的稳定性。在防鬼影方面,加入了基于AI的增强技术,实现了提亮和去噪,减少了运动区域的噪音,提高了运动场景的画质。针对高饱和度区域的还原,转换到HSV空间进行颜色、饱和度、亮度的动态融合,获取更鲜艳真实的颜色。针对中低端平台无法提供ISP提亮帧的情况,通过调整原有框架,改进HDR融合算法和鬼影处理策略,改善融合结果。开发暗光环境人像HDR功能,并支持闪光灯和屏幕补光模式,在暗光人像模式能更好的还原场景动态,同时保持人像的亮度和人脸的细节。根据对不同风格的要求,定制HDR融合策略。基于机器学习算法结合预览图片的统计特征改进动态EV算法,为系统推荐适配的低曝光图片的EV值,提升融合结果的动态还原效果。 基于RAW域的HDR在AI去噪、高动态图像获取方面都取得了巨大进步,针对HDR摄影的复杂环境,从白天到夜晚都准备了鬼影处理策略,在影调方面以保持真实场景亮度分布为出发点,自适应调整影调,在保持原本动态范围扩展能力的基础上使最终结果更贴近客户美学需求。基于场景识别与语义分割,实现对不同被摄环境、不同语义区域的自适应影调调节,并且保持成片的自然度。根据senser、环境信息,智能提升了最终成片的通透程度。针对运动场景实现了智能优化,提升了运动区域的画质,提高了抓拍成片率。弱光环境结合图象分割方面,根据图象区域分割的结果动态调整局部的融合策略,最终的融合结果更加自然。开发暗光环境闪光灯模式和屏幕补光模式人像HDR功能,在暗光人像模式能更好地还原场景动态,同时保持人像的亮度和人脸的细节。进一步拓展了HDR的特性和应用范围:适配了Quadbayer数据,为使用最新sensor获取更好的纹理细节提供了保障;灵活支持可变倍率,为全倍率RAW域HDR的实现打下了基础。在亮光环境下,利用不同通道的混合输入数据,在继承了HDR影调的同时实现了图像纹理细节的大幅提升。 (8)暗光图像增强 暗光图像增强技术,公司为客户的摄像头传感器做了针对性支持,确保每个摄像头的去噪以及保留细节达到最佳效果。改进对齐算法,提升运动区域和人像的配准精度,使得算法结果细节保留更多。改进多帧融合算法,结合AI增强提升细节。改进针对运动区域的去噪和融合算法,消除运动噪音和运动模糊。改进训练策略,使得落地后的性能优化版本效果更好。研发基于增强型的暗光图像增强算法,实现最终出图效果清晰度明显提升。针对中低端设备虫噪严重的特点,开发新的单帧处理算法优化图像。针对人脸部分,开发专门的算法对人脸进行去噪和增强,有效改善人脸的视觉效果。对不同的平台计算资源,比如NPU、GPU、DSP等做性能的最佳适配。同时,针对更低平台做了算法的针对性改进,维持效果和性能的最佳平衡,使得算法可以平铺到更多的客户设备。针对中低端平台将轻量化单帧图像增强AI模块和多帧模块配合,在很小的系统消耗的情况下,实现细节提升。 (9)超分辨率图像增强 超分辨率图像增强技术,通过不同方案的尝试和实践,最终方案在清晰度上有突出优势,在效果和性能上达到了一个新的高度,满足市场客户的需求。拓展更深层的超分维度,YUV域,RAW域,Quadbayer 域等,实现超分辨率的质的提升。改进运动区域检测策略和配准精度,改进融合算法,优化AI模型训练流程,提升AI增强的效果。研发基于增强型的AI超分辨率算法,实现在不同的倍率,清晰度和解析力都得到了明显提升。改进针对不同摄像头传感器的去噪效果,提升结果细节。优化代码框架,提升性能。实现在不同的放大倍率上,都展现出更好的去噪效果以及细节水平。结ZSL和PSL的RAW数据,开发25M产品,提升结果细节的同时,保留场景的动态,在多轮算法迭代和框架优化后,实现性能和功耗的大幅优化。 (10)画质修复 屏下摄像头画质修复技术实现了预期的功能,在抑制图像原有噪声的同时提升图像清晰度、对比度和色彩饱和度,图像整体视觉效果更接近普通摄像头效果。文档图像去阴影技术更新了基础模型,改善了阴影Mask检测的效果。通过对模型的优化和精简,在降低计算量的同时,也大幅降低了内存占用量,并且效果和之前基本一致,从而使得该技术在更多中低端手机上落地应用。 此外,通用场景去阴影技术的研发,也拓展了该技术的应用领域。 美食阴影去除方案,提升了对美食阴影区域的精确分割,支持对室内各种强弱和不同形状的阴影做更合理的处理,在阴影去除后恢复出真实的食物颜色和对比度,进一步提升了用户的使用体验。在数据方面,阴影分割模型仅使用少量标注数据训练预标注模型,大幅节省数据方面的人力需求,提高了数据迭代的效率。支持开发了多种合成数据方案,有效补充了不同美食和阴影数据的场景组合。目前美食阴影方案在平均得分上超越竞品2%,同时在多个困难场景主观评测上得到提升,满足用户的画质处理需求。 通过对摩尔纹产生机理的深入研究,对摩尔纹合成算法进行了改进,可以根据不同场景,生成对应的摩尔纹,提升了数据的真实性和丰富性。算法上尝试了多种新的方案,提升了去摩尔纹的效果以及泛化性能,同时精简了模型,降低了计算量。去反光技术细分各种拍摄场景,设计了有效区分反光层和背景层的代价函数,有效地改善了强反光边缘的场景使用效果并抑制误去除,相比基础版本有明显的改善,未来还需要进一步与竞品效果做比较。 图像去反光技术使用了更加简洁和高效的网络模型,通过设计多种有效的数据合成方案,降低了样本采集难度、提升了数据制备效率。此外,针对客户需求,优化了特定场景下的效果。目前算法在去反光效果、颜色保持、抑制伪影等方面相比之前版本有了较为明显的提升,相比竞品具有一定优势。接下来会根据需求继续打磨效果,进一步提升市场竞争力。 (11)视频画质增强 视频超夜技术,持续改善AI降噪模型的降噪能力和细节保持能力。针对PC端需求,合理根据多款摄像头的不同噪声特性,设计针对性的训练方案和量化策略,达到降噪质量和性能上的较好平衡。针对PC端视频会议的需求,提升视频噪声估计模块的准确率,使算法在不同环境下自适应调整处理强度,获得更好的效果。进一步提升了鬼影检测技术,改善了运动物体的去噪效果。 扩展了视频超夜技术的应用场景,将其应用到鱼眼镜头,针对这种特殊的镜头专门设计了训练数据的采集方案,在模型设计上也采用了新的技术,保证了鱼眼镜头的视频超夜技术具有良好的去噪效果。视频超分技术,持续改善AI超分模型的效果,针对视频会议应用中的文字内容,着重提升了其在多种字体下较小字号时的清晰度和可阅读性,以及提升了人像区域的清晰度。增强了模型的鲁棒性,提升了混合语言文字场景的效果。优化密集纹理场景的效果,减少这类场景出现假纹理现象的概率。视频插帧技术,针对该技术在模拟长曝光场景的应用,持续提升了其在大运动和频闪等复杂场景下的追踪能力和稳定性,强化了其对非刚性运动物体的运动表示能力,改善了运动轨迹的平滑性和动态范围。针对该技术在视频编码插帧场景的应用,提升了其在物体遮挡和复杂背景下的追踪精度,改善了插帧结果的边缘清晰度。对于两帧图像焦距、焦点、画质变化比较大的场景进行了针对性优化,重新设计了数据采集方案,使得这种差异大的图像插帧效果具有良好的平滑性。 (12)畸变消除 进一步优化了光学畸变消除性能和功耗表现,提升了视频流的处理性能;进一步提升了身体部分的修正效果并优化了任意输入区域透视畸变弱化的效果;设计实现了人脸和身体透视畸变检测及自适应矫正的方案,扩展了人像矫正的适用范围。增加了人像俯仰拍摄畸变修正方案,针对不同角度拍摄人像进行拍摄角度修正,合理利用畸变,提升了人体拍摄美观度。 (13)光学变焦 平滑切换支持更多的摄像头组合,变焦算法扩展至更多的低平台,更新镜头间公差校正算法,解决低端平台因摄像头公差较大导致的旋转跳变感,更新融合过渡算法(即fusion),功能上将fusion模式拆分,实现模块化和参数化,能够针对客户需求定制fusion效果,提高效率。 同时在更多的场景下支持 fallback 模式,新增融合过渡,使得切变效果更加自然;改进融合技术涉及到的核心算法,自适应处理不同场景下的融合切变,效果提升明显。支持客户ISZ模式输入的光学变焦,fallback模式和融合切变。支持跨镜头间的fallback/recovery,并同时加上融合过渡效果,另外首次在四摄上同时实现上述功能。针对客户需求,研发用于视频 record的多摄像头平滑切换算法,相比preview模式,切变效果更加平滑自然。 (14)多摄标定 进一步扩大AVM标定和BSD标定的适配范围,以完成更多厂商/车型的需求,设计完成全套车载摄像头标定解决方案,包括EOL、在线、售后车载多摄像头标定姿态相对/绝对标定解决方案,设计完成激光雷达标定、AR HUD标定、红外传感器标定方案。开发全新的车载实时标定方法,可以更加有效地应对大曲率弯道及大坡度上下坡场景,并对车道线短期失效场景具有一定的鲁棒性。 完善在线标定和售后标定方案,投入实车部署。售后标定针对实车部署进一步提高了性能,精度及稳定性,支持范围扩展到了远近红外镜头。针对双目电影模式OIS开发了标定功能。 (15)全景拼接 增加了对RAW数据作为输入的支持,在低光场景下对噪声抑制有一定的提升,并能够扩展全景图的动态范围;针对一些带有运动物体的场景,通过检测运动场景内的运动物体并加以保护,减少鬼影,对于大的运动物体,效果提升比较明显。针对3x摄像头下图像帧间移动距离变大,景深差异更大的特点,改进了匹配和融合算法,改善了拼接错位,减小了扭曲程度。针对超广角镜头优化了部分场景直线扭曲的问题。针对慢速移动并轻微手抖的拍摄方式,改进了选帧算法和策略,减少错位。针对仰拍和俯拍的场景,加强了匹配算法,使得这种视角变化比较大的场景,具有较高的匹配精度,同时利用GPU等硬件资源,实现了算法的加速,使得效果提升的同时保持性能不增加。进一步改善了强边缘问题,并针对不同倍率的镜头进行了优化,使得近距、广角、长焦拍摄全景都具有良好的质量。 (16)人脸美化及修复 公司在图像修复与编辑方向上长期致力于Live Photo、视线校正、人头姿态校正等人脸修复与编辑技术。 Live Photo技术调整了深度神经网络结构,针对性地改进了口腔区域模糊、不真实的问题;研发了针对特定人物的微调技术,使得算法能够生成更加逼真的结果;对网络进行性能优化,使得效果可以在PC设备上做到实时。改进的新版本可以不依赖于初始的对齐步骤,利用隐式参数传递即可完成人物驱动,提升了技术的易用性。新研发了视频口播数字人技术,基于用户提供的几分钟视频素材可以训练得到对应的数字分身,在输入不同的文字内容时可以进行相应的生动播报,支持中文、英文等多语种。新改进的版本提供了可跳过预训练的通用口型生成方式,使得用户可以便捷地对视频中人物口型进行替换,降低创作门槛,同时新版本还增加了语音克隆和视频延长的功能,进一步提升了生成视频的真实性。视线校正技术研发了全新的3D视线校正算法,创新地结合了三维人脸重建和二维图像编辑方法,相较于前代算法产品,突破了正脸姿态的限制,并且大幅度拓展了算法能支持的视线角度,在人脸角度和视线偏移角度均较大的情况下算法依然可以得到正确的矫正结果。在用户主观测试报告中,新的算法在真实感、矫正范围、算法稳定性、准确性等方面均明显优于竞品。人头姿态矫正技术结合了三维人脸重建与生成网络技术,设计了新的实现方案,相较于去年的版本,对效果的自然性、头部角度支持的角度大小、算法性能消耗等方案均进行了较大幅度的改进。在效果上,相较于前代版本,解决了可能会出现的额头部分变长、脖子区域融合拼缝、面部抖动、面部刘海导致眼镜断裂等问题,在视频上能做到连续、稳定、自然的结果。在性能上算法完成了模型的蒸馏和量化训练,以及计算过程全部部署在GPU上,实现了算法在设备端的实时运行。 在人脸美化技术上调整了磨皮方案,进一步提升了细节表现力,肤质纹理更加自然,增强了对不同画质人脸去噪的自适应性,改善人脸明暗不均现象的同时立体感也得到提升;实现预览磨皮算法,在去脏能力、通透度、立体感、肤质细腻度方面都有所提升;实现了Vulkan方案的磨皮、美白、美唇、亮眼、白牙等美颜技术和腮红、眼影、SkinGloss、美瞳等美妆技术,在基本保持性能和视觉效果优势的情况下,解决了客户不同设备平台间驱动更新时产生的兼容性问题,降低了产品的维护成本;实现了4D眼睫毛、眼影、唇彩、腮红、SkinGloss等4D美妆技术,较大程度上提升了美妆的真实性、立体感和光泽度,进一步优化了大角度、姿态下的美妆效果;实现了AI唇部、眼部遮挡物体分割算法,提升了美妆技术的实用性;实现了AI预览祛斑算法,较大提升了预览美颜的祛斑、去脏能力,对肤质纹理也有很好的保留;优化了拍照AI祛斑算法,对大侧脸提升祛斑效果的稳定性;图像祛斑方面也增加了去抬头纹、去颈纹等新功能。性能功耗方面,进行了GPU优化、模型优化和NPU硬件优化。优化了拍照AI祛斑算法,对大侧脸提升祛斑效果的稳定性。预览头发柔顺技术可以去除视频中的杂乱发丝、捋顺发束,达到美发风格化的效果。针对海外市场需求,定制实现了 Bindi 检测技术,可保护印度女性眉心 Bindi,提升美颜效果;针对客户对高清人像的需求,开发了结合 AI 的人像算法,在调整光影瑕疵、修饰皮肤质感和恢复五官结构上做到了光影更好看、肤质更细腻、五官更清晰,打造了人像审美的高级感。(未完) ![]() |