[年报]拓尔思(300229):2024年年度报告
原标题:拓尔思:2024年年度报告 公告编号:2025-008 拓尔思信息技术股份有限公司 2024年年度报告 2025年 4月 18日 2024年年度报告 第一节 重要提示、目录和释义 公司董事会、监事会及董事、监事、高级管理人员保证年度报告内容的真实、准确、完整,不存在虚假记载、误导性陈述或者重大遗漏,并承担个别和连带的法律责任。 公司负责人李渝勤、主管会计工作负责人林义及会计机构负责人(会计主管人员)林义声明:保证本年度报告中财务报告的真实、准确、完整。 所有董事均已出席了审议本报告的董事会会议。 报告期内,公司实现营业总收入 77,703.45万元,较上年同期下降 0.59%;实现归属于上市公司股东的净利润-9,414.56万元,较上年同期下降 358.17%;实现归属于上市公司股东的扣除非经常性损益的净利润-17,053.32万元,较上年同期下降 7,121.78%。截至本年度报告披露之日,公司持续经营能力不存在重大风险。有关公司本年度业绩亏损的原因及相关改善盈利能力的措施的具体内容可参见本报告第三节“管理层讨论与分析”之“二、报告期内公司从事的主要业务”、“四、主营业务分析”、“十一、公司未来发展的展望”等部分相关描述。 本年度报告中涉及未来计划或规划等前瞻性陈述的,均不构成公司对投资者的实质承诺,投资者及相关人士均应对此保持足够的风险认识,并且应当理解计划、预测与承诺之间的差异,敬请投资者注意投资风险。 公司在本报告第三节“管理层讨论与分析”中“十一、公司未来发展的展望”部分,详细描述了公司经营中可能存在的风险及应对措施,敬请投资者关注相关内容。 公司计划不派发现金红利,不送红股,不以公积金转增股本。 目录 第一节 重要提示、目录和释义 ................................................................ 3 第二节 公司简介和主要财务指标 ............................................................ 8 第三节 管理层讨论与分析 ....................................................................... 12 第四节 公司治理 ....................................................................................... 82 第五节 环境和社会责任 ......................................................................... 100 第六节 重要事项 ..................................................................................... 102 第七节 股份变动及股东情况 ................................................................. 122 第八节 优先股相关情况 ......................................................................... 130 第九节 债券相关情况 ............................................................................. 131 第十节 财务报告 ..................................................................................... 132 备查文件目录 (一)载有公司负责人、主管会计工作负责人、会计机构负责人(会计主管人员)签名并盖章的财务报表。 (二)载有会计师事务所盖章、注册会计师签名并盖章的审计报告原件。 (三)报告期内公开披露过的所有公司文件的正本及公告的原稿。 (四)其他有关资料。 释义
第二节 公司简介和主要财务指标 一、公司信息
公司聘请的会计师事务所
?适用 □不适用
□适用 ?不适用 五、主要会计数据和财务指标 公司是否需追溯调整或重述以前年度会计数据 □是 ?否
□是 ?否 扣除非经常损益前后的净利润孰低者为负值 ?是 □否
单位:元
七、境内外会计准则下会计数据差异 1、同时按照国际会计准则与按照中国会计准则披露的财务报告中净利润和净资产差异情况 □适用 ?不适用 公司报告期不存在按照国际会计准则与按照中国会计准则披露的财务报告中净利润和净资产差异情况。 2、同时按照境外会计准则与按照中国会计准则披露的财务报告中净利润和净资产差异情况 □适用 ?不适用 公司报告期不存在按照境外会计准则与按照中国会计准则披露的财务报告中净利润和净资产差异情况。 八、非经常性损益项目及金额 ?适用 □不适用 单位:元
□适用 ?不适用 公司不存在其他符合非经常性损益定义的损益项目的具体情况。 将《公开发行证券的公司信息披露解释性公告第 1号——非经常性损益》中列举的非经常性损益项目界定为经常性损益项目的情况说明 □适用 ?不适用 公司不存在将《公开发行证券的公司信息披露解释性公告第 1号——非经常性损益》中列举的非经常性损益项目界定为经常性损益的项目的情形。 第三节 管理层讨论与分析 一、报告期内公司所处行业情况 公司需遵守《深圳证券交易所上市公司自律监管指引第 3号——行业信息披露》中的“软件与信息技术服务业”的披露要求 (一)行业概述:2024年软件与信息技术服务业发展态势良好 软件与信息技术服务业是关系国民经济和社会发展全局的基础性、战略性、先导性产业,对经济社会发展具有重要的支撑和引领作用。工业和信息化部的统计数据显示,2024年我国软件和信息技术服务业运行态势良好,软件业务收入平稳增长,达到 137,276亿元,同比增长 10.0%;利润总额为 16,953亿元,同比增长 8.7%。其中人工智能、云计算、大数据等新兴领域贡献显著。人工智能产业进入深度赋能阶段,大模型技术加速分化,头部企业通过垂类场景应用形成差异化优势,行业应用渗透率提升至 42%。全球范围内,AI立法与数据安全治理成为焦点,推动行业向合规化、高效化方向演进。 (二)行业政策环境与趋势分析 1. 人工智能:立法深化与场景落地并进 近年来,我国人工智能产业在技术创新、产品创造和行业应用等方面实现快速发展,形成庞大市场规模。伴随以大模型为代表的新技术加速迭代,人工智能产业呈现出创新技术群体突破、行业应用融合发展、国际合作深度协同等新特点。2024年以来,我国人工智能产业迎来系统性政策赋能。中央及部委密集出台如《关于推动未来产业创新发展的实施意见》《国家人工智能产业综合标准化体系建设指南(2024版)》《人工智能生成合成内容标识办法》及配套标准等纲领性文件,形成“技术标准-内容治理-产业应用”三位一体的政策矩阵。国务院政府工作报告连续两年聚焦“人工智能+”战略,2024年确立行动框架,2025年深化实施路径,政策支持力度持续加码。据《2024年人工智能产业发展白皮书》数据显示,我国人工智能核心产业规模预计到 2025年将达 9,800亿元,年均复合增长率保持 20%以上,人工智能市场规模持续扩张,有望成为经济增长新引擎。2025年,以 DeepSeek、Qwen、Manus等为首的 AI大模型及应用的推出标志着我国在生成式人工智能领域已经走在世界前列。除政策支持外,阿里、字节等互联网大厂不断攀升的资本开支为我国人工智能产业发展奠定基础。 公司积极把握市场新机遇,不断加大拓天大模型和智能体平台的研发投入,致力于提升算法的自我迭代能力。本年度,拓天大模型在银行智能审计、智能风控、智能消保以及智慧公安等多个领域成功落地超过 40个项目。 2. 数据要素:市场化配置改革提速 数据已成为影响未来发展的关键战略性资源。2024年是我国数据要素市场化应用深化发展和规范治理全面推进的重要一年,《企业数据资源相关会计处理暂行规定》于 2024年 1月 1日正式施行,数据要素市场化发展迈入全面深化阶段。这一年,国家陆续出台多项政策文件,构建起数据要素发展的“四梁八柱”,如《关于加快公共数据资源开发利用的意见》《“数据要素×”三年行动计划(2024—2026年)》《关于促进企业数据资源开发利用的意见》《数据资产全过程管理试点方案》《关于促进数据产业高质量发展的指导意见》《数字中国建设 2024年工作要点清单》《促进和规范数据跨境流动规定》以及《国家数据标准体系建设指南》等,推动我国数据基础制度加快建立,数据资源开发向深度和广度持续拓展。截至2025年 3月 11日,国家登记平台与 8个已完成建设的省级平台顺利实现互联互通,已公示公共数据资源475项,覆盖 38个国民经济行业大类。平台上线同日,国家发改委、数据局发布关于建立公共数据资源授权运营价格形成机制的通知,同时出台《公共数据资源授权运营实施规范(试行)》《公共数据资源登记管理暂行办法》,进一步规范了公共数据资源授权运营。国务院政府工作报告连续三年将数据要素纳入核心议题,2024年确立“数据要素×”战略框架,2025年进一步细化实施路径。政策支持力度持续加码。 未来,数据要素将加速向“基础设施普惠化、价值释放指数化、治理规则全球化”方向演进,为数字中国建设提供核心支撑。 公司始终紧跟国家政策导向,是国内首批数据资产入表的上市企业之一。公司数据服务类 Open API 已在北京、上海、深圳、郑州、湖南、浙江、贵阳、西部等数据交易所挂牌。另外,公司积极参与国家重要行业语料库的共建工作,如中国互联网安全协会数据集、CCI 中国互联网语料集等。同时,立足全球化视野,公司持续加大对全球互联网公开数据的收集与治理投入,致力于推动公司数据要素的深入发展。 3. 数字政府:全域数字化转型深化 近年,中国政府密集出台多项数字政府政策,推动政务治理向全域数字化转型纵深发展。2024年 1月国务院发布《国务院关于进一步优化政务服务提升行政效能推动“高效办成一件事”的指导意见》,提出把“高效办成一件事”作为优化政务服务、提升行政效能的重要抓手,推动线上线下政务服务能力整体提升。 《关于深化智慧城市发展推进城市全域数字化转型的指导意见》文件明确以人工智能技术赋能城市智能调度、监管与决策,构建“一网统管”的治理框架,加快完善省、市两级政务数据平台,整合构建全国一体化政务大数据体系。由此可见,当前中国数字政府建设已呈现政务服务提质增效、城市全域数字化、数据治理体系升级的显著特征,未来将在现有基础上稳步推进,持续优化政务运行模式,为国家治理体系和治理能力现代化提供坚实支撑。 4. 信创产业:自主可控全面加速 信创产业发展当前进入党政深化和下沉、行业持续发力的关键阶段,相关扶持政策频出、国测名单持续更新完善叠加或有配套资金支持落地的背景下,板块景气度持续提升。近年来,我国信创产业扶持政策密集出台,覆盖多区域、多领域、多维度,已形成了“2+8+N”的信创产业发展模式,其中“2”是指党政和政府这两个关键领域;“8”则涉及金融、能源、电信、交通、医疗、教育、云计算和工业互联网等八个行业;“N”代表信创产品在消费市场的广泛应用,包括各种 To B市场和应用场景,这些领域是信创产业的潜在市场和增长点。目前,信创的国产替换按照“2+8+N”的节奏稳步推进。党政信创已往区县乡镇下沉,替代的核心已从电子公文系统转移到电子政务。在八大行业中,金融信创的替换节奏最快,金融 PC等终端将基本完成百分百替换,部分核心系统也在进行替换。电信、电力行业的信创替换节奏也在加快。有关文件要求 2027年底前实现所有中央企业的信息化系统安可信创替代。万亿国债重点聚焦高水平科技自立自强,有望支撑信创产业发展。外部不确定性增强,自主可控大势所趋,国产算力迎发展新机遇,信创国产替代加速。节奏上,党政信创持续引领,行业信创新政频出。预计到 2025年,信创市场规模将达1.5万亿元,成为数字经济核心增长极。 公司积极参与信创深度适配工作,推动产品与国内主流软硬件全面兼容,提升核心竞争力,为构建自主可控的信创生态贡献力量。目前,公司已完成拓天大模型与主流国产化 GPU厂商,如华为、寒武纪、摩尔线程、沐曦、天数、海光的深度适配。报告期内,公司合计中标信创项目 31个,合同总金额达 1.32亿元。 未来,公司将致力于加强与生态圈内合作伙伴的深度合作与共同创新,持续优化技术-场景-商业闭环,二、报告期内公司从事的主要业务 报告期内,公司立足"数字中国"建设浪潮,依托在数字政府、融媒体、金融科技、数字企业及公共安 全等领域的战略卡位优势,构建了以拓天大模型一体化平台+拓天链智能体平台为核心的智能底座,以领 域大模型+领域专家架构为协同进化范式。同时,公司持续拓展数据采集的深度与广度,强化数据治理的 精细化水平,深度融合行业知识图谱与海量高质量数据资产,在多个垂直领域率先落地大模型与智能体 应用。此外,公司大力推动出海战略,研发了两款出海产品,持续深化垂直领域 AI创新场景应用的拓展。 (一)拓天大模型 2024年,AI赛道持续升温,市场竞争加剧,技术与产品加速迭代。大模型发展迈入新阶段,从比拼 参数迈向深耕应用,更加重视实际成效,力求深度融入大众生活与工作,提升用户满意度与体验,切实 发挥助力作用。 1、拓天大模型及智能体应用实践成果 报告期内,拓天大模型一体化平台凭借应用易维护、能力易连接、业务易协同、数据易运营以及模型 易优化的特点,精准锚定用户需求,助力其在垂直领域与特定场景量身定制大模型智能应用,深度赋能 产业升级。2024年 4月,公司率先接入 DeepSeek作为拓天大模型的基础模型,拓天大模型具备强大的任 务适应性,运用少样本乃至零样本技术路径,高效产出优质回答与内容,搭配智能体(AI Agent)模式驱 动机制,实现了从“被动回应”的传统语言模型向“主动出击”执行工作任务的智能体的跨越转变,极大拓展 了模型的实用效能。2024年,拓天大模型及智能体在千行百业的落地进程中成绩喜人,已成功应用于 9 大垂直领域 40 多个项目,应用场景持续拓展,呈现出蓬勃兴旺的发展态势,为众多行业注入全新活力, 切实推动各领域数字化、智能化转型迈向新高度。 ? 拓天·政务大模型 拓天·政务大模型应用场景
目前,该应用已经在自然资源部、贵州、广西、深圳等政府单位以及国网能源研究院、数所大学院校等机构成功落地。 智能办公:基于生成式大模型自动构建公文框架,可自动生成符合政府机关行文规范的公文内容,并 准确引用相关政策表述、法律法规等,结合语法/语义检测模型,避免格式错误及表述偏差,提升智能公 文的文本规范性撰写与错误纠正,解放公文撰写过程中的模板化重复工作。目前,该应用已在海关成功 落地,示范效应显著。 ? 拓天·舆情大模型 拓天·舆情大模型应用场景
? 拓天·开源情报大模型 拓天·开源情报大模型应用场景
在开源情报数据处理中,拓天·开源情报大模型通过主题提取和文档聚类功能,快速识别关键主题并归类相似内容,帮助情报分析师高效提取核心信息,大幅提升处理效率;基于命名实体识别与消歧技术精准区分各类实体,避免名称歧义导致的误判;通过关系挖掘功能则从文本中提取语义关系,构建知识图谱,清晰呈现潜在联系。用户输入简洁指令(如“查询量子计算领域近半年的开源情报及进展”),模型可快速统计相关信息总量、占比及变化趋势,并精准反馈检索结果,让海量情报条理清晰。在监测方案创建中,用户只需输入需求(如“新型航天材料研发情报的关键词方案”),模型即可生成贴合需求的 关键词组合,简化流程,节省时间。报告生成方面,无论是专项报告还是例行报告,模型均可快速整合 核心情报,生成内容详实、数据精准且可视化良好的报告。 拓天·开源情报大模型显著提升了开源情报分析效率,帮助情报分析师从繁重的文档阅读工作中解放 出来,实现快速处理海量数据,及时洞察风险与机遇。通过深度挖掘信息背后的联系,为决策提供更全 面、深入的支持,增强了情报分析的深度。同时,情报分析师结合自身专业能力对模型输出进行验证, 有效保障了情报分析的质量,推动情报分析业务不断发展,更好地适应复杂多变的情报需求。 目前,该应用已在多个防务部门及国防大学、国防科技大学等机构中成功落地。 ? 拓天·媒体大模型 拓天·媒体大模型应用场景
目前,该创新应用已在人民日报、中国日报、中国环境报、中国青年报等多家权威单位成功落地。 智能审校:可对各类文字材料中的字词错误、知识错误、常识错误、政治错误、敏感词等进行实时审 校,全面提高文字质量。 目前,该应用已经在人民日报社、中国环境报社、人民出版社、解放军出版社、国家大剧院等权威机 构成功落地。 ? 拓天·公安大模型 拓天·公安大模型应用场景
强化推演分析赋能应急处置,通过智能分析与预测,警方能够精准识别潜在风险点,优化警力资源配置,缩短应急响应时间,提升整体处置效率。强化规范审查赋能执法办案,辅助法制工作人员对执法办案材料进行规范性审查,显著提高文书审查效率和公安执法规范化水平。 目前,该应用已经在多个地市公安局成功落地,助推警务工作提质增效显著。 ? 拓天·金融大模型 拓天·金融大模型应用场景
目前,该应用已在平安银行、渤海银行、农业银行等信贷风控项目中成功落地,在贷后风险管理、投后风险管理、供应商监控、宏观研究、合规内控等多个关键场景,为银行提供了专业、高效且全面的金融风控预警支持。 内容审查:在银行营销内容审查应用场景中,在实现路径上,银行首先依托拓天·金融大模型搭建起 营销素材库、合规知识库以及风险案例库,将过往积累的海量营销资料、金融法规条款、因违规受罚的 典型案例录入其中,为精准审查筑牢数据根基。在实际审查环节,大模型充分施展其智能分析专长。一 方面,针对新产品推广文案、各类营销活动宣传资料,从保护消费者权益、遵循金融监管规定等多维度 构建审查指标体系,对文本进行深度剖析。例如,能快速识别出夸大收益、隐瞒风险、不当诱导等违规 表述,精准揪出潜在风险点。另一方面,利用自然语言处理技术与深度学习算法,对营销话术的情感倾 向、逻辑连贯性进行评估,确保信息传达准确清晰,避免消费者误解。举例而言,当一款理财产品即将 推向市场,其宣传文案提交审查时,拓天·金融大模型迅速扫描文本,不仅标记出“年化收益高达 20%,稳 赚不赔”这类夸大收益误导消费者的语句,还能依据法规库给出修改建议,帮助营销团队优化文案。 目前,该应用已在兴业银行、中国银联、百年人寿等内容审查项目中成功实践,助力银行营销合规高 效开展,切实维护金融市场秩序与消费者权益。 智能消费者保护:在银行智能消费者保护场景下,拓天·金融大模型在实施落地时,依循风险归因→靶向整改→机制沉淀→投诉压降的科学路径,助力消费者投诉处理模式从“被动扑救”向“主动防控”转变。 拓天大模型深度赋能投诉处理各关键环节:投诉受理时,借助语音识别精准录入投诉内容,依托自然语言处理构建智能分类模型,快速匹配对应标签,实现高效分流;投诉处理阶段,自动生成解决方案与贴心回复话术,同时推荐相似案例以供参考;定责结案环节,凭借对海量相似历史投诉案例的深度学习,给出客观定责建议;归因分析环节尤为关键,它将繁杂的投诉内容转化为结构化、标准化数据,支持交 互分析并智能生成优化策略,深挖投诉根源,精准定位问题症结,比如精准识别是产品设计缺陷、服务 流程漏洞,还是沟通话术不当引发投诉。 目前,该创新应用已在招商银行、民生银行、浙商银行、国投信托、浦发银行等多家金融机构的消保 项目中成功落地。 产业投研和对公营销:在银行产业投研场景中,一方面,在整合海量宏观经济数据、产业动态资讯以 及企业财报信息基础上,拓天·金融大模型可助力银行深度洞察行业趋势,通过智能分析精准勾勒各产业 发展脉络,为投资决策提供前瞻性依据。例如在新兴科技产业投研上,能提前预判潜在增长点与风险点, 使银行投资团队精准布局,提升投资准确率。另一方面,在风险评估环节,大模型凭借强大的数据分析 能力,对拟投资企业进行全方位“体检”,涵盖财务状况、市场竞争力、信用评级等多维度,有效识别潜在 风险企业。于对公营销场景而言,在客户画像方面,在整合企业工商、税务、交易流水等多元数据基础 上,拓天·金融大模型可快速勾勒出精准且立体的客户形象,帮助营销人员深入了解客户需求,提升营销 精准度。 目前,该应用已在公司产业大脑平台成功运行一年多,服务了数百个订阅用户。同时,该应用也在中 国银行浙江分行成功落地,大幅提升了银行对公业务的市场竞争力。 ? 拓天·智库大模型 拓天·智库大模型应用场景
? 拓天·专利大模型 拓天·专利大模型应用场景
首先,公司基于全生命周期的数据治理体系,持续优化与沉淀了海量高质量训练数据,重点围绕预训练数据、强化训练数据、SFT训练数据的优化开展模型精度提升训练:
不同规模模型开源中文榜单
公司从多方面技术路径提升大模型推理速度: 模型层面,通过量化压缩将高精度的浮点数参数转换为低精度格式,在几乎不损失模型精度的情况下, 大幅减少内存占用和计算量,加快推理速度。通过结构剪枝去除模型中对推理结果影响较小的连接和神 经元,简化模型结构,降低计算复杂度。 硬件层面,借助GPU、TPU等专用硬件快速处理大量数据以及深度学习效率,显著提升推理效能。同 时,优化硬件与软件的协同,使模型代码能高效地在硬件上运行。 算法层面,采用知识蒸馏,让小模型学习大模型的知识,小模型推理速度快,且精度损失不大。还可 通过优化推理算法,如采用更高效的矩阵运算方法,减少不必要的计算步骤,进一步提高推理速度。通 过这些技术路径的综合运用,能有效提升大模型的推理速度。 如上图所示,以拓天 14B模型为例,在研发过程中,研发团队选取了性能优秀的 Qwen2.5作为基础模型,通过精心设计的微调训练方案对其进行深度优化。在一系列严格且专业的评测环节中,将拓天 14B模型与 Qwen2.5的官方原生模型展开横向对比分析。评测范畴涵盖自然语言处理的多个关键领域,包括但不限于文本生成的流畅性与逻辑性、知识问答的准确性、语义理解的精准度等。结果显示,经过精细微调后的拓天 14B模型在各项专业评测指标上均表现优异,相较于开源的 Qwen2.5大模型展现出了多方面的优势,无论是应对复杂的任务理解还是垂直业务领域的知识理解与推理,拓天 14B模型以更小的模型更快的速度达到大模型的精度。 ? 增加高效微调 公司运用基于 Merge的减小微调灾难遗忘方案,开启高效微调模式。该方案具有显著优势,在微调过程中,多个子业务数据能够独立开展训练,无需引入其他开源数据或历史微调数据。这一特性极大地精简了训练数据量,使得训练时间大幅缩减,显著提升了训练效率。更为关键的是,即便业务数据微调出现轻度过拟合的情况,也无需担忧会对其他任务的表现产生破坏。此方案能让模型在多任务处理中保持较高精度,为行业数据的精准微调提供了坚实保障。通过这种方式,公司能够更加游刃有余地微调行业数据,最终更为快速、有效地解决大模型灾难性遗忘问题,为业务的高效开展和模型的稳定应用奠定了良好基础。
拓天大模型已全面完成与华为、寒武纪、摩尔线程、沐曦、天数、海光等主流国产 GPU的深度适配。 在与华为的合作中,基于华为昇腾 910B3,拓天大模型团队依托华为 MindIE源码,通过精细的研发投入,针对性地增加数据指令和能力指令适配。该成果已在多个公共安全类项目中成功落地,有效提升了当地公共安全领域的智能化水平,助力安防工作提质增效。 在中国环境报项目中,拓天大模型完成了在寒武纪 MLU370与天数平台上部署运行,完成了训练与推理全方位的适配验证工作,确保模型从基础构建到实际应用的连贯性与稳定性,为后续业务拓展及复杂场景应用筑牢根基。 拓天大模型在摩尔线程上的适配已通过中国信通院的测试。 携手沐曦 C500,拓天大模型聚焦在线政务智能问答服务,精准对接贵州、广西、深圳等地区政府部门需求,为政务服务数字化转型赋能。目前,该服务已稳定运行,切实帮助各地政府提升服务效率,优化群众办事体验。 基于海光 K100,拓天大模型顺利完成最新 14B、72B模型的适配与验证,具备成熟的落地生产条件,可随时响应市场需求,投入商业化运营,进一步拓展公司业务边界。 凭借在国产 GPU适配领域的成果,拓天大模型在纯国产化架构下能够高效稳定运行,切实为信创体系强化智能支撑,助力公司在信创产业赛道稳健前行。 ? 增强基础能力 公司融合开源和行业数据构建高质量训练数据,从多个方面对大模型进行了基础能力的整体优化与提升: 面向大模型的文档语义解析:版面分析在 PDF文档的解析中至关重要,因为大多数的论文为两栏结构,而且存在图片和表格等多种混合的情况。版面识别出图片和表格后,需要调用多模态能力来进一步识别与处理。对此,拓天大模型的研发团队基于 SOTA模型进行了针对性训练和调优,覆盖范围支持WORD、PDF常规文档、论文、报表、报告等,细粒度类别涵盖 9类,包括页眉、页脚、标题、段落、表格、图片、图表等。 最新版拓天大模型在通用版面专业评测中显示精度高、效果好。
重排模型优化:重排是 RAG场景里面重要的信息过滤技术,排除掉不相关的上下文信息。研发团队在 bge-reranker-base的基础上,重新设计了损失函数,进行模型效果的优化。在自建的业务数据集上进行微调并测试,准确率指标得到明显提升,如下表:
? 自主规划:先将与用户问题最相关的工具进行前置检索和召回,然后模型对用户输入的当前问题、上下文和模型能使用的工具进行分析,模型判断出解决当前问题需要使用哪些工具,从而规划出可由现有工具完成的计划链路,或不使用工具。 ? 工具验证:判断模型规划出的工具链路是否正确,检测需要调用的工具所需参数是否已经提供, 如果未提供,需要向用户“反问”获取信息;如果用户提供了完整的参数信息,或者当反问客户之 后拿到了缺失的参数信息,就完成了执行计划链路的准备。 ? 工具调用:系统根据模型的规划来进行行动,来执行各个工具。行动可以是调用外部工具、查 询数据库或者直接生成答案。 ? 答案生成:模型根据输入的问题和工具调用的返回结果进行分析,给出对问题的回答。 多模态技术改进 通过多模态大模型以及文档解析等技术,实现复杂文献的版面理解能力,图像、表格、公式、正文 的问答。 报告期内,拓天链智能体平台已成功应用于中国日报、浦发银行、国家电网能源研究院、北京科委某大模型课题、南京图书馆以及多个防务类项目共 10多个应用场景。该平台帮助用户减少了软件开发成本,提高了软件开发与运营效率,为企业和其开发者提供了强大的 AI项目开发支持。 (二)数据服务 报告期内,公司为解决各数据产品部门多源异构数据采集分散、治理割裂、标准缺失、应用滞后四大痛点,研发了拓思数据平台。该平台定位为拓尔思集团的企业级数据资产智能中枢,构建“采-存-治-用”全链路赋能体系,通过基础治理、智能增强、应用赋能三级架构支撑前台业务场景数星、网察、数家等数据服务产品实时数据调用,实现场景化服务支撑,推动数据要素向业务价值的深度转化,进一步释放数据资产潜能。 1、数据资源应用场景
数据来源 公司的原始数据来源广泛且合规,主要来源于公开的互联网平台,包括但不限于数字报刊、新闻网站、 政府及权威机构官网、移动客户端、社交媒体、第三方平台、短视频平台、元搜索、维基百科等。 公司通过自主研发的海蜘智能化采集平台,对上述互联网公开信息进行合规采集,确保数据的来源清晰、可追溯。 数据类型 公司采集数据的类型包括网页文本、图片、音视频、附件以及卫星遥感等其他特种数据采集。 数据规模 截至 2024年 12月 31日,公司累计采集的数据总量超 5,000亿条。公司每日新增数据采集量平均约为5亿条以上,每年新增文本与图片超 1,500亿条,短视频约 400亿个,每年经处理后的文字与索引存储300TB以上。数据规模持续稳定增长,为业务发展提供了坚实的数据基础。 数据权属 公司高度重视数据权属问题,严格遵守相关法律法规和平台规定。公司采集的数据均为公开信息,且在采集过程中充分尊重数据所有者的权益,确保数据的使用符合法律法规和道德规范。公司对采集的数据拥有合法的使用权,所有采集的公开数据都经过公司自研的人工智能技术平台进行自动分类、自动查重、实体抽取、多维度知识标注、质量校核等加工处理,实现了互联网非结构化数据到结构化数据的智能转化。在物理上按照一定逻辑归集后达到一定的数据规模,形成可重用、可应用、可获取的数据集合,从而达到数据资源化的效果,并在业务范围内合理使用数据资源,不涉及任何侵犯第三方权益的行为。 数据质量 公司在数据质量管理方面遵循 DCMM数据管理能力成熟度稳健级(3级)认证标准,从多维度进行数据质量的保障。 ? 准确性 公司采集的互联网资讯数据均来源于官方媒体及政府机构在各个平台上发布的真实可靠的信息。这些权威机构均实行严格的“三审三校”信息发布制度,确保信源内容的准确性和可信度。所有原始采集信源均经过人工核查、梳理和标注,以保证信源的真实性。原始数据采集后,其清洗策略通过人工配置的解析脚本和多维度知识库(包括垃圾信息、广告信息及有害信息等知识库)进行标准化处理,确保数据的精准解析和清晰呈现。这一过程严格遵循原始信源的格式,避免在采集和加工过程中改变数据的原始信息量和完整性。 (未完) ![]() |