海天瑞声(688787)经营分析 - 股票F10资料查询_爱股网

经营分析

☆经营分析☆ ◇688787 海天瑞声 更新日期:2025-11-07◇
★本栏包括 【1.主营业务】【2.主营构成分析】【3.经营投资】【4.参股控股企业经营状况】
【1.主营业务】
    AI训练数据的研发设计、生产及销售业务。

【2.主营构成分析】
【2025年中期概况】
┌────────────┬─────┬─────┬───┬──────┐
|项目名称                |营业收入( |营业利润( |毛利率|占主营业务收|
|                        |万元)     |万元)     |(%)   |入比例(%)   |
├────────────┼─────┼─────┼───┼──────┤
|软件和信息技术服务      |  15669.59|   7861.86| 50.17|      100.00|
├────────────┼─────┼─────┼───┼──────┤
|智能语音                |   6915.28|   5296.82| 76.60|       44.13|
|计算机视觉              |   6271.64|   1208.08| 19.26|       40.02|
|自然语言                |   2177.67|   1245.38| 57.19|       13.90|
|应用服务                |    305.01|    111.58| 36.58|        1.95|
├────────────┼─────┼─────┼───┼──────┤
|境内                    |   8318.45|   3927.99| 47.22|       53.09|
|境外                    |   7351.14|   3933.86| 53.51|       46.91|
└────────────┴─────┴─────┴───┴──────┘
【2024年年度概况】
┌────────────┬─────┬─────┬───┬──────┐
|项目名称                |营业收入( |营业利润( |毛利率|占主营业务收|
|                        |万元)     |万元)     |(%)   |入比例(%)   |
├────────────┼─────┼─────┼───┼──────┤
|软件和信息技术服务业    |  23708.30|  15756.65| 66.46|      100.00|
├────────────┼─────┼─────┼───┼──────┤
|智能语音                |  16459.85|  12530.70| 76.13|       69.43|
|计算机视觉              |   4654.63|   1761.45| 37.84|       19.63|
|自然语言                |   2408.39|   1430.57| 59.40|       10.16|
|训练数据相关的应用服务  |    185.43|     33.93| 18.30|        0.78|
├────────────┼─────┼─────┼───┼──────┤
|境内                    |  12343.61|   6703.03| 54.30|       52.06|
|境外                    |  11364.69|   9053.61| 79.66|       47.94|
├────────────┼─────┼─────┼───┼──────┤
|直销                    |  23708.30|  15756.65| 66.46|      100.00|
└────────────┴─────┴─────┴───┴──────┘
【2024年中期概况】
┌────────────┬─────┬─────┬───┬──────┐
|项目名称                |营业收入( |营业利润( |毛利率|占主营业务收|
|                        |万元)     |万元)     |(%)   |入比例(%)   |
├────────────┼─────┼─────┼───┼──────┤
|软件和信息技术服务      |   9242.64|   6501.01| 70.34|      100.00|
├────────────┼─────┼─────┼───┼──────┤
|智能语音                |   6486.76|   5083.43| 78.37|       70.18|
|计算机视觉              |   1670.54|    699.79| 41.89|       18.07|
|自然语言                |   1084.43|    717.74| 66.19|       11.73|
|应用服务                |      0.91|      0.05|  5.25|        0.01|
├────────────┼─────┼─────┼───┼──────┤
|境内                    |   4873.11|   2794.61| 57.35|       52.72|
|境外                    |   4369.53|   3706.40| 84.82|       47.28|
└────────────┴─────┴─────┴───┴──────┘
【2023年年度概况】
┌────────────┬─────┬─────┬───┬──────┐
|项目名称                |营业收入( |营业利润( |毛利率|占主营业务收|
|                        |万元)     |万元)     |(%)   |入比例(%)   |
├────────────┼─────┼─────┼───┼──────┤
|软件和信息技术服务业    |  17001.10|   9521.96| 56.01|      100.00|
├────────────┼─────┼─────┼───┼──────┤
|智能语音                |  10275.25|   6515.03| 63.41|       60.44|
|计算机视觉              |   4682.79|   2013.48| 43.00|       27.54|
|自然语言                |   1517.06|    875.89| 57.74|        8.92|
|训练数据相关的应用服务  |    525.99|    117.55| 22.35|        3.09|
├────────────┼─────┼─────┼───┼──────┤
|境内                    |  11004.94|   4896.21| 44.49|       64.73|
|境外                    |   5996.15|   4625.75| 77.15|       35.27|
├────────────┼─────┼─────┼───┼──────┤
|直销                    |  17001.10|   9521.96| 56.01|      100.00|
└────────────┴─────┴─────┴───┴──────┘


【3.经营投资】
     【2025-06-30】
一、报告期内公司所属行业及主营业务情况说明:
(一)所属行业情况
1.行业的发展阶段、基本特点、主要技术门槛
1.1行业的发展阶段、基本特点
(1)政策、技术、应用协同共振,全球AI产业迈入高速发展新阶段
当前,全球人工智能产业正迎来历史性发展拐点,政策、技术与应用的三重共振推
动行业进入高速增长通道。中、美、欧三大经济体持续加码AI布局:中国通过《新
一代人工智能发展规划》和《"十四五"数字经济发展规划》等构建了涵盖技术研发
、资源建设和标准制定的全链条政策体系;美国则依托《人工智能行政令》和星际
之门计划(Stargate)等,持续巩固其在人工智能基础设施领域的领先优势;欧盟
以《人工智能大陆行动计划》为纲领,配套《数字欧洲计划(2025-2027年工作方
案》专项资金,重点培育AI与高性能计算融合创新。技术层面,人工智能也正在经
历革命性突破,DeepSeek R1等开源模型通过性能提升与成本优化的双重突破,显
著降低了技术应用门槛;多模态大模型(如Genie3、GPT-5)也在不断拓展AI能力
边界,实现全模态互动能力。这种技术平权运动正在加速AI向千行百业渗透,大模
型已逐步开始向金融、医疗、制造等核心领域进行新一轮的赋能,智能风控、AI辅
助诊断、智能制造等应用场景不断丰富,推动各行业效率提升和模式创新。全球AI
产业也将在上述政策引导、技术迭代与商业落地的正向循环下,迎来前所未有的发
展机遇,加速向规模化、价值化阶段迈进。
根据国际数据公司(IDC)的数据,2024年全球人工智能(AI)IT总投资规模为3,158
亿美元,预计在2028年增至8,159亿美元,年复合增长率(CAGR)为32.9%。
中国作为全球科技大国,也深度受益AI技术发展。根据艾瑞咨询的数据,2024至20
29年中国AI产业将保持32.1%的年均复合增长率,在2029年突破1万亿的市场规模。
(2)训练数据作为AI发展和演进“燃料”的作用更加凸显,并逐渐成为大模型竞
赛中的重要决定性要素
在AI产业链中,算法、算力和数据共同构成技术发展的三大核心要素。过去十多年
,人工智能产业以算法为核心,通过深度学习算法的不断创新,推动人工智能产业
的快速发展。但未来,当更多先进算法趋于开源,算法的差异化壁垒逐渐消除;此
外,以DeepSeek为代表的算法架构创新和工程优化,带来了训练以及推理成本的大
幅下降,这也意味着算力将不再是制约AI发展的核心因素。在此背景下,训练数据
的重要性被进一步放大,成为未来AI发展的关键驱动因素。数据的质量、规模和精
准性将直接决定模型能力的上限,高质量的训练数据不仅能显著提升模型的推断可
靠性,还能有效减少幻觉和错误信息的产生,成为模型落地效果的关键。因此,高
质量数据需求将呈现快速增长趋势。
根据Cognilytica数据统计显示,预计2027年全球AI训练数据市场规模将增长到220
亿美元,2021-2027年复合增长率达32%。
中国作为全球人工智能产业增速最快的国家之一,相关数据需求也在快速增长。根
据艾瑞咨询的数据,2024年中国人工智能基础数据服务市场规模为58亿元,2028年
规模将达到170亿元,年复合增长率为30.84%。
(3)数据要素价值加快释放,数据产业已成为数字经济发展新增长点
在数字浪潮席卷全球的当下,数据产业已成为经济发展的新引擎。在以习近平同志
为核心的党中央坚强领导下,我国牢牢把握数字化、网络化、智能化发展机遇,全
面深化数据要素市场化配置改革。坚持推进数据要素市场化配置改革“一条主线”
,统筹数字中国、数字经济、数字社会“三个建设”的工作思路,推动数据工作更
好服务高质量发展。同时,探索完善数据基础制度体系,加快推进数据基础设施建
设,提升数据资源开发和利用水平。2024年国家数据局联合多部门制定《关于促进
数据产业高质量发展的指导意见》、《关于加快公共数据资源开发利用的意见》、
《关于促进数据标注产业高质量发展的实施意见》等21项政策,2025年还将有10余
项政策发布,进一步完善数据基础制度,充分体现国家高度重视数据产业高质量发
展。《关于促进数据产业高质量发展的指导意见》指明了数据技术和产业重点发展
方向;《关于促进数据标注产业高质量发展的实施意见》明确提出培育壮大数据标
注产业对于提升数据供给质量,推动人工智能创新发展具有重要支撑作用。
各地开展流通利用基础设施先行先试,不断夯实数据开发利用的设施底座,布局数
据基础设施。以场景牵引带动数据要素价值充分释放,深入实施“数据要素×”行
动,开展公共数据“跑起来”示范场景建设,全面深入推动数据开发利用。培育数
据汇聚共享、开发利用的数据企业,加快构建全国一体化数据市常成立全国数据标
准化技术委员会,不断推出数据标准、规范。持续推进高质量数据集建设,支撑人
工智能创新发展。据国家数据局统计,我国已经建设高质量数据集超过3.5万个,
总体量超过了400PB。人工智能模型的训练也推动了数据交易需求的攀升,截至202
5年6月底,各地高质量数据集累计交易额近40亿元,数据交易机构挂牌的高质量数
据集总规模达到了246PB。
全国各地数据要素市场化配置改革也在加速推进。例如北京市在探索和实践数据基
础制度先行示范区、人工智能数据训练基地的基础上,发布《北京市关于建设数据
要素综合试验区的实施意见》,开展数据要素综合试验区建设,打造“高端数据标
注基地”。上海印发《关于人工智能“模塑申城”的实施方案》,瞄准技术前沿,
坚持应用牵引,通过推进人工智能“模塑申城”,建设智能算力集群、语料供给体
系、虚实融合实训尝行业基座大模型等基础底座,打造智能终端、科学智能、在线
新经济、自动驾驶、具身智能等关键领域生产力工具,聚焦金融、制造、教育、医
疗、文旅、城市治理等重点行业加速应用赋能。
成都市《成都市进一步促进人工智能产业高质量发展的若干政策措施实施细则》,
提出支持高端要素聚集。实施公共数据资源赋能人工智能产业发展行动。依托成都
市公共数据开放平台、成都市公共数据运营服务平台,依法、合规、有序向人工智
能企业提供公共数据开放服务和授权开发利用。支持企业自主或联合行业协会、科
研机构等建设高质量人工智能数据集。长沙市政府印发《长沙市关于推进国家数据
标注基地建设的若干政策(试行)》,从聚焦加快培育标注产业、支持技术创新攻
关、加强专业人才培育、促进数据服务赋能等四大方面推出了14条产业政策,加大
扶持力度。湖北武汉发布《武汉市促进数据产业发展若干政策措施(征求意见稿)
》,提出聚焦数据产业发展的关键核心技术,组织实施市级科技重大专项,根据项
目投入、实施难度、实施成效等情况,给予单个项目最高2,000万元资金支持。呼
和浩特市政府发布《关于促进绿色算力及人工智能产业高质量发展的若干意见》,
每年统筹安排1.28亿元专项资金,推出5大方面、17项有力措施,全力推动产业升
级。
总体来看,我国数据产业发展势头良好、前景广阔。随着“人工智能+”和“数据
要素×”等国家战略行动计划的实施,全国各地均在加速推进数据要素市场化配置
改革,未来将以高质量数据集建设,夯实人工智能数据基石,推动数字经济高质量
发展为目标,围绕数据的汇聚、治理、标注、运营、评测、开发利用以及流通交易
全流程,将产生包括数据汇聚、数据治理、数据标注、数据运营、数据评测、数据
应用、数据流通、可信数据空间、数据标注基地运营等在内的新业态、新模式,将
成为我国数字经济发展的新增长极。
(4)训练数据领域的未来发展趋势
随着DeepSeek、GPT-4o等成为全球范围内的现象级应用,以及以手机、具身智能为
代表的AI终端的快速推出,人工智能迎来了新的发展机遇,其背后的大模型技术也
正在带来相关数据需求的变化和增长。
a.多模态大模型正成为人工智能发展的新趋势,多模态数据需求显著上升当前,大
模型正经历从单模态到多模态的范式转变。多模态技术的本质在于跨模态信息融合
,即通过协同处理文本、图像、音频、视频等不同形式的数据,使AI具备更接近人
类的全维度认知能力。这种演进不仅显著提升了模型在跨模态任务中的鲁棒性,更
解锁了诸如视觉问答、跨模态生成、智能语音交互等复杂场景的应用潜力。
以视觉问答为例,系统需同时解析图像中的视觉元素和文本问题的语义信息,并通
过模态对齐与知识推理生成准确回答。这一过程的实现,依赖于海量高质量的图文
对数据。数据服务商需构建覆盖多样化场景的问答对,通过模拟真实世界的视觉推
理逻辑,训练AI建立视觉-语言联合表征能力。而在语音合成领域,要实现富有表
现力的拟人化发声,仅有时序对齐的文本-语音数据远远不够,还需引入情感标签
、语调标记、韵律特征等细粒度标注,让AI精确捕捉人类语言中的情感起伏和表达
风格。
实践证明,数据质量与多样性是多模态AI发展的决定性因素:一方面,优质数据定
义了模型的能力上限;另一方面,数据分布的广度直接关系到技术落地的普适性。
未来,随着多模态数据生态的持续完善,AI的感知与认知能力有望实现新的跨越。
b.大模型发展正在从"规模驱动"向"推理驱动"转型,高质量思维链(CoT)数据成
为提升大模型复杂推理能力的关键突破口随着DeepSeek R1的推出,思维链技术(C
hain of Thought,CoT)迅速成为AI领域的研究热点。这项技术通过引导模型模拟
人类逐步推理的过程,显著提升了其在逻辑推理、数学计算及复杂问答等任务中的
表现。
过往几年,大语言模型(LLM)的发展主要遵循Scaling Law(规模定律),即通过
扩大模型参数量和训练数据规模来提升性能。然而,随着知识积累的边际效益逐渐
降低,仅单纯依赖规模的增长已难以实现质的飞跃。于是,让AI像人类一样进行深
度、有序的“慢思考”,成为突破现有认知能力瓶颈的关键方向。以数学问题为例
,传统LLM往往直接输出最终答案,而省略中间推理过程,导致错误率居高不下。
相比之下,具备CoT能力的模型会分步骤解析问题,先理解题意,再梳理已知条件
,逐步推导计算,并最终验证结果的合理性。这种显式推理机制不仅大幅提高了模
型的准确性,还使其决策过程更加透明,便于开发者理解和优化。
然而,思维链能力高度依赖高质量的CoT数据——即包含详细推理步骤的问答对。
这类数据由于专业性强、标注难度高,目前仍属于稀缺资源。具体而言,优质的Co
T数据需要领域专家进行人工构建,不仅要确保问题本身的复杂性,还需对解题过
程中的每个逻辑进行严格验证,这种双重门槛使得数据生产周期往往长达普通标注
任务的数倍。当前即便是最前沿的合成数据技术,在生成具有严密因果关系的多步
推理时,仍会有相当概率出现逻辑断层,这也使得高阶人工标注目前仍是不可替代
的重要数据来源。
c.从通用到垂直,高质量行业数据需求显著提升以DeepSeek为代表的开源大模型,
以其高性能、低成本,以及允许全球用户无限制商用等特点,进一步加速了AI应用
的普及,激发了应用层的创新活力,使AI逐渐从通用大模型向更广泛的应用场景和
行业领域拓展,AI不再局限于作为回答通用问题的智能助手,而是能够针对特定行
业/场景提供解决方案,或者协助执行各类复杂任务的超级助理(AI Agent)。例
如,在医疗领域,AI可以作为影像科医生辅助诊断;在法律领域,AI可以担任法律
顾问提供专业咨询;同时,AI Agent也能够独立完成点外卖、制定行程、预订机票
等日常任务。
AI不仅在传统行业与生活场景中展现出独特价值,在智能终端领域,同样掀起了革
新的浪潮。例如,AI在智能手机上的应用,可以帮助用户通过文字快速创作专业级
摄影大片;当海量照片让整理相册成为难题时,可以快速通过文字描述定位对应图
像,实现即时快速检索。在交互层面,AI赋能的语音助手也有质的飞跃。如今的语
音助手不再是简单的指令执行者,它们能理解各种不同语种、不同场景下,复杂的
语义和情感,并用不同的音色情感与用户进行交互。
与以往通用数据处理需求不同,垂向领域的数据处理更加注重专业性。例如,传统
的自然语言处理只包括基本的文本处理工作,例如,分词、词性、正则化等标注需
求,这些任务无需标注人员具有特定的行业知识;相对地,开发专门领域,例如医
疗大模型,则要求标注人员不仅具备扎实的医疗专业知识,还要能够熟练使用医疗
术语进行专业场景下的表达,使医疗模型能够理解和生成专业的医疗内容。这种专
业化的需求也对数据服务商提出了更高的要求,数据服务商不仅要对行业有深刻的
理解,以设计出符合行业需求的数据解决方案,还需要具备更丰富的专家库储备,
以提供高质量的数据标注服务以及相关专业咨询服务。
d.具身智能浪潮来袭,数据供给瓶颈亟待突破具身智能作为通向通用人工智能(AG
I)的关键路径与终极载体,正引领着AI发展的下一波浪潮。与传统大模型不同,
具身智能的核心在于构建能够与物理世界深度交互的智能体。这不仅需要突破性的
多模态感知技术(包括视觉、听觉等),更重要的是要具备基于环境感知的自主决
策与执行能力。实现这一目标的关键在于海量的物理世界交互数据,目前行业主要
依赖四种数据来源,互联网开源数据集(整合现有的公开机器人数据)、虚拟合成
(利用仿真环境生成训练数据)、动作捕捉(记录人类在特定环境中的行为模式)
、以及机器人遥操(通过人工远程操控获取真实场景下的操作数据)等。其中,虚
拟合成技术虽解决了初期数据短缺问题,但由于"仿真差距"的存在,其数据质量往
往难以满足高精度训练需求。而开源数据集则面临着数据规模有限(通常仅百万级
)、采集条件单一等挑战,无法支撑复杂场景下(需要千万级数据)的模型训练需
求。当前,在具身智能蓬勃发展的大背景下,高质量的数据供给短缺问题愈发凸显
,具身智能的训练数据市场呈现出巨大的供需缺口,需求旺盛且潜力巨大。
e.国家法律法规密集落地,对数据安全及合规提出更高要求近年来,数字经济规模
快速扩张,数据作为数字经济时代核心生产要素,重要性更加凸显,但数据不同于
传统生产要素,其中可能涉及个人隐私以及国家安全的重要信息,因此,为更好保
障数字经济长期稳定的可持续发展,建设规范、安全、合规、高质量的数据安全体
系已成为迫切需求。近年,国家陆续出台包括《数据安全法》、《个人信息保护法
》、《网络数据安全管理条例》等主流法律法规,为解决数据安全问题、净化行业
快速发展中的不良乱象提供了切实可行的法律依据。
未来,随着AI技术不断革新,应用行业以及场景不断增加,各行业、各领域数据安
全规范逐渐落地将成为趋势,对于以数据生产为主营业务的数据服务企业,数据安
全及合规能力将成为数据服务能力的核心评价维度,成熟的安全合规管理体系将成
为重要评价标准,能持续跟踪法律环境变化,积极响应监管政策,牢牢把握发展与
安全并重的原则的企业将具有更强的市场竞争力。
1.2行业的主要技术门槛随着AI技术不断演进、产业应用不断丰富,训练数据的市
场需求呈现体量、难度、复杂性、合规性持续上升的趋势,数据服务商须同时具备
对人工智能核心算法的理解能力、前瞻性的专业数据集设计能力、丰富的语言覆盖
能力及场景采集能力、算法辅助数据生产能力、以及数据合规管理能力,这使得行
业的技术门槛持续提升,具体体现为:
(1)在训练数据研发、生产全流程中的算法全面介入
随着AI技术应用落地的规模化效应凸显,客户对于数据规模和处理效率的要求不断
提升,数据服务商须在研发、生产流程中全面引入算法以实现高效、合理的人机协
作模式,进而实现降本增效的目标。一般而言,在训练数据研发、生产全流程中融
入算法技术,可用于训练数据集的设计及训练数据生产的各个环节,例如调度不同
类型的标注人员应对不同领域的任务、形成算法自动处理能力以帮助标注人员提升
效率、降低对人员的依赖(既有人员数量的降低、也有对人员标注能力要求的降低
),并构建训练数据设计、加工相关的核心技术;也可用于检查训练数据集对算法
模型的训练效果,进而保障训练数据集质量。
(2)平台工具链功能及适配性要求持续提升
当前,客户侧的数据采集、标注需求范围在逐渐拓宽,数据采集与标注需满足的AI
应用场景比以往明显更加广泛、复杂,这就对数据服务商的平台工具能力提出了更
高要求,平台上处理大规模的数据、这些处理过的数据的多样性和复杂程度如何、
算法引擎投票机制如何建立、置信区间如何设置、算法在平台中如何应用、数据流
转的工程化程度如何等等这些因素都决定了平台的适配性和能力如何,并最终决定
了数据处理的质量、效率、成本。
(3)语音语言学基础研究方面须有深厚积累
伴随语音技术进一步发展落地、并向各行各业和更多垂直场景不断渗透,同时受到
中国企业出海需求、国外企业区域拓展需求两方面的支撑,客户在多语种、多音色
、音素集、发音规则、发音词典等方面的要求在不断抬升,这意味着只有那些在语
音语言学基础研究方面投入更多、拥有深厚积累的数据服务商才能满足客户在这方
面的多元化需求。
因此,市场上仅有极少数企业通过长期自主研发的方式能够达到上述核心技术门槛
,成为有能力向不同客户群体提供综合、高效、合规的数据产品及服务的供应商。
2.公司所处的行业地位分析及其变化情况
作为行业的头部阵营企业,海天瑞声在经营情况、技术实力、以及以数据安全为代
表的其他综合能力方面都展示出明显优势,并具有较强国际竞争力。近年来公司紧
跟AI技术发展趋势,尤其关注在客户资源、技术实力、产品/服务等方面的竞争优
势,树立国内领先基础数据服务商的品牌形象,以巩固公司的行业领先地位。
(二)主营业务情况说明:
公司主要从事AI训练数据的研发设计、生产及销售业务。公司通过设计数据集结构
、组织数据采集、对取得的原料数据进行加工,最终形成可供AI算法模型训练使用
的专业数据集,通过软件形式向客户交付。
自2005年成立以来,公司始终致力于为AI产业链上的各类机构提供算法模型开发训
练所需的专业数据集。经过多年发展,公司已成为人工智能基础数据服务领域具有
较强国际竞争力的国内头部企业,并实现了标准化产品、定制化服务、相关应用服
务全覆盖。公司所提供的训练数据涵盖智能语音(语音识别、语音合成等)、计算
机视觉、自然语言等多个核心领域,全面服务于人机交互、智能家居、智能驾驶、
智慧金融、智能安防等多种创新应用场景。
公司的产品和服务已获得阿里巴巴、腾讯、百度、科大讯飞、海康威视、字节跳动
、微软、亚马逊、三星、中国移动、中国科学院、清华大学等国内外客户的认可,
应用于其研发的个人助手、智能音箱、语音导航、内容生成、搜索服务、短视频、
虚拟人、智能驾驶、机器翻译等多种产品相关的算法模型训练过程中。目前公司客
户累计数量超过1,100家,覆盖了科技互联网、社交、IoT、智能驾驶、大模型等领
域的主流企业,以及政企、教育科研机构。
(三)主要产品及服务情况
1.主要产品及服务按业务类型分类
公司研发、生产的训练数据覆盖了智能语音、计算机视觉及自然语言处理三大AI核
心领域,广泛应用于算法模型的开发、训练、优化、应用场景拓展等环节。此外,
公司还提供与训练数据相关的应用服务。
(1)智能语音
人工智能在语音领域的应用技术主要包括语音识别、语音合成等。
语音识别(Automatic Speech Recognition,ASR)是让机器能够“听懂”人类语
音的技术,它能使机器自动将语音信号转换为对应的文本信息。
语音合成(Text to Speech,TTS)是让机器能够“说出”人类语音的技术,它使
机器能将文字信息转化为流畅的语音“朗读”出来,相当于给机器安上了人工嘴巴
。
以日常生活中的情景为例,语音输入法、即时通讯软件运用了语音识别技术将用户
输入的语音实时转换为文字,实现了软件“听懂”语音并“听写”出文字的效果;
而地图、导航软件则运用语音合成技术,实现了软件“发声说话”的效果,为用户
提供即时语音导航。
公司通过设计(设计训练数据集结构、供发音人朗读录制的语料文本或对话场景、
发音人分布、录音设备场景等)、采集(定义合适的发音人、选取录音设备及软件
、组织发音人朗读录制音频)、加工(对音频文件进行切分、标注各类声音特征,
形成带时间戳和特征标签的文本和标注文件等)、质检(对数据集进行质量检测,
如音字一致性、标注准确率检查等)等训练数据集生产环节;或者针对客户提供的
原料音频文件执行加工、质检工作,最终形成客户所需的智能语音训练数据集。
(2)计算机视觉
计算机视觉(Computer Vision,CV)是使机器具备“看”的功能的技术,它使得
智能驾驶、智能家居、手机、安防设备等机器能够代替人眼对目标进行识别、跟踪
和测量等。
以日常生活中的情景为例,在汽车的自动驾驶功能中,计算机视觉技术使得汽车能
够“看见”并识别行车过程中的各种行人、路况场景,为后续作出相应的反应奠定
基础;在机尝车站安检中,计算机视觉技术使得人脸识别设备能够识别被检验人员
是否为其出示的身份证件显示的人员。
公司通过设计训练数据集结构、采集(如定义合适的人脸、动作、场景作为采集对
象,组织被采集人按照要求拍摄照片、录制视频等)、加工(对图像、视频文件进
行打点、拉框、分割标注等)、质检(对数据集进行质量检测,如检验图片、视频
文件格式是否正确,检查光照环境、物体种类的数量是否达标,打点标框的准确率
是否符合要求等);或者对客户提供的图像、视频文件执行加工、质检工作,最终
形成客户所需的计算机视觉训练数据集。
(3)自然语言处理
自然语言处理(Natural Language Processing,NLP)是使机器能够像人一样理解
语言意图的技术。
以日常生活中的情景为例,寄送快递时使用的“智能填写”功能即运用了自然语言
处理技术,在输入框中填入整段联系信息,软件应用能够理解语义,并从中识别及
提劝收件人”、“联系方式”、“地址信息”等所需信息,完成自动填写;智能客
服、聊天机器人等人机交互程序也运用了自然语言处理技术,使得程序、机器能够
读懂人类语言的真正意图,并相应做出反应、提供服务等。
公司通过设计训练数据集结构、采集(收集或编写自然语言文本、对话等数据信息
)、加工(对自然语言文本数据进行单词分割、词性标注、语义语法标注、情感属
性标注等)、质检(对数据集进行质量检测,如检验文本、词性或者语义的标注结
果是否准确等);或者对客户提供的自然语言文本执行加工、质检工作,最终形成
客户所需的自然语言训练数据集。
(4)训练数据相关的应用服务
公司开放基于多年行业经验打磨的数据处理工具集及平台,提供包括公有云访问、
私有化部署及SaaS化服务的多种能力,满足产业链上各类企业对于数据处理工具及
平台能力的需求。
公司基于自身生产的训练数据提供算法相关的模型训练服务、模型评测服务及模型
应用服务,运用训练数据研发能力助力下游客户完成其算法模型的语言拓展、特定
算法模块拓展、垂直应用领域拓展等,为客户定制针对特定应用场景的专属算法模
型,提高AI技术应用效果。
前述产品、服务均以公司生产的专业训练数据集为核心或基矗公司通过设计训练数
据集结构、组织原料数据采集、对取得的原料数据进行加工,最终形成可供算法模
型训练使用的专业数据集。
成品训练数据集主要由数据文档、说明文档、技术文档三部分构成。以智能语音训
练数据集为例,成品训练数据集包含原始采集形成的音频文件、与音频文件对应的
带有时间戳的标注文件,训练数据集相关的设计文档、训练数据集说明,发音词典
,数据集参数信息文件等。
2.主要产品或服务的终端应用场景
公司提供的高质量、大规模、结构化的训练数据,为算法模型的训练拓展提供了可
靠的训练素材,助力AI技术实现实践应用及商业化落地,赋能AI技术与实体经济深
度融合。公司提供的训练数据广泛应用于众多主流AI产品及终端应用的训练过程中
,覆盖了个人助手、语音输入、内容生成、智能家居、机器人、语音导航、智能客
服、智能播报、语音翻译、移动社交、虚拟人、智能驾驶、智慧医疗、智慧教育、
智慧交通、智慧城市、智慧金融、机器翻译、智能问答、信息提娶情感分析、OCR
识别等多种应用场景。
(四)主要经营模式
1.盈利模式
与主要产品及服务类型对应,公司的盈利模式主要包括以下三类:
(1)定制服务:公司根据客户需求提供定制训练数据集并收取服务费。在此种模
式下,公司享有服务费收入,不享有最终生成的训练数据的知识产权,不可将此类
业务生产的训练数据向其他客户重复销售。
(2)标准化产品:公司开发自有知识产权的训练数据集产品,通过销售训练数据
集产品的使用授权许可,获取让渡资产使用权收入。此类训练数据集一经开发完成
,可多次销售并获取授权许可收入。
(3)训练数据相关的应用服务:公司基于积累的训练数据和多年行业经验提供数
据处理工具集及平台服务、算法相关的模型训练、模型评测及模型应用服务,通常
以软件授权或软硬件一体化形式交付平台产品、算法模型拓展、开发成果等,获取
让渡资产使用权收入和技术服务等收入。
2.生产或服务模式
(1)训练数据集生产模式
公司通过设计训练数据集结构、组织原料数据采集、对取得的原料数据进行加工,
最终形成可供算法模型训练使用的专业数据集。
公司的训练数据生产过程主要包括四个环节:设计(训练数据集结构设计)、采集
(获取原料数据)、加工(数据标注)及质检(各环节数据质量、加工质量检测)
。
(2)训练数据相关的应用服务模式
公司开放基于多年行业经验打磨的数据处理工具集及平台,提供包括公有云访问、
私有化部署及SaaS化服务的多种能力,满足产业链上各类企业对于数据处理工具及
平台能力的需求。
公司基于其生产的训练数据提供算法模型相关的训练、评测及应用服务,助力下游
客户完成其算法模型的语言拓展、特定算法模块拓展、垂直应用领域拓展等,为客
户定制针对特定应用场景(例如特定行业、特定口音等)的专属算法模型,提高AI
技术应用效果。
以某大型科技公司客户项目为例,客户研发了特定语音识别算法模型,需要根据算
法模型的实际场景(如法院庭审场景)开发落地应用。公司承担了部分落地应用拓
展相关的开发工作,围绕客户的算法模型和接口开发,最终协助客户算法模型实现
多个麦克风收集庭审语音内容并实时转成文字记录入系统的功能。
3.采购模式
按照采购的内容及主体划分,公司的采购包括:数据服务采购:公司在数据采集、
加工环节中,向人力资源服务等类型的公司等供应商采购的,非核心技术环节的原
料数据采集、标注服务。
岗位服务采购:主要针对临时性的、不设长期岗位的业务领域的外包采购,如保洁
、临时招聘服务、少量实习生招聘等。
其他采购:
(1)训练数据生产所需的资产,主要包括软、硬件设备及其他需求物品采购;
(2)日常运营所需的资产及物品,如办公用房、车辆、办公家具、计算机设备等
;
(3)日常专项服务采购等,主要包括审计服务、会议服务、差旅服务等。
上述原料数据采集、加工环节所涉及的数据服务采购,为公司最主要的采购类别,
由集采中心负责;各部门岗位服务采购由人力资源部负责;其余日常运营相关的资
产物品采购、专项服务采购等非业务采购由集采中心负责。财务中心负责参与采购
供应商的遴癣监督与管理,并对采购费用进行核算及结算。
经过多年的发展,公司已经建设有完善的《海天瑞声采购管理制度》、《海天瑞声
项目资源采购管理制度》、《海天瑞声供应商管理制度》、《海天瑞声岗位服务采
购管理制度》等内部规范制度,设立有完善的采购流程和体系,并与主要的供应商
形成了良好稳定的长期合作关系。
4.营销模式
公司采用直接对接并服务客户的直销模式进行营销,符合行业通行惯例。公司以高
质量的训练数据集及相关服务吸引客户,并在持续服务客户的过程中提升服务价值
和客户黏度。公司通过直接拜访潜在客户、参与学术会议和行业展会新产品发布、
搭建并持续升级公司官方网站和建立自媒体矩阵等方式提升品牌知名度、开拓新客
户,后续再通过商务谈判、招投标等形式获取具体业务机会。
二、经营情况的讨论与分析
2025年上半年,在全球人工智能产业蓬勃发展的大背景下,公司业务实现全面增长
。一方面,随着多模态大模型技术持续突破和“人工智能+”应用场景不断丰富,
全球训练数据需求呈现爆发式增长,公司凭借丰富的数据服务经验以及海量标品数
据集积累,持续获得国内外头部科技企业的数据需求订单;另一方面,在国家“人
工智能+”战略指引下,以运营商为代表的国央企加速AI布局,重点投入多模态基
座模型研发和垂直领域应用落地,为公司带来新的业务增长点。与此同时,去年公
司新拓展的东南亚数据交付基地已进入稳定运营阶段,该基地不仅成功打开了海外
定制化服务市场,更为海外业务贡献了显著的增量收入。以上因素共同推动,公司
2025年上半年度营业收入、归属于母公司所有者的净利润、归属于母公司所有者的
扣除非经常性损益的净利润同比均实现显著增长。
报告期内,公司实现营业收入1.57亿元,较上年同期增长69.54%;归属于母公司所
有者的净利润380.46万元,较上年同期增加813.65%;归属于母公司所有者的扣除
非经常性损益的净利润为98.35万元,较上年同期增加465.94万元;经营性现金流
净额-3,375.12万元,较上年同期下降315.29%。截至报告期末,公司总资产为8.17
亿元,较期初增加1.03%;归属于母公司的所有者权益为7.29亿元,较期初减少1.9
4%。2025年上半年公司具体经营情况如下:
(一)核心业务板块经营情况
1.境外训练数据业务
2025年上半年,在全球人工智能产业加速渗透及多模态大模型需求爆发的背景下,
AI训练数据服务市场持续扩容。在此趋势下,公司海外业务实现收入7,351.14万元
,同比增长68.24%,继续保持强劲增长态势。
从业务驱动因素来看,一方面,以全球头部消费电子、企业级SaaS应用软件公司等
为代表的国际客户,为支撑其全球化业务拓展,持续加大对多语种语音、平行语料
等高质量训练数据的投入力度。公司凭借在语言研究领域长达二十年的技术积累,
以及覆盖智能语音、自然语言等多个技术方向的标准化数据集产品优势,进一步赢
得了境外客户优眩另一方面,公司在东南亚新建的数据交付基地已进入稳定运营阶
段,该基地不仅成功打开了当地定制化服务市场,更为海外业务贡献了显著的增量
收入,未来该基地也将成为支撑公司全球化战略的重要支点。
此外,为进一步提升全球市场竞争力,报告期内,公司持续优化国际化布局。在市
场拓展方面,进一步强化北美、欧洲及日韩销售团队,深化本地化服务能力;同时
,通过参与CVPR、ACL、Tech-AD等全球顶级AI学术会议,提升技术品牌认知度和影
响力;同时,重点加强海外交付能力建设,通过拓展菲律宾数据交付基地的团队规
模和服务范围,为国际客户提供更加高效、合规的数据服务支持。未来,这些战略
布局也将为公司把握全球AI产业发展机遇、实现更高质量的国际化发展奠定坚实基
矗
2.境内训练数据业务
2025年上半年,随着人工智能技术在各行业的深度渗透和垂直场景的加速落地,AI
产业呈现出明显的"场景纵深化"发展趋势。在此背景下,公司境内业务实现营业收
入8,318.45万元,同比增长70.70%,展现出强劲增长态势。
从市场需求结构来看,AI技术应用主体呈现多元化发展趋势。首先,以运营商为代
表的国央企积极响应国家"人工智能+"战略部署,加快推进多模态基座大模型研发
,并在政务、法律、教育等重点领域进行布局;其次,以短视频平台、本地生活服
务平台为代表的头部科技互联网企业开始将AI技术提升至核心战略地位,重点布局
多语种语音交互、智能内容生成等关键技术,持续优化用户体验和内容创作效率,
为业务创新和国际化发展提供技术支撑。同时,传统科技企业持续加大AI技术研发
投入,重点强化多模态基础模型能力建设,特别是在多语种处理等关键领域深化布
局,夯实全球化发展的技术基矗公司基于在智能语音、自然语言、计算机视觉等领
域多年的技术积累,以及构建的近1,800个标准化数据集的专业产品体系,已成为
多家行业领先企业的核心数据服务供应商,市场竞争优势进一步巩固。
3.数据要素业务
2025年上半年,随着《"数据要素×"三年行动计划》深入实施和各地数据要素市场
化配置改革加速推进,我国数据要素产业迈入高质量发展新阶段。
在这一背景下,国家数据局指导成都、长沙、保定等7个城市建设数据标注基地,
先行先试探索数据标注产业发展经验。数据标注基地建设成为推动数据要素价值释
放的关键举措,旨在解决AI产业发展中的数据质量、标准统一和要素流通等核心问
题。为支持国家数据产业发展战略,公司充分发挥在数据服务领域的技术积累,提
供覆盖数据全生命周期的综合解决方案。在数据汇聚环节,公司与地方政府合作共
建高质量数据集,整合公共数据和行业数据资源;在生产加工环节,建设数据可信
空间,提供数据处理平台和运营服务;在开发利用环节,基于高质量数据开展模型
训练;同时为中小企业提供数据治理服务。截至目前,公司已与3个承担数据标注
基地建设任务的城市:成都、长沙、保定等地方政府成立合资公司,并与内蒙古呼
和浩特签署战略合作协议,聚焦当地乳业、草种、文旅等特色产业,共建高质量数
据集,有效驱动当地产业的数字化转型。此外,公司正积极拓展与上海、广州、宜
宾等十余地的战略合作,进一步完善标注基地的全国性业务布局。
在支撑地方政府文旅产业数字化方面,公司也已取得阶段性成果:已启动彭州、长
沙等地高质量文旅视频数据集的建设工作,重点为智能导览等应用场景提供专业数
据支撑。此外,公司深度参与华为+陕文投集团合作的陕西文旅示范项目,充分发
挥在数据服务领域的技术优势,重点支持高质量文旅数据集建设和AI文旅垂直大模
型开发,推动"AI+文旅"场景的规模化应用,为陕西文旅产业数字化转型提供全方
位数据支撑和解决方案。与此同时,公司还参与"京西智谷数字人平台及配音平台
项目",提供2,000余个数字人形象,通过数字人技术助力北京门头沟区乡村振兴和
文化传播。
在区域合作方面,公司立足广西作为中国—东盟数字合作枢纽的战略定位,全面深
度参与中国—东盟人工智能创新合作中心建设并与地方政府联合成立数字工坊,凭
借在东盟小语种数据处理以及OCR预识别算法上的技术优势,有力支持东盟语料库
建设。
通过参与国家级数据标注基地建设和区域数字合作项目,公司不仅实现了数据要素
业务市场空间的持续拓展,也为推动我国数据要素市场高质量发展注入了新动能。
未来,公司将继续深化在数据汇聚、处理、应用等环节的技术创新,致力于构建更
加完善的数据要素产业生态体系。
(二)核心技术能力建设情况
2025年上半年,按照技术+产品双轮驱动的定位,公司继续保持有竞争力的研发投
入强度,不断提升技术和平台工具先进性、在大模型数据处理技术方向进行积极探
索储备、巩固标准化数据集产品储备、增厚语音语言学基础研究领先性,持续巩固
公司核心竞争力。报告期内,公司研发费用共计2,956.45万元,占当期营业收入的
18.87%。截至报告期末,公司研发人员数量为58人。
1.算法及平台能力建设、大模型数据处理技术持续探索储备
报告期内,公司持续加大基础研发投入力度,重点提升人工智能基础算法、一体化
数据处理平台及前沿技术研究等领域的核心能力,持续推动大模型数据服务的迭代
升级,并形成了一定的代表性成果:1.1算法公司在智能语音、计算机视觉、自然
语言处理等领域的预标注算法上持续深耕布局,同时,在面向智慧文旅场景的多模
态大模型能力研究、面向数字人场景的基础能力研究、智能驾驶、大模型训练数据
清洗与自动化标注等垂直领域取得显著进展。面向智慧文旅场景的多模态大模型能
力研究主要包括:文旅场景的语音合成大模型、文旅场景视觉大模型、文旅场景的
LLM大模型训练与微调,并完成主流国产算法的模型推理适配工作。面向数字人场
景的基础能力研究主要包括:图片数字人算法、视频数字人算法的研发和部署,以
及3D数字人前沿算法的调研与实践;智能驾驶主要聚焦在以下领域的算法研发:4D
点云重建与2D厘米级自动化映射、预刷红绿灯算法、亿级点云地面检测算法、通用
3D目标检测模型升级等;在大模型训练数据清洗与自动化标注研发领域内,研发老
挝语OCR与语料自动化清洗算法,并在项目中取得良好效果;针对语音大模型训练
数据,完成语音数据自动化清洗pipeline的升级,融合10+种模型算法对多种类型
的数据进行自动化清洗与标注;针对LLM大模型训练数据,完成题库、ITN/TN等多
种语料清洗pipeline搭建与优化。
1.2平台公司持续在数据处理平台进行规模化投入,重点提升语音、视觉等核心领
域的采集及标注环节处理效率。同时,为完善产业生态布局、增强内部管理效率,
公司新增建设人工智能数据服务实训和AI数据生产管理两大专业平台,具体情况如
下:
智能语音平台:声优工厂平台形成规模化声优资源池,覆盖中、英、日、韩4大语
系36种音色标签。通过性别校验等算法模型,大幅提升试音通过率,且单条试音审
核时长压缩10倍以上;自研流程引擎让项目平均周期缩减一半。公司自研的多模态
推荐模型,可实现候选声优的秒级反馈,匹配精准度提升至90%以上。副语言&音素
边界标注平台实现全流程自动化升级,通过集成语音识别等算法模块,将标注时间
缩短约一半。构建了精细化权限治理体系,该体系可适配多场景任务需求,且使跨
角色协同效率提升50%以上。
计算机视觉平台:Bev视角点云、2D图标注平台攻克多源数据技术难关,自研时空
配准引擎实现多源点云亚像素级对齐;轻量化拓扑压缩算法在保持99.5%几何精度
下,通过点云压缩技术,将训练加载时间缩短80%。此外,采用风格迁移网络实现4
种天气、5个时段无缝切换,兼容主流行业标准,大幅降低客户迁移成本。标注工
具效率较传统提升近5倍,支持超过1,000个标注员并发作业,日均可产出50万张AI
训练样本,并已在智能驾驶为代表的三大场景应用落地。
面向人工智能数据服务的实训平台:旨在为AI产业链提供高质量的人才培养方案,
包括理论体系建设、课程学习、上机实训、课后练习、在线考试、资格认证、人才
推送等重要模块。公司已基本完成整体架构设计,并形成基础理论和部分模态实战
课程的课件。
面向人工智能数据生产的管理平台:为应对人工智能数据业务不断发展所带来的项
目管理、商务管理、财务管理等诸多管理能力不断提升的需求,公司整合既有工具
模块、优化现存平台,建设新一代面向人工智能数据生产的管理平台。该平台包括
不少于20个重要功能模块的建设任务。公司上半年已完成包括客户管理、合同管理
等重要模块的建设任务。部分能力已在公司内部落地,并支撑业务加速发展。
以上平台均以技术创新构建壁垒,兼具规模化能力与商业化成果,为持续增长奠定
基矗
2.标准化数据集产品
标准化数据集产品,是公司区别于众多竞争对手以定制化服务为主的特有商业模式
,也是公司核心竞争力之一,标准化产品是公司基于未来行业需求的研判,在市场
需求出现之前,预先开发的数据集,具有即用即取的特点,可帮助客户大幅缩短模
型研发周期并有效降低数据投入成本。同时,由于产品本身的知识产权由公司享有
,具有一次性研发生产、可重复多次销售的特点,因此可更好帮助公司实现未来可
持续性销售、以及毛利空间提升。
因此,为更好适应行业发展需求,公司2025年上半年在产品研发方面持续投入,用
于开发覆盖智能语音、计算机视觉以及自然语言等传统深度学习以及大模型领域的
相关数据集产品。截止报告期末,公司新增研发超70个训练数据集产品,自有知识
产权的训练数据产品储备达到1,790个,尤其在多语种语音对话、多语种OCR、多音
色多情感数据集等方面积累了更丰富的标准化产品资源,并建成包括“双工数据集
”、“视觉大模型(图像-文本)预训练及微调数据集”等在内的多领域大模型数
据集。截止报告期末,截止报告期末,公司已向下游客户提供了累计超过10,000次
/个定制或标准化训练数据集,并已应用于个人助手、语音输入、内容生成、智能
家居、机器人、语音导航、智能客服、智能播报、语音翻译、移动社交、虚拟人、
智能驾驶、智慧医疗、智慧教育、智慧交通、智慧城市、智慧金融、机器翻译、智
能问答、信息提娶情感分析、OCR识别等22类创新应用领域,赋能人工智能技术与
实体经济的深度融合。
3.语音语言学能力
随着全球化扩张成为头部AI企业收入增长的重要引擎,多语种数据的作用和价值更
加凸显。为更好满足客户多语种拓展需求,公司持续保持语音语言学研究力度,在
语音语言学基础研究方面,公司不断丰富合作语言学家团队资源,成员遍布世界各
地的学校及研究机构,在语音语言学领域具备丰富经验和技术储备。截止报告期末
,公司已经拥有超过240个语种/方言的覆盖能力,不仅包括英、法、德、意、西、
日、韩等常见语种,还包括东南亚、一带一路等国家地区的罕见小语种,尤其在亚
洲小语种、中东欧小语种的服务上具备竞争优势。同时,公司建立了成熟的发音词
典构建流程,公司已积累下近140个多语种的发音词典,覆盖波斯尼亚语、塞尔维
亚语、巽他语、尼泊尔语、奥利亚语、基隆迪语、茨瓦纳语、达利语等小语种,累
计词条数超过1,200万条,可支撑构建高质量的智能语音、以及多模态训练数据,
是公司的主要竞争壁垒及核心技术之一。
(三)其他综合能力建设情况
1.数据安全及合规
2025年上半年,中央和地方出台了一系列有关数据要素、数据安全的法律法规和政
策,对企业的数据安全水准和能力提出了更高要求,也为企业在数据要素、人工智
能等领域的发展提供了新的机遇。公司一直以来非常重视数据安全管理以及相关能
力的提升,并将其作为把握新发展机遇所必须练好的“基本功”。报告期内,公司
积极参与行业发展,提出立法建议、参与行业调研,数据安全能力获得广泛认可。
2.供应链体系
2025年上半年,公司围绕AI大模型在垂直领域的深度应用,全面升级供应链生态体
系。在产业布局方面,公司深度整合产学研资源,重点布局医疗、金融、教育、美
学等专业领域,通过与行业权威机构合作,构建了覆盖诊断、智能投顾、合规风控
、数字版权等场景的专业资源池,显著提升了供应链的行业适配性和专业壁垒。
公司在全球化资源网络建设方面取得重要突破:通过海外数据基地建设和供应商资
源拓展,已覆盖49万终端资源,涉及173个国家和地区及超过250种外语种,大幅提
升全球数据服务的响应能力。
此外,公司通过技术创新驱动供应链管理效能提升:通过知识图谱与区块链技术融
合,实现跨领域资源的智能匹配与全流程可信溯源;依托动态标签体系和智能算法
,完成需求线上化、结算线上化管理;基于精细化成本模型与实时化系统,实现订
单处理、资源配置的全链路数字化,为可持续产能扩张奠定基矗
3.人力资源
报告期内,公司完成销售、生产、研发体系的绩效管理机制优化,并对内部反馈机
制及奖金核算机制进行迭代,以期增强绩效牵引力实现更加公平和富于激励性的管
理效果。上半年公司组织多种类专项培训及人才发展项目,在大模型领域的探索与
应用进行广泛深入的内部交流,组织销售、生产、职能等多体系的软技能培训,对
应届高潜毕业生、新锐力量、中坚力量、中高层管理人员采取不同的梯队建设规划
,以保障人才队伍的不断夯实。文化建设方面,强化高度敬业和持续创新文化,进
行榜样之星等多样化的文化倡导和活动辐射,打造更加尊重信赖和追求卓越的组织
基因。同时在人才引进方面,启动海外人才招募、研发专项人才和高潜毕业生吸引
计划,引入多名欧美同业专家、优质研发人员、及卓越背景应届毕业生,充实销售
、研发及项目交付队伍的人才密度,发展健康、可持续、多元化的人才队伍。
三、报告期内核心竞争力分析
(一)核心竞争力分析
1.研发优势
公司拥有同行业具有竞争力的综合研发实力,截至报告期末,公司研发团队规模为
58人,研发能力全面覆盖平台工具开发、算法研究、产品设计等多条主线。公司核
心研发人员均曾服务于全球顶尖科技企业或毕业于名校,组成了公司坚实的研发领
导核心力量。同时,多年来,公司积累了较为完备的综合性、一体化数据处理平台
及工具体系,覆盖智能语音、计算机视觉、自然语言等全业态领域,可服务于市面
上绝大多数数据处理场景需求,包括但不限于智能驾驶、智能家居、个人助手、内
容生成等。公司还设置了专门的产品研发部门及AI+研发部门,可前瞻性挖掘和布
局新兴市场需求,抢占市场先机。此外,基于公司在训练数据领域多年积累下的大
量、多元化数据以及数据处理经验,通过算法平台团队与数据业务团队无缝衔接,
公司可更好完成预识别算法性能提升,实现少量数据注入->算法训练->标注员反馈
->模型生成->处理大量数据的自闭环体系,助力公司做大规模、提升效率、降低成
本。同时,20年数据行业的从业经验积累,使得公司具备较强的数据生产工程化能
力,可助力公司大幅缩短数据研发及生产周期,为公司抢占市场提供了有力支撑。
上述因素共同驱动公司构建较高的行业技术壁垒。
2.产品优势
通常来说,标准化数据集产品具有可即时获娶价格相对优惠等特点,因此市场需求
旺盛。但由于标准化数据集产品是先于客户需求形成,需要数据服务商具备较强的
市场趋势前瞻能力、以及财务实力进行提前投入,因此行业中具备标准化数据集产
品规模化生产能力的服务商较为有限,该方向具备较高竞争壁垒。
对于公司而言,标准化训练数据集产品的知识产权由公司享有,具有一次性研发生
产、可重复多次销售的特点,可显著助力公司毛利水平提升,实现训练数据产品的
规模化效应,因此也是公司区别于众多竞争对手的一个优势亮点。
公司基于20年数据服务经验、以及对客户需求的深刻理解,持续开拓标准化数据集
,自有知识产权的训练数据产品储备达到1,790个,全面覆盖智能语音、计算机视
觉、自然语言等多条业务线。这些高质量数据集可全面支持智能客服、个人助手、
数字人等前沿AI应用场景的研发落地。
特别值得一提的是,我们的标品数据已支持247种语言/方言,能够充分满足全球AI
企业的多语言需求,为客户的国际化战略提供强有力的数据支撑。
3.语音语言学能力优势
随着境外客户全球化扩张以及境内客户出海成为新的行业发展趋势,多语种能力成
为数据服务领域的核心竞争力之一,而语音语言学储备则是实现多语种拓展的重要
前提。经过20年积累,公司已沉淀下深厚的语音语言学基础研究成果,并已将其运
用至构建高质量的智能语音、以及多模态训练数据。在语音语言学基础研究领域,
公司拥有丰富的多语种语言学家团队资源积累和多语种发音词典积累,以及不断创
新的发音词典构建技术和流程技术。截止报告期末,公司已经拥有超过240个语种/
方言的覆盖能力,不仅包括英、法、德、意、西、日、韩等常见语种,还包括东南
亚、一带一路等国家地区的罕见小语种,尤其在亚洲小语种、中东欧小语种的服务
上具备竞争优势。同时,公司已积累下近140个多语种的发音词典,覆盖波斯尼亚
语、塞尔维亚语、巽他语、尼泊尔语、奥利亚语、基隆迪语、茨瓦纳语、达利语等
小语种,累计词条数超过1,200万条,可支撑构建高质量的智能语音、以及多模态
训练数据,是公司的主要竞争壁垒及核心技术之一。
4.数据安全及合规能力优势
海天瑞声自成立之初即把数据安全、数据合规视为生命线,公司在多年的数据风险
识别和管理实践中,已经形成了较为成熟的安全、合规管理体系。资质方面,公司
拥有ISO27001信息安全管理体系认证、ISO27701隐私信息管理体系认证、国家信息
系统安全等级保护三级备案、北京市规划和自然资源委员会行政许可乙级测绘资质
等。行业参与方面,公司入选中共中央网络安全和信息化委员会办公室“人工智能
企业典型应用案例”,相关业务和数据安全实践受到《人民日报》等权威媒体报道
和关注。公司为中国信通院数据安全推进计划成员单位,董事兼总经理李科连续入
选该计划数安智库专家,其所参与、领导的公司数据安全工作,受到《北京日报》
等权威媒体报道。此外,公司积极参与行业发展,入选国家标准《信息技术人工智
能术语》核心参编单位、《人工智能数据标注平台技术要求和测试方法》核心参编
单位,数据安全能力获得认可并产生广泛、积极的行业影响。
(二)报告期内发生的导致公司核心竞争力受到严重影响的事件、影响分析及应对措
施
(三)核心技术与研发进展
1、核心技术及其先进性以及报告期内的变化情况
(1)基础研究层面,报告期内,公司持续在智能语音、计算机视觉、自然语言进
行技术拓展,同时在多模态文旅大模型、数字人算法、智能驾驶、大模型训练数据
清洗与自动化标注等垂直领域取得显著进展。多模态文旅大模型主要包括:文旅场
景的语音合成大模型、文旅场景视觉大模型、文旅场景的LLM大模型训练与微调,
并完成主流国产算法的模型推理适配工作。数字人算法主要包括:图片数字人算法
、视频数字人算法的研发和部署,以及3D数字人前沿算法的调研与实践;智能驾驶
主要聚焦在以下领域的算法研发:4D点云重建与2D厘米级自动化映射、预刷红绿灯
算法、亿级点云地面检测算法、通用3D目标检测模型升级等;在大模型训练数据清
洗与自动化标注研发领域内,研发老挝语OCR与语料自动化清洗算法,并在项目中
取得良好效果;针对语音大模型训练数据,完成语音数据自动化清洗pipeline的升
级,融合10+种模型算法对多种类型的数据进行自动化清洗与标注;针对LLM大模型
训练数据,完成题库、ITN/TN等多种语料清洗pipeline搭建与优化。
(2)在平台工具层面进展如下:
智能语音平台:声优工厂平台形成规模化声优资源池,覆盖中、英、日、韩4大语
系36种音色标签。通过性别校验等算法模型,大幅提升试音通过率,且单条试音审
核时长压缩10倍以上;自研流程引擎让项目平均周期缩减一半。公司自研的多模态
推荐模型,可实现候选声优的秒级反馈,匹配精准度提升至90%以上。副语言&音素
边界标注平台实现全流程自动化升级,通过集成语音识别等算法模块,将标注时间
缩短约一半。构建了精细化权限治理体系,该体系可适配多场景任务需求,且使跨
角色协同效率提升50%以上。
计算机视觉平台:Bev视角点云、2D图标注平台攻克多源数据技术难关,自研时空
配准引擎实现多源点云亚像素级对齐;轻量化拓扑压缩算法在保持99.5%几何精度
下,通过点云压缩技术,将训练加载时间缩短80%。此外,采用风格迁移网络实现4
种天气、5个时段无缝切换,兼容主流行业标准,大幅降低客户迁移成本。标注工
具效率较传统提升近5倍,支持超过1,000个标注员并发作业,日均可产出50万张AI
训练样本,并已在智能驾驶为代表的三大场景应用落地。
面向人工智能数据服务的实训平台:旨在为AI产业链提供高质量的人才培养方案,
包括理论体系建设、课程学习、上机实训、课后练习、在线考试、资格认证、人才
推送等重要模块。公司已基本完成整体架构设计,并形成基础理论和部分模态实战
课程的课件。
面向人工智能数据生产的管理平台:为应对人工智能数据业务不断发展所带来的项
目管理、商务管理、财务管理等诸多管理能力不断提升的需求,公司整合既有工具
模块、优化现存平台,建设新一代面向人工智能数据生产的管理平台。该平台包括
不少于20个重要功能模块的建设任务。公司上半年已完成包括客户管理、合同管理
等重要模块的建设任务。部分能力已在公司内部落地,并支撑业务加速发展。
以上平台均以技术创新构建壁垒,兼具规模化能力与商业化成果,为持续增长奠定
基矗
2、报告期内获得的研发成果
报告期内,公司新获得软件著作权1项。截至2025年6月30日,公司共获得专利授权
41项,获得登记的软件著作权181项。
四、报告期内主要经营情况
报告期内,公司实现营业收入1.57亿元,较上年同期增长69.54%;归属于母公司所
有者的净利润380.46万元,较上年同期增加813.65%;归属于母公司所有者的扣除
非经常性损益的净利润为98.35万元,较上年同期增加465.94万元;经营性现金流
净额-3,375.12万元,较上年同期下降315.29%。截至报告期末,公司总资产为8.17
亿元,较期初增加1.03%;归属于母公司的所有者权益为7.29亿元,较期初减少1.9
4%。
五、风险因素
(一)核心竞争力风险
1.核心技术快速迭代的风险
由于人工智能行业整体发展较为迅速,应用领域和应用场景不断拓展,下游需求随
着行业发展不断发生变化,公司进行数据开发所需的各项技术也面临着快速迭代更
新的风险。如果公司无法保持对行业发展趋势的洞察能力以及对研发人才的有效组
织和研发经费的经济投入,则可能导致公司在行业技术快速迭代过程中无法持续保
持技术先进性和技术优势,进而对公司的客户拓展、产品创新和经营业绩造成不利
影响。
2.核心技术人员流失风险
随着行业的持续发展,行业内企业之间对于高端人才的竞争日益激烈,如果公司无
法持续加强核心技术人员的培养及引进并为核心技术人员提供有竞争力的激励机制
和薪资待遇,则将存在核心技术人员流失的风险,公司的技术水平、研发能力也将
受到不利影响。
3.核心技术失密风险
公司的数据产品和服务均以核心技术为基矗公司制定了严格的保密制度并严格执行
,但上述措施仍无法完全避免公司核心技术的失密风险。如果公司相关核心技术的
内控和保密机制不能得到有效执行,则可能导致公司核心技术失密的风险。
4.训练数据标准化产品无法实现授权销售的风险
公司根据对算法模型应用领域、行业发展趋势、市场需求等的评估和研判,自行设
计并开发多种训练数据集标准化产品,开发完成后根据客户实际需求进行销售,授
权给客户使用。在该种业务类型下,公司开发训练数据集产品,承担开发费用,并
拥有训练数据集产品的知识产权。如果公司开发的训练数据集产品不能满足下游客
户对训练数据的要求,则可能存在无法实现授权销售的风险,进而对公司未来的经
营业绩产生不利影响。
5.数据安全相关风险
公司主要从事训练数据的研发设计、生产及销售业务,所提供的产品和服务主要以
数据的形式体现。一方面,随着公司业务的快速发展和规模的持续扩张,原料数据
采集与数据加工的数量持续增长;另外一方面,包括《数据安全法》、《个人信息
保护法》、《生成式人工智能服务管理暂行办法》、《网络数据安全管理条例》等
在内的与数据安全、个人信息保护相关的法律规章体系正逐步完善。公司如果未能
按照法律规章或客户的更新要求及时调整现行业务开展方式、公司的数据安全管理
体系研发升级未能跟上业务发展的需要、或客户未能遵守训练数据产品保护相关商
业约定,则公司可能产生诉讼纠纷或面临生产经营不符合法律规章的要求、训练数
据产品被泄露、盗版等数据安全相关风险。
同时,《数据出境安全评估办法》、《促进和规范数据跨境流动规定》等法律法规
加强了对境内收集或产生的个人信息数据的跨境行为的规制。如果将来公司未能根
据相关要求及时履行相应的程序,公司开展的属于该办法限定范围内的境外业务将
受到一定程度的影响。
(二)经营风险
1.收入主要来自老客户,新客户收入占比较低的风险
报告期内,公司收入主要来自老客户,占比达到90.39%,新客户收入占比较低。公
司正致力于维护老客户、拓展新客户,若老客户降低对公司产品、服务的采购量或
公司未能维持与老客户的合作关系,则公司的经营情况将受到不利影响;若新客户
拓展情况不达预期,则公司的经营情况也将受到不利影响。
2.新业务拓展风险
随着人工智能行业持续快速地增长,下游客户对高质量、多样性、大规模训练数据
的需求将持续增加。公司能否紧跟下游需求变化,加深对下游行业基础技术的理解
并开发出更多的业务机会,一方面受到行业发展状况、市场需求变化以及市场竞争
状况等因素影响,另一方面也取决于公司对于下游众多新领域新场景的理解认知以
及合作拓展能力等诸多因素。因此,公司新业务的开拓可能不及预期或者遇到其他
不利因素,进而对公司未来的经营业绩产生不利影响。
3.采购成本上升风险
报告期内,公司进行采购原料数据采集、标注所支付的数据服务费占全年与主营业
务相关的采购总额的比重较高,达到89.69%。随着城乡生活成本的持续提升,前述
采购价格可能存在持续上升的趋势,若公司的技术发展带来的效率提升无法抵消前
述采购成本上升的影响,可能会对公司的经营业绩带来一定不利影响。
(三)行业风险
1.市场竞争加剧的风险
公司所在的细分领域为AI基础数据服务领域。近年来,参与该行业的公司不断增多
,由于整体行业较新,行业标准和法律监管仍处于规范阶段,因此整体行业目前处
于高速发展且格局未定的状态,导致市场竞争加剧。公司如果不能持续有效地制定
并实施业务发展规划,则将受到竞争者的挑战,从而面临市场竞争加剧而导致的经
营状况下滑、市场地位下降和可能失去主要客户的风险,进而影响公司的盈利能力
和发展潜力。
2.业务发展受下游人工智能领域发展状况影响较大的风险
公司主要为AI产业链上的各类机构提供算法模型开发所需的训练数据,服务于下游
人工智能行业发展。公司的经营情况、业务发展与下游人工智能领域的发展状况息
息相关。若未来人工智能领域景气度下降,或因技术更迭使得对训练数据的市场需
求发生变动,将对公司业绩产生较大影响。
(四)宏观环境风险
1.经营业绩受税收优惠政策影响较大的风险
报告期内,公司享受了增值税即征即退、高新技术企业和研发费用加计扣除等一系
列税收优惠,经营业绩受税收优惠政策影响较大。如果未来公司所享受的税收优惠
政策出现不利变化,或者公司不再符合税收优惠的条件,则公司将无法持续享受税
收优惠或存在所享受的税收优惠减少的可能性,并进而对公司未来经营业绩和现金
流水平造成不利影响。
2.汇率波动风险
海天瑞声作为一家面向全球的训练数据服务商,拥有数量众多的境外客户,遍布美
国、韩国、日本等各地区,报告期内公司境外收入占比为46.91%,该等收入使用外
币进行结算,并受人民币汇率水平变化的影响。人民币汇率可能受到国内外政治、
经济环境等因素的影响,存在波动风险,进而对公司的经营业绩产生不利影响。
3.中美贸易摩擦风险
公司产品和服务的主要出口地包括美国、日韩等国家或地区。报告期内,公司出口
美国的营业收入占当期公司营业收入的比重为21.16%。公司相关境外业务始终严格
遵守中国及他国法律。但国际局势瞬息万变,近年来中美贸易摩擦不断,如果中美
双方出台新的贸易保护主义措施,可能会影响美国市场相关客户将数据提供给公司
用于标注,减少与公司进行训练数据方面的业务合作,公司相关业务可能会受到约
束,将会对公司的生产经营产生不利影响。
(五)其他重大风险实际控制人控制不当的风险
截止报告期末,贺琳直接持有公司1,213.76万股股份(占总股本的20.12%),并通
过控制中毅安间接控制公司693.58万股股份(占总股本的11.50%),合计控制公司
31.62%的股份,为公司实际控制人。
如果实际控制人利用其控制地位,通过行使表决权或其他方式对公司财务管理、人
事、发展战略、经营决策等重大事项施加不利影响,其他股东的利益可能受到损害
。

【4.参股控股企业经营状况】
【截止日期】2025-06-30
┌─────────────┬───────┬──────┬──────┐
|企业名称                  |注册资本(万元)|净利润(万元)|总资产(万元)|
├─────────────┼───────┼──────┼──────┤
|长沙市雨花数据产业集团有限|             -|           -|           -|
|公司                      |              |            |            |
|辽宁海天数智科技有限公司  |        500.00|           -|           -|
|海天瑞聲(香港)科技有限公司|        500.00|      370.05|     5398.51|
|杭州瑞天数智科技有限公司  |        100.00|           -|           -|
|安徽瑞天数智科技有限公司  |       1000.00|           -|           -|
|北京中瑞智科技有限公司    |        300.00|           -|           -|
|内蒙古瑞天数据标注技术创新|        500.00|           -|           -|
|中心有限公司              |              |            |            |
|DATAOCEAN AI PTE.LTD.     |         50.00|     -117.80|     3954.64|
|DATAOCEAN AI INC.         |        100.00|           -|           -|
└─────────────┴───────┴──────┴──────┘
免责声明:本信息由本站提供,仅供参考,本站力求
但不保证数据的完全准确,如有错漏请以中国证监会指定上市公司信息披露媒体为
准,本站不对因该资料全部或部分内容而引致的盈亏承担任何责任。
用户个人对服务的使用承担风险。本站对此不作任何类型的担保。本站不担保服
务一定能满足用户的要求,也不担保服务不会受中断,对服务的及时性,安全性,出
错发生都不作担保。本站对在本站上得到的任何信息服务或交易进程不作担保。
本站提供的包括本站理财的所有文章,数据,不构成任何的投资建议,用户查看
或依据这些内容所进行的任何行为造成的风险和结果都自行负责,与本站无关。			

今日热门股票查询↓    股票行情  超赢数据  实时DDX  资金流向  利润趋势  千股千评  业绩报告  大单资金  最新消息  龙虎榜  股吧