中国健康观察网

澳鹏中国将继续开拓大模型和中国企业出海两大市场

2024-09-04 14:29   来源: 中国健康观察网

  所谓AI数据,即经过人工或机器方式标注过的数据。澳鹏Appen全球高级副总裁、大中华及北亚区总经理田小鹏博士表示,澳鹏(中国)在近五年经历了三大AI浪潮,同时收获了AI数据在三个维度的爆发式裂变增长红利:即从深度学习和机器学习浪潮、到自动驾驶浪潮、再到大模型的"滔天巨浪";相应带来AI数据在数据规模、数据质量和数据复杂度等三个维度的裂变增长。

  整体而言,经过了2019年到2024年的飞速发展,从深度学习/机器学习的精品式小模型训练,到自动驾驶的规模化模型训练和高频次迭代,再到"百大"大模型和生成式 AI的规模化生产,引发了AI数据在规模、质量和复杂度三个维度的同时爆发式裂变,这对于AI数据服务商来说,既是机遇更是挑战。

  技术能力是传统数据标注服务商长期缺失的核心能力。随着AI数据在三个维度的爆发式裂变,单纯依靠手工方式进行数据标注已经远远不能满足需求,更无法持续降低数据标注项目的成本、提高数据标注的质量、加快数据的有效流转。

  在全球市场,2019年的时候也仅有包括澳鹏Appen在内的少数顶级AI数据标注服务商投资了自有的数据标注工程平台。在2019年澳鹏(中国)成立的时候,当时除了从IBM等世界一流IT公司出来的几位核心主创人员以及澳鹏Appen全球对中国团队的初始投资外,可以说"一穷二白"。

  与其它全球公司的中国分公司不同,由于数据行业的高度安全合规要求,澳鹏(中国)必须要独立自主地在中国市场重建所有的资源、系统和流程。摈弃了"拿来主义",摆在澳鹏(中国)创始团队面前的就是一张白纸,而团队决定对技术进行"押注"式投入:目前公司有60余名全职资深研发技术工程师,其中一半专门聚焦于公司的技术平台产品研发;另一半专门聚焦于和客户在平台数据接收和验收的无缝对接。2023年,澳鹏(中国)投资近5000万元用于技术和系统建设,包括对澳鹏MatrixGo企业级高精度数据标注平台和大模型智能开发平台的开发和增强。

  今天的澳鹏(中国)有两大拳头产品:MatrixGo企业级高精度数据标注平台和大模型智能开发平台,并用这两大平台扛住了AI数据三维度裂变的"滚滚洪流"。澳鹏MatrixGo平台和大模型智能开发平台完全由澳鹏(中国)团队在本地研发,拥有全部的知识产权和产品主导能力。

  澳鹏大模型智能开发平台是澳鹏(中国)在2023年全新开发的一个新技术工程平台。针对大模型场景,澳鹏(中国)研发了专业的多模态数据标注工具、多轮对话数据标注工具、思维链数据标注工具、工具调用数据标注工具、知识库数据标注工具等多种专业标注工具,支持RLHF、RLAIF、SFT等多种高质量数据的生产;该平台对数据集管理、模型评估进行了针对性设计,通过A/B测试、红蓝对抗、排序打分等对大模型质量进行评估和分析;该平台还集成了算力资源的调度和对接,可以进行算法的微调和部署,一站式完成大模型数据开发。

  大模型智能开发平台的快速上线让澳鹏(中国)迅速抓住了大模型商机。2023年,澳鹏(中国)在中国、日本和韩国共拓展了82家新客户,其中8家客户带来了20个大模型项目。2023年全年,澳鹏(中国)大模型业务营收接近3300万,2024上半年更直逼5000万,呈爆发式增长态势。

  针对处于初级阶段的中国AI数据标注市场,澳鹏(中国)投入了大量时间和精力进行众包资源的招募、培训、流程建设和管理,特别是在二线城市创造性地建立了自营数据服务交付基地,通过自有专职人员+众包资源的方式,适配了中国数据标注行业的初级阶段。

  所谓自营数据服务交付基地,即在无锡、大连、重庆等地租用办公楼,招聘专职数据标注服务员工入驻办公,同时为项目提供安全封闭的项目办公空间,供团队与客户共同完成高保密性的项目。而在项目管理方面,面对数据标注项目节奏快、数据需求量不稳定、数据规则不断变化等挑战,澳鹏(中国)从多个维度提升项目管理能力,保障对客户项目交付的稳定性。

  在过去5年中,出现了大量不确定性的事件,包括全球疫情和中美科技竞争,但也幸运地赶上了自动驾驶和大模型浪潮以及由此引发的AI数据三维度爆发式裂变。由于澳鹏(中国)坚持以科技创新立身,坚定投入自有技术平台,依靠更高效率、更高质量、更高安全性的技术平台和人力资源优势,在市场中站稳了脚跟。

  过去5年澳鹏(中国)的成功,可以总结为五大因素:顺势而为、创新为要、资源多样化、洞察客户需求、员工满意与数据合规。

  目前,澳鹏(中国)客户主要分布在互联网/电商企业、算法科技公司、自动驾驶等行业,客户包括国内前十大汽车公司、前十大互联网公司和前四大移动互联网公司等。鉴于AI数据与AI模型越来越密不可分,澳鹏(中国)为头部客户配置了专属的客户经理,从而深入理解客户业务,并根据客户业务发展,提前准备相应的资源和能力,灵活及时满足客户需求。

  例如,在服务某中国头部社交媒体海外实体公司的过程中,双方在大模型文本生成和多模态数据处理等领域展开了深入合作。澳鹏(中国)在东南亚地区建立了多个大模型标注的基地,招募了当地优秀的本科、硕士毕业生以及部分垂直领域的专家。借助海外专业且稳定的人力资源以及澳鹏丰富的管理经验,为该客户实现了大模型高精度+高一致率的标注结果。目前该客户大模型的业务量已经跻身澳鹏(中国)前三,成为重要的业务支柱。

  在下一个5年到来之际,澳鹏(中国)又站在了一个新的起点。

  首先,澳鹏(中国)将持续投入两大平台的研发,不断提高产品力,从而提升产品在整个营收中的占比。在数据标注服务外,客户对于数据处理平台、数据处理工具和数据处理算法有大量需求。为此,澳鹏(中国)投入产品研发,打造可商业化的数据标注平台、多模态数据标注工具、成品数据库产品以及覆盖数据采集、数据清洗、数据脱敏、数据挖掘等不同阶段的自动化算法产品,为客户提供全面的产品矩阵。

  其次,澳鹏(中国)将继续开拓大模型和中国企业出海两大市场。在大模型市场,科技企业对于AI/LLM的研发投入巨大,迫切需要具有的高质量训练数据交付能力的公司,帮助更好、更快地处理模型训练数据,而澳鹏(中国)已经构建了强大的竞争力。

  在中国企业出海市场,企业出海首先面对的就是语言和全球资源的挑战,澳鹏在全球170多个国家拥有290多种语言的资源,同时在菲律宾、越南、美国等地区拥有大型交付中心,这是澳鹏在行业内独一无二的优势,可以很好地支持国内企业出海拓展海外市场业务。

  针对AI技术深入行业应用带来的长期需求,包括代码、医疗、教育、金融、工业、汽车等行业,澳鹏(中国)已经储备了超过1500人的高学历专业人士,而且还在无锡、大连、重庆等多地的交付基地同时招聘招募专业人员,从而打造全国性的专业资源能力池。

  艾瑞咨询预计到2028年,中国AI基础数据服务市场规模将达170亿元,未来五年的复合增长率为30.4%。澳鹏Appen全球高级副总裁、大中华及北亚区总经理田小鹏博士表示,有信心在5年后实现12亿人民币的年营收,以至少27.8%+的高速复合增长率,成为中国及亚洲区AI数据专业服务行业的领军服务商。

  其中,产品和服务两条线更均衡发展,产品项目的占比将从2024年的4%至少提升到2029年的12%;进一步加速开拓亚洲市场,占比将从 2024年10%至少提升到2029年15%,澳鹏中国5 年后将完成亚洲、欧洲、非洲、中东、南美、北美等地所有AI数据服务的全覆盖。

  目前,在AI与大模型数据服务这条赛道上,澳鹏Appen位于Everest Group 2024 AI/ML数据标注解决方案Peak Matrix领导者象限第一。作为独立于澳鹏Appen全球而在中国市场"白手起家"的澳鹏(中国),5年来闯过了中国AI数据"江湖",实现了在中国市场遥遥领先。

  从 2020 年到 2023 年,5年来澳鹏的复合营收增长率是 90+%以上,2023年澳鹏(中国)实现了近2.5亿人民币营收,刚刚发布的2024年上半年实现了1.83亿人民币(2540万美元)营收,远超业界头部友商。预计2024年将实现3.5~4亿人民币营收,YOY 的收入增长率 50%~60%以上,2029年将跨入年营收10亿人民币大关。


责任编辑:小美
分享到:
0
【慎重声明】凡本站未注明来源为"中国健康观察网"的所有作品,均转载、编译或摘编自其它媒体,转载、编译或摘编的目的在于传递更多信息,并不代表本站赞同其观点和对其真实性负责。如因作品内容、版权和其他问题需要同本网联系的,请在30日内进行!