探秘数据标注产业:AI进步的强劲动力源,数据标注:为AI打造“优质原料”的关键产业

本文围绕数据标注产业展开,先指出人工智能发展面临高质量训练数据短缺的瓶颈,而数据标注可为其提供强大动力。四部门印发的《实施意见》提出了2027年数据标注产业的发展目标。接着通过记者采访探讨我国数据标注产业现状和发展需跨越的“门槛”等问题,包括数据标注的概念、作用、在不同应用场景下的情况,产业发展现状以及面临的人才缺口等挑战和应对举措等内容。

随着人工智能如火箭般迅猛发展,高质量训练数据的短缺却像一道坚固的枷锁,逐渐成为制约这个行业大步向前的巨大瓶颈。然而,数据标注产业就如同黑暗中的曙光,为人工智能的创新发展注入源源不断的强大动力。国家发展改革委、国家数据局、财政部、人力资源和社会保障部这四个部门在前不久联合印发了《关于促进数据标注产业高质量发展的实施意见》(以下简称《实施意见》),其中明确提出到2027年要达成的数据标注产业发展目标:数据标注产业在专业化、智能化以及科技创新能力这几个方面要有显著的提升,整个产业规模要实现大幅度的跃升,年均复合增长率要超过20%。我国的数据标注产业目前究竟是何种状况呢?数据标注产业若要实现高质量发展,又需要跨越哪些像高山一样的“门槛”呢?针对这些疑问,科技日报的记者展开了深入的采访。把原始数据转化为可以使用的资源,这中间有着怎样的奥秘呢?“简单通俗地来讲,训练人工智能大模型就如同老师教学生识字一般。”华南理工大学计算机科学与工程学院的副院长张通非常形象地解释道。所谓的数据标注,其实就是给数据“贴标签”或者是做个“记号”,这就需要专业的人员向大模型详细阐释每个数据的标签以及需要执行的相应任务。他们就像是耐心的“教导者”,告诉大模型参与训练的数据是什么,然后给图像、语音、文本等各种各样的数据都“贴”上合适的“标签”。高质量的数据标注工作,就像是给机器安装了精准的导航仪,有助于机器进行精准的理解、快速的学习以及高效的训练,能够非常显著地提升大模型的准确性和泛化能力。在训练ChatGPT的时候,美国开放人工智能研究中心(OpenAI)可是投入了大量的资源用于数据标注。为了确保标注任务能够高质量地完成,从而让ChatGPT能够更好地理解人类的指令,保障大模型的准确性与可靠性,OpenAI聘请了众多的“老师”。这些“老师”的构成十分丰富,既包括普通的数据标注人员和专业人士,甚至还有博士级别的专家呢。数据标注是人工智能发展的核心基石之一,就如同大厦的地基一般重要。“数据标注产业是对数据进行筛选、清洗、分类、注释、标记和质量检验等一系列加工处理的新兴产业,它的核心任务就是对原始数据进行加工处理,使这些原始数据摇身一变成为能够用于训练人工智能大模型的优质原料。”张通详细地介绍道。数据标注作为训练大模型的极为关键的一环,直接影响着机器学习模型的性能,对于支撑人工智能能力水平的提升有着不可忽视的重要作用。在张通的眼中,那些未经处理的原始数据就像是深埋地下尚未被发掘的宝藏,仅仅只是潜在的资源,而只有经过标注处理之后沉淀下来的数据,才能够在市场上进行有效的交易和流通,从而充分释放数据要素的价值。培育壮大这个数据标注产业,对于提升数据的供给质量、推动人工智能的创新发展来说,是绝对不可或缺的。业内人士也持有相同的看法,随着人工智能技术日益成熟,应用领域也在持续不断地拓展,数据标注行业即将迎来更加广阔的市场空间,尤其是在低空经济、智慧城市、自动驾驶、智慧医疗等这些新兴的科技领域,数据标注行业将会展现出巨大的潜力。如今,产业已经步入快速发展的阶段。全球的数据标注市场目前正处于快速增长的时期。近年来,我国的数据标注产业就像一辆加足马力的汽车,已经进入了快速发展的轨道,产业链条在不断地完善,技术创新成果也逐渐实现了市场化的应用。据估算,2023年我国数据标注产业的规模已经达到了800亿元左右。像四川成都、辽宁沈阳、安徽合肥、湖南长沙等7个承担数据标注基地建设任务的城市,在大模型标注、自动化标注等领域都取得了非常重要的突破。长沙信息产业园作为长沙首批数据标注基地中的一员,就像是一块强大的磁石,已经吸引了智能网联汽车、数据标注、网络安全等1万余家各类数字企业入驻,成功打造出了人工智能创新中心算力服务平台。广东也在积极推进数据标注训练试点和基地建设,为大模型训练提供坚实的数据支撑。2023年9月,广东省公共数据标注训练试点正式启动。在广东省公共数据标注基地(清远),百度、燕湖科技、好思达等一批在自动驾驶、政务公共标注领域表现出色的企业已经率先入驻。凭借着龙头企业的带动作用和数字经济产业的集聚效应,清远的数据标注产业呈现出一片蓬勃发展的景象。“我们以数字经济产业为核心,与数字经济产业的龙头企业紧密合作,致力于打造国家级的数据标注产业集聚区和产教融合示范区。”广东省公共数据标注基地(清远)的负责人李艳康介绍说。落户在此的百度智能云(清远)人工智能基础数据产业基地已经累计引进孵化了5家数据标注企业,培育出了超过300名专业的数据标注师。在未来,这个基地将会持续不断地培育孵化更多优秀的数据标注企业,推动清远的数据服务产业不断发展壮大。复合型人才缺口仍然比较大,这是数据标注产业面临的一个严峻挑战。《实施意见》的出台,就像是一场及时雨,将会进一步提升数据的供给质量,有效地解决制约人工智能产业发展的高质量数据短缺的问题。值得注意的是,随着人工智能应用的不断深入发展,对数据标注的需求也变得越来越细分化和专业化。2024年7月,张通的团队和广州华银康医疗集团股份有限公司在人工智能与数字经济广东省实验室(广州)共同建立了AI病理研究中心,开始着手研发人工智能病理大模型,目的是让人工智能模型能够像专业的医生一样看病问诊。在其中的数据预处理环节,中心专门聘请了3位资深的主任级医师来进行数据标注。“在医疗、材料等专业领域,涉及到专业对象和术语相结合的标注过程,只有专业的从业人员才能够胜任这样的标注工作。而且,标注任务极其耗费时间、精力和资源。整个标注工作不是一下子就能完成的,而是需要在实际的应用场景中不断优化、持续迭代,这样才能促使模型的智能化水平不断提升。”张通说道。当前,我国数据标注行业的人才缺口仍然比较大,亟待培养复合型的数据标注人才,这是我国数据标注产业实现高质量发展必须跨越的一道“门槛”。《实施意见》针对加强标注人才队伍建设也作出了一系列的部署。以人才项目计划和科技项目等作为有力的抓手,来培育和引进高端的专业人才;制定(修订)人工智能训练、数据标注相关职业的国家职业标准;支持数据标注领域的职业资格与职业技能等级进行衔接互认……这一项项的举措,都将为数据标注产业的高质量发展提供坚实的支撑。完善的产业生态建设对于数据标注行业的发展同样有着至关重要的意义。《实施意见》提出,要畅通数据采集、标注、人工智能应用的产业链,推动数据标注产业上下游协同发展;支持数据标注的龙头企业和第三方机构等建设数据标注开源平台,助力中小企业的发展;培育一批人力资源、供需对接、国际合作、法律审计等服务于数据标注的第三方机构,从而完善数据标注产业的生态。“未来数据标注行业的发展,也可以考虑‘以人工智能促人工智能’的思路,也就是让已经完成学习的人工智能反哺数据标注工作,从而提高效率。这是一个非常值得深入探讨并且极具价值的研究方向。”张通认为,数据标注行业的发展有望加速推动数字经济与实体经济的深度融合,从而加快形成新质生产力。

本文总结了数据标注产业在人工智能发展中的重要性,从其为人工智能提供优质训练数据的核心作用,到我国该产业的发展现状、取得的成果,如部分城市在数据标注基地建设方面的突破等。同时也指出了面临的挑战,像复合型人才缺口较大等问题,以及应对这些挑战的相关举措。最后还展望了数据标注行业未来发展的方向,如利用人工智能反哺数据标注工作等。

原创文章,作者:Foster,如若转载,请注明出处:https://www.gouwuzhinan.com/archives/3404.html

(0)
FosterFoster
上一篇 2025年1月27日
下一篇 2025年1月27日

相关推荐

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注