中国健康观察网

访问人工智能背后的数据注释器:AI还需要一个"教师

2020-08-11 14:56   来源: 互联网

[环球网络技术记者林迪]"为了让机器理解人们的思维方式,我们必须在早期成为人工智能的老师。山西林诺网络技术有限公司李玉龙。有限公司我把自己比作‘学前教育’,当我们给它一个红色的苹果(人工智能),教它识别,给它一个绿色的苹果,因为颜色不同,它不知道。"因此,我们的工作是帮助它识别不同的颜色、大小,甚至是咬碎的苹果,直到我们捡起任何苹果,直到它知道为止。。


近日,环球网络科技记者访问了百度(山西)人工智能基础产业基地(以下简称"百度山西数据标签库"),探讨人工智能背后的"老师"--数据标记。


我从没想过我会做人工智能的工作。


在我来到这里之前,我在一个煤矿里,仰望着煤炭,俯视着煤炭。我从未想过,我目前的工作可能与无人驾驶和人工智能有关。"郭梅曾在山西某煤矿担任监测器八年,现在是百度山西数据标签库的数据标签。


我从未想过我会从事与人工智能有关的工作。郭梅告诉记者,在来到百个基地后,经过公司的岗前培训和团队帮助,从一开始每天只能拿到两三百份,到目前平均每天超过一千三百份,目前涉及无人驾驶、人脸识别、图像分类、语音识别等领域。由于是"按件付费",由于她从事数据标记工作,她的收入也在逐渐增加,现在高于当地的平均收入水平。


山西省林诺市的高级教练员李玉龙告诉记者,他每天的平均收入约为300元(8小时)。"这个水平是整个基地定标者平均日收入的中间。"据我所知,有些人的平均日收入甚至可以超过1000元。

当你第一次接触时,你把它看作是一个重复的过程,你不去想这是用来做什么的; 当你参与到更多的项目中,你慢慢想要得到更深的理解,认识到很多标签化的内容可以应用到人工智能行业,以及人工智能在提高各个行业效率方面的作用现在,当我看到无人驾驶时,我想它也包括我自己的"标记"工作。 李玉龙举例说:"我记忆最深刻的项目也是我的第一个项目--'无人驾驶‘车道标线,也就是在路上采集车道线。 当无人驾驶汽车到达一段道路时,它会自行拍摄连续图片。然后我们对车辆行驶的车道两侧的线进行标记,比如识别这条线是虚线还是实线,"匹配一个与之对应的属性,告诉人工智能虚线车可以变道,实线可以不变道。


经过两年的数据标注,李玉龙现在的工作重点是"培训师"。在职业规划方面,他说:"根据每个项目的特点,我将接触很多项目,以确定与之匹配的能力。"就我个人而言,我已经从一个数据注释者那里获得了一个项目管理职位。


现在,起作用的动力之一是,我培养了更多能够制作高质量数据的人,他们有成就感,"他微笑着说。


人工智能人才"储藏室


7月2日,百度宣布,未来五年将在百度山西数据标签基地培训5万家人工智能数据标签,提供更多人工智能工作岗位,以支持当地科技产业的发展。7月9日,李彦宏写道,"利用大数据培育新的就业形式,"百度表示,百度计划在三年内培育100多家拥有专业数据的企业,以吸收更多高质量的工作。


作为回应,基地企业代表三西林诺(San Xilinno)的总经理李英威告诉环球网络技术记者:"根据百度‘培训5万名人工智能数据营销者’的计划,我们计划在2021年年底前将员工人数增加一倍。


根据这些数据,百度在2011年建立了自己的数据收集团队,以支持内部人工智能业务的发展。2018年9月,百度与山西省转型综合改革示范区达成合作,共同建设了数据标记基地。


百度山西数据库负责人魏琦说,经过一年多的发展,山西标牌基地已经成为中国第一个单一的数据打分基地,为中国的人员和产值服务。AI数据注解器现有员工2000多人,实现营业收入1亿多元,企业下设35家企业。百度智能云数据众包(Baidu Smart Cloud Data众包)在中国和世界各地的22个国家拥有渠道代理资源,拥有5万多名竞购者和2000万众包互联网用户,覆盖了智能驾驶、手机行业、互联网和人工智能开发商等四个领域的所有顶级客户。百度是中国最大的人工智能数据服务提供商。


七、八年前,我们要求AI数据营销者通过在线众包完成一些相对简单的任务,但是随着人工智能的发展,越来越多的应用场景和任务变得越来越困难。百度决定在数据安全、隐私、质量和效率要求之外,建立人工智能基础数据产业基地。"百度山西数据标签库负责人魏琦告诉记者,该数据库一方面为百度自身的人工智能发展提供服务,另一方面还可以向合作伙伴输出该数据库的数据服务和一整套解决方案。



那么,回到未来的数据定标者,有哪些职业规划和晋升渠道?"基地企业代表单锡里诺代表李英威用自己员工的两个案例解释道:"百度很快就聘请了一名员工,因为他表现出色。"我们还有一名20岁的孩子(员工),虽然教育程度不高,但他是一名人才,但他现在是负责内容审计的负责人之一,因此,一方面可以预见这一行业的未来;另一方面,也可以说数据标注也是培养和发现人工智能人才。


李玉龙将这项工作描述为"奇怪的升级":"虽然看起来很无聊,但实际上他每天都在接触新事物。人工智能涉及教育、安全、金融、交通和医疗、电子商务等领域。陌生领域每天都对每个人的学习能力提出挑战。同时,我们也比其他行业的人更早地接触到未来的发展方向(人工智能)以及未来的生活和工作情景,这样我们就可以看到,未来的发展需求会比其他行业的人更早地找到更多的发展机会。


至于未来五年为什么要培训5万台人工智能数据标记,魏致远告诉记者:"我们可以看到,人工智能是一个迅速发展的行业,数据服务与人工智能密切相关。因此,在五年内培训5万人并不多。我们拥有近2000万在线众包用户,目前每月有近5万人在线为我们服务。如果你看看这个行业的增长速度,仅仅培训5万人是不够的。


奠定人工智能大楼的基础


毫无疑问,人工智能数据标注是人工智能发展的一项新工作。据报道,2020年2月,"人工智能培训师"正式成为一个新的职业,并被列入国家职业分类目录。数据采集和标记是人工智能培训员的主要任务之一。数据注释员的工作是教人工智能理解数据,并拥有足够好的数据,人工智能能够学会像人类一样感知、思考和做出决策,更好地为人类服务。


记者走进基地的办公室时,可以看到每台电脑前都有一个人工智能数据标签,他们将根据自己指定的任务对文字、图片、声音和视频进行标记。"当工作人员演示"戴面具的面部图像标记"时,工作人员指出,在收集了大量戴着面具的面部照片后,数据标注器准确地标记了眉毛、眼镜、颧骨等面部关键点。特征点越多,人工智能就越能准确地识别面具场景下的人脸,这样人们也可以在不摘下面罩或通过面罩门的情况下实现精确的体温测量。


要成为人工智能的"教师",首先要把知识转化为它可以消化吸收的‘语言’,即把数据想象成人工智能的燃料,人类可以在标注过程中对采集到的原始数据进行处理,提取一些数据信息,魏致远进一步解释道:"例如,采集了大量的人脸数据后,人工智能数据注解器就会标记肖像,提取特征,并将特征输入到人工智能模型中。然后,该模型算法等价于对先前人工标注的信息进行总结,找出一般规律,从而使该人工智能模型具有人脑的认知和判断能力。


如果你做了一个比喻,我认为数据注释器是最基本的角色,就像建筑一样。没有地基,这座建筑就无法建造,而且是不稳定的。那么,如果我们做的好,人工智能的发展将是快速和稳定的。李英威最后对环球网络技术记者说:"我们做的事情看起来简单乏味,但意义重大。就像一辆汽车没有汽油就不能离开。该数据是人工智能发展的汽油,燃料。"有了我们的数据,机器(算法)继续迭代,可以推动人工智能朝着更好的方向发展。




责任编辑:iiihyt
分享到:
0
【慎重声明】凡本站未注明来源为"中国健康观察网"的所有作品,均转载、编译或摘编自其它媒体,转载、编译或摘编的目的在于传递更多信息,并不代表本站赞同其观点和对其真实性负责。如因作品内容、版权和其他问题需要同本网联系的,请在30日内进行!