来源:【陕西网】
数据标注产业的落地,让清涧县城开始与全世界最前沿的技术产生联系。身处AI供应链最前端的人工智能训练师们,也在一波又一波的调研采访中几度成为网络上热议的焦点。
可AI越热,孵化了几个县域数字就业中心的鱼涛,越是需要冷思考。
在很长一段时间里,清涧爱豆科技公司以及孵化的所有数字就业中心的目标订单都是较简单的数据标注业务,只能存活于产业链最下游。但随着AI被“喂养”的越来越智能,简单的标注不断被人工智能取代,意味着此前的目标订单将越来越少。
而面对市场上越来越多的垂直领域类的高价订单,数据标记师的门槛也越来越高。依托于偏远县城劳动力发展起来的数据标注公司,将终究陷入因缺乏高学历人才而止步不前的困局。
鱼涛深切的知道,这个产业给这些县城打开了一扇时代的窗,这个窗口究竟能开多大、开多久,他无法预知。
不断迭代的订单
清涧爱豆科技公司建立之初,在县城电视台播放的广告里,清涧县城被形容为榆林的“硅谷”,号召在外打工的人回乡就业,喊出了“初中学历也能干高科技”“只有你才能拯救它”的口号。
彼时,数据标注的门槛较低。不止是清涧孵化的数字就业中心,当时许多数据标注公司都招募了大量基层劳动力。最常见的包括全职宝妈、残疾人、职校学生,只要掌握电脑的基本操作,就能进入这个行业。
清涧县城
技术的进步速度远超所有人预期,来到大模型时代,数据质量将直接影响到模型的性能。一场关于数据标注的洗牌和淘汰,正在从业者“候选人”中悄然进行。
最明显的是,标注员的学历开始卷起来。
一个公开的行业秘密是,早在ChatGPT走红前,OpenAI就招募十几位博士生来“打标”。8年时间,OpenAI光是训练模型就花了10亿美元。
研究人员发现,训练数据的质量对模型性能有非常大的影响。比起数据量,拥有更高的数据质量,模型的改善效果就更明显。为了把控数据质量,一些AI公司组建了自己的标注团队,第一步就是提高入行门槛。
今年4月,国内一家头部大模型厂商建立了数据标注基地,招募的第一批标注员,本科学历达到100%。公司负责人解释,大模型数据涉及的知识面广,评判标准复杂,非常考验标注师的语言理解能力和逻辑推理能力。
就在上个月,美国一家数据公司开始招聘特定领域的专业人士。这些高级标注员的报酬不再是白菜价,比如法律数据的标注时薪是45美元,诗歌则是25美元。
而与此同时,清涧爱豆科技公司孵化的各数字就业中心筑巢引凤的作用也逐渐凸显,持续吸引高学历人才回流。
以永和基地为例,项目启动时,基地专科及以上学历的大学生仅为个位数,其中还包括一名县政府派驻到企业的管理者。成立两年多来,基地员工中专科及以上学历大学生占比已经超过30%。吕梁片区5个数字就业中心在岗的621名员工中,专科及以上学历毕业生总体占比已经接近7成。
“业务方对标注员学历要求越来越高,我们只能不断鼓励员工们去参加成人自考,尽可能拿到更高的学历。”清涧爱豆科技公司副总经理郝莉华坦言,之前有个高中还没毕业的女孩来应聘,她耐心的劝说这个女孩无论如何都必须拿个本科学历,要为未来做长远考虑。
最新一期招聘,清涧爱豆科技公司要招本科以上学历的人。但这并不容易,经过3年的运营,公司把县城里能招的人都招了一遍,火爆的招聘场景也没再出现。
“很多大学生在一线城市就业难,工资也并不高。如果有一个合适的机会能回老家,还是非常有吸引力的,而且对自己工作的认同感非常高。”西安交通大学人文社会科学院教授杨江华在深度调研后,对未来县域数字就业岗位吸引返乡大学生抱有很大的信心。
去年10月,某导航项目组的一条产线彻底被“喂熟”,不再需要标注师的数据投喂,正式从清涧爱豆科技公司的任务平台下线,那一组的十几位成员全员参加新一轮培训,被分配至难度更高的产线。
“不费脑子的工作越来越少了,越往后越难做了。”清涧爱豆科技公司第三批入职的数据标注员马花花,在干了4年后,清楚地感觉到了工作的难度在逐渐增强。
县城AI公司的业务,也从最开始简单的图片拉框,到一些涉政、涉黄、涉暴的后台审核标注,再到看图写话的描述类工作,现在已经开始有一些需要培训才能上手的金融类、医疗、法律等专业垂直领域标注。
鱼涛还记得,之前竞标一个有关数学领域的标注业务,他专门挑选了公司里几个学历最高的大学生去模拟练习,可就连数学专业的本科生都直喊太难,最后只能放弃那一单标的很高的业务。
从被“投喂”到主动“觅食”
受益于国家卫健委健康暖心基金、中国妇基会、蚂蚁集团、蚂蚁公益基金会的孵化,作为清涧县政府直属国企,可以说,清涧爱豆科技有限公司依托于公益而生。
也正是因为不同寻常的出身,清涧爱豆科技公司在起步阶段就获得了公益方的订单“投喂”,在很长一段时间内,都不需要自己主动去市场上觅食。
县域数字就业中心
同时,清涧爱豆科技公司还呈现出很多与其他企业不同的特质。不以追求经济利益为首要目标,而是更看重社会价值。公司把80%的收入用于员工薪酬福利,实际上的比例还要更高一点。还优先招募女性、脱贫户、残障人士,来体现它的公益性。
但企业终究不是慈善机构,不能只“靠爱发电”,必须经受得住市场的洗礼。“想要更好更长久的活下去,必须靠我们自己。”为了公司的运转,鱼涛寄希望于寻求更多的订单。
去年3月,鱼涛来到杭州,这里有着国内最为浓厚互联网氛围以及最前沿的人工智能领域技术,他此行的目的是给公司拿下更多订单。但很显然,签下订单并非易事,四处上门拜访几天后,鱼涛空手而归,并且深受打击。
在清涧乃至孵化的一系列数字就业中心,鱼涛就是那个被指望的人,但到了更大的世界,鱼涛也会力不从心。“我大专毕业,虽然也在不断努力提升自己,但在很多专业上的问题未必能表达清楚,在商业谈判上也会吃很大的亏。”
多数标注员经历过从生疏到熟练,从新鲜到乏味的过程。项目的前期是最有趣的,那时标注规则还不完善,他们经常碰到争议地方,就会互相讨论甚至争论,气氛很热闹。到了中后期,规则差不多定型,就只剩下重复的、机械的劳动,但换到新项目,又会体验一次新鲜的学习过程。
在标注行业中,标注员的工作状态在后台数据图表中一览无余,甚至细化到“心动时长”。如果哪位标注员提交的数据质量不过关,那么“复盘学习再上岗”就成了必选动作。两次不达标可能被停产扣钱,而连续三次不达标就只能被淘汰。
作为乙方,清涧爱豆科技公司也格外注重数据质量的把控,在被甲方警告前,如果小组内有人的效率或者质量出现了下滑,小组长会首先观察这个标注员的状态,主动关心是否遇到什么特殊情况,然后上报公司帮忙协调解决,这是鱼涛给公司制定的“家文化”。
但如果有标注员始终不能达标,在多次项目经理选人组建团队时都被剩下,那他也不得不被动离职。因此,清涧爱豆科技公司的数据质量始终让甲方比较满意。
郝莉华介绍,“其实管理层的选拔不光看业务能力,还有对项目以及其他员工的付出意愿,在这点上,其实很多宝妈是更具责任心的。”
可能得益于贺甜芳学的电子商务,之前又一直在做影楼销售,对电脑比较熟悉,所以她虽然入职不算早,但从普通标注员到组长、再到培训讲师的升职路径似乎比很多人都进步得快。
贺甜芳至今记得,她考取培训讲师资格证的时候,参与线上培训的一个月间,比上学时下的苦功还大。“鱼骨图”“脑思维模式”“5W质量闭环”等专业术语高密度地灌入她的大脑。
“数据标注不是脑力劳动,也不是体力劳动,而是认知劳动,我们出售的是自己的认知”。贺甜芳感觉这份工作想要持续做下去,必须不断地学习。
未来正在路上
人工智能算法、算力几乎每年提升一个数量级,而数据的需求量则更加呈爆炸式增长。与此同时,数据的准确性越来越重要,由专业的数据标注团队处理数据,已经是人工智能研发公司的必备条件。
在AI搅动科技圈的这一年,回到清涧标注员的世界。这里几乎感受不到由技术飞快发展而产生的焦虑。对很多标注员来说,标注工作稳定且体面,“跟电脑打交道,同事间没有利益争端,没有精神内耗”。
密密麻麻的文字占满了电脑屏幕,一周内的公司新闻,都会出现在需要标注的文本里。财务信息造假、实际控制人涉嫌违法、税务非正常户、延期信息披露、偷税漏税……最近在做金融风险事件标注业务的白雪,能一口气说出这些名词,朋友们常常惊讶于白雪谈吐见识的飞速提升。
虽然她和同事们不知道ChatGPT到底是怎么回事,只听说这款产品很厉害、在美国很火,聊到最后总结一句话:“它再牛,也需要我们这样的人在背后做标注。”
标注业务极其注重团队协作,且大多优质任务要求人数都不低于50人,而很多小标注公司因此走入死循环:找不到优质订单养不起人,养不起人发展不起来更接不到优质订单。
但很多业务都需要几千人的标注平台,体量小的公司能接到的业务可能已经被外包了好几层。对外争取订单时,受限于县域人口规模、人才储备等客观条件,单个基地在规模和业务承接能力上,与东部发达城市同类公司往往处于竞争劣势。
虽然清涧爱豆及孵化的数字就业中心已经有677人的规模,也都是采用协同作战模式,但对于更长远的发展来讲,规模依旧远远不够。
在行业内摸索了几年,鱼涛想要打造陕北片区数据标注带的想法越来越强烈。通过片区协作把片区力量有效整合,联合参与市场竞争,欠发达县域的数字就业中心才能拥有更大的市场竞争力。
而这个庞大的梦想,已不是靠他个人力量能实现的。就像最近杭州已经掀起了人工智能训练师的考证热潮,鱼涛想为清涧争取一个陕西的认证机构却不知从哪下手。
人工智能行业的快速发展对数据标注与内容审核等业务需求日益旺盛,《中国人工智能基础数据服务市场研究报告》显示,到2025年,数据标注产业市场总规模预计将达到120亿元,国内标注师缺口5万人左右。
“AI豆计划”等数字就业项目在陕北的落地,既符合国家“东数西算”工程的战略规划,又契合当前我省大力发展县域经济、民营经济、开放型经济、数字经济的方向要求。
尽管清涧及周边5个县域的数字就业项目基地取得了令人瞩目的成绩,但与其他省市同类产业相比仍存在项目总体规模不大、参与市场竞争后劲不足、产业链亟待优化升级等问题,迫切需要省级层面的顶层设计和引导规划。
杨江华在决策建言中这样建议:省上应研究制定“陕北县域数字经济特色产业协同发展规划”,出台针对性的产业发展政策,从完善产业链、人才链、资金链和创新链等方面系统规划,推动人工智能数据标注产业在陕北形成“以点带面、连成一片”的发展格局。
“这是乡村振兴的一条好路子,虽然发展有重重困难,但我们不会放弃,我们要靠自己的奋斗不但成为自己的‘爱豆’,还要成为别人的‘爱豆’。”鱼涛的愿望就是要用数字的力量让家乡更美好,让更多的乡村更美好。
本文来自【陕西网】,仅代表作者观点。全国党媒信息公共平台提供信息发布传播服务。
ID:jrtt