AI模型训练催生“数据标注”岗位,时薪工人和科学家竞争上岗
随着人工智能领域的迅猛增长,业界对大模型数据集的劳动力需求正在攀升,尤其是对文本、图像、视频和音频进行标注的领域。为了降低成本,这类岗位往往被外包到不发达国家。
11月24日,哥伦比亚广播公司(CBS)《60分钟》栏目报道称,尽管数据标注行业为肯尼亚创造了大量就业机会,但这类工作因为薪资过低、工作时间过长以及审查内容涉及大量仇恨言论和暴力画面等问题,对当地劳动者的身心健康造成了极大影响。
数据标注是人工智能技术研发中不可或缺的一环,指对图片、语音、文本、视频等数据进行处理,标记对象的特征,生成满足机器学习训练要求的可读数据编码。科技专家表示,松懈的法律规定和低廉的收入已经成为该行业的常态——从业人员从事最繁琐和高负荷的工作,但几乎无法得到法律保障。
“数据贴标”引发争议
CBS报道称,虽然人工智能技术日渐强大,但仍无法完全脱离人工的介入,原因是需要数据标记的新设备和新发明正在不断涌现,比如汽车和医疗等行业。“数据贴标员”如今需要给汽车和行人贴上标签,训练自动驾驶汽车避让障碍物的技能;圈出CT(计算机断层扫描)、核磁共振成像(MRI)和X光片中的异常情况,让人工智能学习如何识别异常情况。
出于降低劳动力成本的考虑,Meta和OpenAI等大型公司近年来将这类工作岗位转给劳务外包公司。在肯尼亚,一家名为Sama的公司为上述公司招聘超过3000名员工,时薪为2美元(折合人民币14.5元)。然而,《60分钟》栏目获取的文件则显示,OpenAI向Sama支付的时薪实为每名工人12.5美元(折合人民币90.5元)。面对质疑,这家总部位于加州的公司表示,相对于肯尼亚当地的工资水平,该公司向肯尼亚员工支付的薪酬“相对公平”。
一些负责内容贴标和筛查有害信息的肯尼亚员工表示,他们日均花8个小时坐在屏幕前研究照片和视频,在物体周围画框并贴上标签,让人工智能算法学习如何识别内容。除此之外,他们必须每天查看色情、仇恨言论和过度暴力内容,帮助人工智能强化识别和过滤有害信息的功能。
有受访者表示,在肯尼亚失业率高企的情况下,他们不得不接受这类工作。目前,肯尼亚的青年失业率高达67%,该国政府一直在争取微软、谷歌、苹果和英特尔等科技巨头的投资。
除了Sama,澳大利亚数据服务公司澳鹏(Appen)也在委内瑞拉和巴基斯坦等国家招募了大量数据标注员。据美国《连线》杂志(Wired)报道,澳鹏的客户包括亚马逊、脸书、谷歌和微软等公司。一名移居至哥伦比亚的委内瑞拉受访者向该媒体表示,若每天的工作时间达到18个小时或以上,他们每周收入或可达到280美元(人民币2028元),接近哥伦比亚285美元(人民币2065元)的最低工资标准。
咨询公司Grand View Research的数据显示,2022年全球数据标注的市场价值为22.2亿美元,预计到2030年将增长到171亿美元。在这股AI浪潮下,数据标注在一些国家成为一个新兴产业。《日本时报》报道称,印度已成为全球最大的数据标注劳动力市场之一。信息技术行业机构NASSCOM表示,到2030年,印度数据标注劳动力规模(包括全职和兼职)预计将达到100万人。
印度研究机构“数字未来”实验室主任乌尔瓦希·阿内贾(Urvashi Aneja)表示,尽管数据标注行业为那些有居家工作需求的人创造了新的机会,但这类人群处于人工智能价值链的底端。“很多工作都很不稳定……有了ChatGPT和其他生成式人工智能,内容审核的问题将变得更加复杂,我们将看到更多低薪工人陷入其中。”阿内贾分析道。
AI训练寻求激增
路透社报道称,人工智能模型发展的早期阶段需要大量低成本劳动力,帮助人工智能模型区分基本事实,例如图像是汽车还是胡萝卜。然而,随着人工智能技术发展日趋成熟,人工智能模型进行更复杂的更新则需要拥有专业知识的人类训练师——这类人群包括历史学家和科学家以及拥有博士学位的人员。
总部位于法国巴黎的凯捷管理顾问公司2024年发布的一份报告显示,近七成商业领袖认为,生成式人工智能领域的兴起将催生出新的劳动力需求,包括人工智能审计师、人工智能伦理学家和快速工程师。“我们看到人工智能管理和数字化转型中出现了一些新角色,这些角色专注于治理、战略指定以及协助利益相关方整合人工智能政策等。”凯捷公司旗下公司索盖蒂(Sogeti)副总裁兼美国生成式人工智能部门负责人道格•罗斯(Doug Ross)向商业技术网站ZDNet表示。
路透社报道称,初创公司智研创科(Invisible Tech)雇佣了数千名远程工作的人工智能内容培训师,协助AI21 Labs和微软等主要客户训练人工智能模型,以减少错误。智研创科为AI训练师开出的最高时薪为40美元,具体取决于员工的职位和工作的复杂程度。其创始人弗朗西斯·佩德拉泽(Francis Pedraza)表示:“我们在全球100多个国家拥有至少5000名员工,他们都是博士、硕士学位持有者和知识专家。”
有公司甚至将受雇人群转向用户。新加坡《海峡时报》报道称,一家新加坡初创企业打出“赚取零花钱”的名号,招募公众执行录制声音和标记图片等任务,用户无需具备技术,仅需要一部手机,便可通过一款名为“Tictag”的应用程序执行任务,例如用闽南语录制单词或以不同的音量说“Bixby”(三星移动设备AI助手的名称),获取几美分到几美元的报酬。
此外,用户被分配的任务还包括图像注释,如圈出图片中汽车的品牌标识或标记物品颜色,进而为人工智能模型提供准确的训练数据。报道还称,该公司将收集到的数据用于训练语音和语言、安全监控、AI语音助手和图像识别技术。