![]()
新智元报道编辑:桃子【新智元介绍】AI抢走了他们的饭碗,一夜之间让17万军队失业。别慌,新的AI任务说了算:全球排名前六的AI现在只能自动处理不到3%的事情。 12万名大学毕业生竞争1.7万个就业岗位。人工智能有七分之一的机会阻碍就业机会。不仅如此,白领阶层一直是重灾区。作为美国第二大雇主,亚马逊周二的内部邮件导致一夜之间失去1.4万个工作岗位。然而,更血腥的失踪事件仍在上演。整个行业正在经历前所未有的冲击。近期,多家巨头纷纷宣布裁员计划,裁员数量达到17万。 “失业海啸”背后,AI一直是罪魁祸首。世人看到的是Z世代毕业后没有未来,白领一一被取代。只有像“水管工”这样的熟练职位才是安全的。但这些担忧是毫无根据还是只是幻想? Scale AI和AI安全中心的最新研究用一句话道出了真相:AI虽然聪明,但实用性不够。目前,AI自动化率不足3%。值得一提的是,该论文的参与者中还有 Alexandr Wang,他当时就完成了大规模 AI 的研究。论文地址:https://www.remotelabor.ai/paper.pdf 在关于 6000 小时、14 万美元的真实工作的最新研究中,提出了一个新的基准——远程劳动力指数(RLI),该指标专注于评估现实世界中端到端的 AI 表现。多年来,顶级实验室的人工智能在各种基准测试上“作弊”。这一杰出成就误导了人们,错误地认为当前的人工智能距离通用人工智能仅一步之遥。但事实又如何呢?这些基准测试大多是简短的任务和学术问题,具有明确的目的。ules,距离真正的工作还很远。 GPT-5距离AGI的终结仅剩58%。具有真正经济价值的远程工作往往具有跨领域、长期、高标准的特点。远程劳动力指数 (RLI) 的创建就是为了填补这一空白。它包含来自整个劳动力市场的真实项目,涵盖游戏开发、产品设计、架构、数据分析、视频动画等领域。左下图显示了排名前 7 的工作场所。这些项目都很困难,有些项目耗资 10,000 美元,需要 100 多个小时才能完成。所有RLI数据均来自真实自由职业者的历史订单。实际工作时间总计超过 6,000 小时,总成本超过 140,000 美元。以下是RLI的数据采集流程,经过严格的筛选和清洗。最初,研究人员选择了 64 个关键领域。经过初步筛选,他们确定了 43 个符合条件的领域,并分两个阶段获得了项目: 1 来自自由职业平台 2从随后的尾部项目中,研究团队又招募了 358 名拥有 UPWork 帐户认证的自由职业者和目标领域的专家。通常情况下,他们已经工作了 2,341 个小时,完成了 89 个项目,总共赚取了 23,364 美元。为此,团队从这些自由职业者那里收集了 550 个初始项目,最终筛选出了包含 240 个项目的 RLI 数据集。与之前的类似基准相比,RLI 的复杂性和多样性更接近真实自由职业市场的工作模式。如下图左所示,人们完成RLI项目所需的平均时间与Upwork平台上的真实数据分布非常吻合。右图说明现有的基准测试主要集中在软件工程和在线研究写作等任务上,而真正的远程类型劳动力市场更多属于这一类。数据集生成后,下一步就是进行top AI在真正的战斗中。然而,在此之前,应该用哪些指标来衡量其性能呢?主要包括以下四个关键指标:自动化率、ELO分数、项目收益、自动化偏转度。在评估过程中,对于每个RLI项目,研究团队都会评估AI的交付成果——不仅将其与人类金本位标准进行比较,还会根据项目简要要求检查缺陷,最终确定AI结果是否会被真实自由职业场景中合格的工作产品所接受。那么,各大顶级车型的真实表现到底如何呢?您的工作已暂时保存!实验过程中,研究团队带来了六位全球顶尖的大型模型和代理参战,并分别进行了定量和定性分析。自动化率是3%,这是极限。在定量分析中,“绝对指标”和“相对指标”rs”主要用于分析。与人类基准相比,分析的主要结论是当前的AI智能体在执行重要的RLI项目方面能力有限。所有分析的模型中绝对性能普遍较差,其中自动化率最高的manus仅为2.5%。为了衡量不同模型之间的相对性能,研究人员使用配对比较方法计算ELO分数。发现模型之间的相对性能不断提高,排名普遍反映mga新一代切割模型更好在定性分析中,团队主要探讨了当前 AI 系统的局限性以及自动化率低的原因。在审查了大约 400 条评论后,AI 交付被拒绝的原因主要总结为以下几类: 1. 技术和 F。文件完整性问题:许多故障源于基本的技术问题,例如生成的文件损坏或为空,或者交付的文件格式错误且无法使用。 2. 交付不完整或有缺陷:人工智能经常提交不完整的作品,例如缺少关键组件、视频内容或未提供素材。 3. 质量问题:即使人工智能生成完整的交付,质量往往很差,不符合专业标准。 4. 不一致:当使用人工智能生成工具时,人工智能完成的交付物经常会显示不同文件之间的不一致。如下表2所示,为配送员不同类型问题的占比。然而,在少数项目中,人工智能交付可以匹配甚至超越人类的结果。此类项目主要关注创意领域,特别是与音频和图像相关的任务,但也包括写作和数据检索/网络爬行。此前,在《AGI定义》一文中,曾指出指出人工智能在世界知识、记忆、视听能力和其他能力方面存在缺陷,人工智能代理呈现的许多失败正是由于这些能力的缺乏。例如,AI无法在自己的工作中验证和纠正错误,尤其是在建筑、游戏开发、网页开发等需要复杂交互和视听效果验证的项目中。相比之下,人工智能模型的大多数成功案例都集中在其技能目前较老的领域。例如,Claude 4.5 Sonnet 在简单的 Web 可视化任务上比人类主机表现得更好。再比如,AI还可以利用图像生成工具来解决一些RLI营销项目。 RLI的最新研究告诉大家一个事实:人工智能还远未取代复杂的人类劳动。关于参考资料:返回搜狐查看更多