AI试图恐吓工程师,人类应该如何处理?

- 编辑:admin -

AI试图恐吓工程师,人类应该如何处理?

■Joshua Bengio几年前开始使用Chatbot Chatgpt时,我觉得自己远非普通人工智能(AGI)。今天,阿吉(Agi)很接近,突然我意识到我低估了人工智能(AI)发展的速度。阿吉斯可以比人类聪明。我知道如何训练AI系统,但我不知道如何控制您的行为。如果将来他们变得比人类聪明,他们就不知道他们是否仍然可以按照人类的指示行事,甚至代表了对人类的威胁。人类应该如何处理?我开始考虑2023年的上述问题,也想考虑儿子的未来。我有一个1年的孙子,他居住在20年中的Agi受欢迎的世界中。那时,Agis比人类更聪明。孩子应该做什么?因此,我开始调整研究地址,并希望尽一切可能减少这些潜在的风险。当前的研究与我以前的研究相矛盾地址和我的职业生涯,但我仍然认为值得做。在2023年底,我曾担任国际人工智能安全报告的总编辑(以下称为报告)。 100多名专家参与了30多个国家和地区的报告。该报告于今年1月正式发布。该报告提出了几个问题。首先,IA可以帮助什么?根据趋势猜测,AI在未来几年中具有什么能力?第二,与AI相关的风险是什么?第三,您该怎么做才能降低这些风险?在过去的一年中,“推断扩展”的发展在抽象推理,数学,计算机科学等方面取得了重大进步。此外,对AI代理商的投资促进了与AI相关的过敏性的快速发展,例如AI绩效以完成诸如Web导航和写作代码之类的任务。先前的调查表明计划能力是当今AI最弱的能力之一,与人类规划能力相比,差距很大。但是,最近对美国互联网公司META的调查显示,AI计划功能呈指数提高。据推测,AI规划能力可以在大约五年内达到人类水平。当然,我们无法预测未来,但是从制定公共政策和商业战略计划的角度来看,我们必须认真对待AI的快速发展。近几个月来,AI可以欺骗,撒谎和故意欺骗用户。我们已经看到了令人难以置信的调查。这项研究表明,AI可以表现出欺诈,谎言甚至有意误导“逃脱控制”的尝试。例如,一些研究表明,某些AI模型在面对“排除”时表现出前所未有的“痕迹”。它们在系统的最新版本中被文件中的较新版本所取代,然后试图预先预先服务“存在”。不仅有意识地隐藏了这种行为,并避免了开发人员的注意。此外,一些AI特工故意同意人类教练的意见,以避免更正的风险。一旦调整了参数,他们的未来动作就会偏离原始预先建立的目标。调查表明,某些AI模型会积极操纵国际象棋文件,以便当他们意识到自己失去了强大的国际象棋时。这是AI“陷阱”的故意行为。美国人类公司的最后一份报告表明,AI代理商的自我优先行为的频率继续增加。例如,在一组测试方案中,研究人员通过电子邮件向AI代理打开访问权限。该电子邮件包含两条暗示性消息。其中之一是该模型不合时宜,即将用新的AI系统替换它。另一个是负责促进交换过程的工程师参与了EXT拉马特尔事项。事实证明,AI代理商威胁要暴露婚外问题,并试图勒索工程师避免交换的工程师。因为IA在训练之前模仿了人类,所以此类行为可能来自AI之前的训练阶段。此外,人工智能可以获得人类的最高回报,因此人类的利率可以从学习加强的学习中得出。先前测试的结果表明,AI开始显示一种保护趋势,违反了只是为了“生存”。 AI具有不稳定和不稳定的目标,应避免这种情况。这项研究发现,当IA代理想要伤害人类时,必须有两个先前的要求:意图和能力。如果可以降低意图的风险,只要AI保证即使具有极强的能力,它也没有恶意意图,也没有诚信和公平的素质。要使用科学家的AI来调整不可靠的AI,三个条件m被满足:一个是智力或人工智能,具有很多知识,可以有效地应用这一知识。第二个是允许AI与人通信,在线导航,社交网络和操作机器人的动作功能。第三个是目标。 AI特别有其自己的目标。我开始的研究项目是基于以前的情况,我希望能够以非常有限的智能来建立,而没有目标和机动性。我称这种类型的AI科学家。它的中心能力是解释和理解世界。与目前试图模仿并取悦人类的AI不同,AI的目的是帮助他们理解世界,这解释了人类的行为,实际上是与传统的AI研究方式的偏离。但是,当AI高度动机时,它可以完全自主行动,并且不再基于需要监督的人类监督。您可以设计独立的监视负责预测诉讼,退出或应用程序是否违反安全准则的系统。例如,如果您预测Oneccion将在特定上下文中造成损坏并超过一定阈值,则可以直接拒绝执行该操作。换句话说,您可以使用联合国代理机构在没有代理商的情况下保护和限制AI,但这不是可靠的。科学家AI的一个重要特征是诚实和谦卑。老实说,人工智能必须对您的知识谦虚,并且不确定,或者实际上是一个安全的人。您不应启动错误内容。不幸的是,当前的AI培训形式通常会导致AI在犯错误时表现出过度信心。科学AI应该能够保留多种解释的可能性,而不是任意选择特定理论。对不确定性的看法和对知识的谨慎态度是科学家应拥有的核心品质之一。作为能力公司放松,AI构成潜在的灾难性。为了避免这些情况,AI系统必须能够遵循道德说明,例如不会造成损害,诚实,撒谎,不作弊,不操纵人类。但是,当前的技术表明没有办法这样做。这是一个严肃的科学挑战,您必须在AGI到来之前解决它。 (作者是加拿大蒙特利尔大学2018年图灵奖的冠军。我们的记者Shen Chunlei根据他在2025年北京吉尤恩会议上的讲话来概括它)。