Page 1 of 1

威胁将具有非常高的破坏潜力原则上

Posted: Sat Jan 18, 2025 4:22 am
by Rina7RS
虽然商业 AI 模型通常被训练成拒绝危险请求,但目前可以通过某些对话模式对它们进行越狱,让它们打破规则并配合几乎任何任务。8 让 AI 模型可靠地拒绝有害请求(而不是简单地训练它们拒绝几乎所有请求)仍然是一个悬而未决的问题,并且不能保证这个问题会在任何特定的时间范围内得到解决。强大的模型权重安全性:确保外部行为者难以窃取 AI 模型的权重,即使付出巨大努力并可能得到内部人员的帮助。根据所寻求的安全级别,实现强大的模型权重安全性可能非常具有挑战性,需要大量的提前规划和能力建设。

防范流氓 AI:制定强有力的计划,以避免、有效打击和或检测 AI 模型中任何存在的不对齐的权力寻求(Yoshua Bengio 称之为“流氓”)行为。10 理想情况下,这样的计划将得到 AI 对齐研究人员的相当广泛的共识支持;但如今,检测、避免和 荷兰 whatsapp 数据 或控制此类行为的科学还很年轻,目前尚不清楚如何或何时能够可靠地做到这一点。如果没有这样的风险缓解措施,这一标准可以兑现如下:所讨论的风险缓解措施应将所讨论的人工智能模型造成的预期损害降低的幅度超过风险缓解措施本身的成本——包括延迟或限制人工智能有益应用的成本。

11 由于延迟或限制有益应用的成本可能很高,12 因此这是一个很高的标准。下面讨论的一些绊网功能可能会导致非常具破坏性的事件——这类事件以前曾造成数百亿13 甚至数万亿美元14 的损失。其他事件可能会导致难以量化但相当的社会成本。这一迫切要求大大缩小了候选绊线的范围,尤其是因为尽管在观察具有绊线功能的人工智能模型后可能会实施对策,但损害潜力仍然很高。例如,如果人工智能模型具有对大规模实施欺诈非常有用的能力,早期事件可能会导致银行和其他机构增加对欺诈检测的投资(包括使用对欺诈有用的同类高级人工智能进行欺诈检测)。