心理测量Jailbreaks揭示前沿模型的内部冲突

文章 URL: https://arxiv.org/abs/2512.04124
评论 URL: https://news.ycombinator.com/item?id=46902855
积分: 8

发布: 3天前 (2026年2月6日 GMT+8 02:21)

1 分钟阅读

Source: Hacker News

文章详情

你是否曾经向一个 AI 语言模型提问，看到它自信满满地回答，却发现答案完全错误？欢迎来到这个世界……

随着AI系统变得更强大，Anthropic的常驻哲学家表示，这家初创公司押注Claude本身能够学习避免灾难所需的智慧……

2026年1月29日

概述本文提供了对能够保持对超出人类认知能力的系统进行控制的机制的深入分析。T...