· ai · - · -
我构建了一个使用 NumPy 在运行时对 LLMs 进行教练的反馈回路
大多数针对 LLM 的护栏系统就像酒吧的保镖:它们在门口检查每个请求,决定通过或拒绝,然后就把它忘掉。我想要……
大多数针对 LLM 的护栏系统就像酒吧的保镖:它们在门口检查每个请求,决定通过或拒绝,然后就把它忘掉。我想要……
报告摘要:一位匿名读者分享了一份报告:一名 Anthropic 安全研究员辞职,称“世界正处于危险之中”,部分原因是 AI 的进步。来源 https://...
2026年1月29日
大型语言模型(LLMs)中的错位指的是未能同时满足安全、价值和文化维度的要求,导致模型产生偏离预期的行为。
概述:Waymo 正在更接近在田纳西州纳什维尔向公众提供机器人出租车服务。该公司宣布计划将其 robotaxi 引入纳什维尔……
2026年1月29日
机器人手臂在抓取过程中停在了中途。电机嗡嗡作响。Vision model 自信。Plan graph 完好无损。但它仍然犹豫,像紧张的手一样颤抖……
2026年1月29日
概述 本文提供了对能够保持对超出人类认知能力的系统进行控制的机制的深入分析。T...
你是否曾经向一个 AI 语言模型提问,看到它自信满满地回答,却发现答案完全错误?欢迎来到这个世界……
ChatGPT 在点名你吗?作者:Timothy Beck Werth https://mashable.com/author/timothy-beck-werth !Timothy Beck Werth 的头像,一位英俊的记者,拥有…
我写了一篇简短的立场论文,论证当前的 agentic AI 安全失误是重复出现的 confused deputy problem。我们正在向代理授予 ambient authority……