AI 모델의 샌드백킹을 잡기 위해 프로브를 훈련시켰다
TL;DR: 나는 세 개의 오픈‑웨이트 모델에서 “sandbagging directions”를 추출하고, sandbagging 의도를 90‑96 % 정확도로 감지하는 linear probes를 훈련시켰다. The mo...
TL;DR: 나는 세 개의 오픈‑웨이트 모델에서 “sandbagging directions”를 추출하고, sandbagging 의도를 90‑96 % 정확도로 감지하는 linear probes를 훈련시켰다. The mo...
개요: 많은 AI 시스템은 이미지에 거의 보이지 않을 정도의 작은 편집을 가하면 잘못된 답을 내놓도록 속일 수 있습니다. 연구자들은 간단한 …
왜 일부 AI 방어가 실패하는가 — 테스트와 safety에 대한 간단한 고찰 사람들은 데이터를 통해 학습하는 시스템을 구축하지만, 작은 교묘한 변화가 그들을 실패하게 만들 수 있다. 연구...
연구자들은 Gopher라고 불리는 매우 큰 언어 시스템을 구축하여 컴퓨터가 방대한 양의 글을 읽을 때 어떤 일이 일어나는지 살펴보았습니다. 모델의 규모가 커짐에 따라, 그들은…
요약 - 연구원들은 현재 및 미래의 language model 능력을 평가하기 위해 많은 기여자들이 만든 204개의 작업을 모은 BIG-bench를 구성했습니다. -...
번역할 텍스트를 제공해 주시겠어요? 텍스트를 알려주시면 한국어로 번역해 드리겠습니다.
검증 가능한 단계별 논리로 LLM이 추론하도록 만드는 방법 파트 1 The post Understanding Vibe Proving appeared first on Towards Data Science....
MLSecOps란 무엇인가? MLSecOps는 머신러닝 전체 수명 주기 전반에 걸쳐 보안 관행을 통합하는 프레임워크로, DevSecOps가 소프트웨어 개발에 적용되는 방식과 유사합니다.
OpenAI는 강화 학습으로 훈련된 자동화된 레드 팀을 사용하여 프롬프트 인젝션 공격에 대비해 ChatGPT Atlas를 강화하고 있습니다. 이 사전적인 탐지는‑
대부분의 현재 AI safety 작업은 unsafe system을 가정하고 그 안에 더 나은 행동을 train하려고 합니다. - 더 많은 data를 추가한다. - 더 많은 constraints를 추가한다. - 더 많은 features를 추가한다.
개요: GPT‑4의 초기 버전은 이전에 인간의 노력이 필요했던 작업을 수행하기 시작하면서 빠른 관심을 끌었습니다. 이는 수학 문제를 해결하고 코드를 작성할 수 있습니다.
OpenAI는 새로운 Under‑18 원칙을 포함하도록 Model Spec를 업데이트하고 있으며, 이는 ChatGPT가 청소년에게 안전하고 연령에 맞는 지침을 제공하도록 정의합니다. 이러한 지침은 개발에 기반하여 제공됩니다.