Anthropic의 AI 부정적 효과 연구가 압박을 받고 있다
오늘 저는 Verge의 수석 AI 기자인 Hayden Field와 AI를 연구하고 그것이 어떤 방식으로… 음, rui… 할지 결정하는 사람들에 대해 이야기하고 있습니다.
오늘 저는 Verge의 수석 AI 기자인 Hayden Field와 AI를 연구하고 그것이 어떤 방식으로… 음, rui… 할지 결정하는 사람들에 대해 이야기하고 있습니다.
가장 공감했던 개념은 무엇인가요? 1. 모델에서 agents로의 진화 이것이 저에게 가장 큰 깨달음이었습니다. 코스는 미래가 …
OpenAI 연구원들은 대형 언어 모델(LLMs)을 위한 'truth serum' 역할을 하는 새로운 방법을 도입하여, 모델이 스스로 자신의 오작동을 보고하도록 강제합니다.
OpenAI 연구원들은 모델이 실수를 인정하거나 바람직하지 않게 행동할 때 이를 인정하도록 훈련하는 “confessions”라는 방법을 테스트하고 있으며, 이는 AI honesty를 향상시키는 데 도움이 됩니다, trans...
번역할 텍스트를 제공해 주시겠어요? 해당 내용이 필요합니다.
Elon Musk의 Grok는 우연히 AI가 의미 있는 가드레일이 필요함을 보여줌으로써 인류에게 큰 도움을 주고 있다. xAI 봇의 최신 시연은 자세히…
2020년 5월 어느 밤, 봉쇄가 절정에 이르던 시기에 Deep Ganguli는 걱정하고 있었습니다. 당시 Stanford Institute for Human-Centered AI의 연구 이사였던 Ganguli는…
새로운 연구는 일부 프롬프트 인젝션 공격이 성공할 수 있는 이유에 대한 단서를 제공합니다....
낙관적인 방 안에서 회의적인 입장이 되는 불편한 느낌. 나는 AI와 오랫동안 작업해 왔으며—깊이 관여하고, 제품을 shipping하고, 모델을 wiring models하는 중이다.
번역할 텍스트를 제공해 주시겠어요?
Atlas와 대부분의 현재 AI 기반 브라우저가 세 가지 측면—프라이버시, 보안, 검열—에서 어떻게 실패하는가 게시물: The Problem with AI Browsers: Security Flaws
평가하지 않으면 정렬할 수 없습니다. “Why AI Alignment Starts With Better Evaluation”라는 게시물이 처음으로 Towards Data Science에 게재되었습니다....