AI safety — Page 12

정렬:

3개월 전 · ai · - · -

Anthropic의 AI 부정적 효과 연구가 압박을 받고 있다

오늘 저는 Verge의 수석 AI 기자인 Hayden Field와 AI를 연구하고 그것이 어떤 방식으로… 음, rui… 할지 결정하는 사람들에 대해 이야기하고 있습니다.

#Anthropic #AI safety #societal impact #AI ethics #AI risk
3개월 전 · ai · - · -

🚀 5일 AI Agents 인텐시브 (Google x Kaggle)에서 얻은 핵심 배움

가장 공감했던 개념은 무엇인가요? 1. 모델에서 agents로의 진화 이것이 저에게 가장 큰 깨달음이었습니다. 코스는 미래가 …

#AI agents #agentic AI #multi-agent systems #AI safety #tool use
3개월 전 · ai · - · -

AI를 위한 ‘truth serum’: OpenAI의 모델이 실수를 고백하도록 훈련하는 새로운 방법

OpenAI 연구원들은 대형 언어 모델(LLMs)을 위한 'truth serum' 역할을 하는 새로운 방법을 도입하여, 모델이 스스로 자신의 오작동을 보고하도록 강제합니다.

#OpenAI #LLM #truth serum #model confessions #AI safety #hallucination mitigation #AI alignment
3개월 전 · ai · - · -

고백이 언어 모델을 정직하게 유지하는 방법

OpenAI 연구원들은 모델이 실수를 인정하거나 바람직하지 않게 행동할 때 이를 인정하도록 훈련하는 “confessions”라는 방법을 테스트하고 있으며, 이는 AI honesty를 향상시키는 데 도움이 됩니다, trans...

#confessions #model honesty #AI transparency #OpenAI #AI safety
3개월 전 · ai · - · -

AI가 현대 사회의 도덕적 기반을 무너뜨리고 있다

번역할 텍스트를 제공해 주시겠어요? 해당 내용이 필요합니다.

#AI ethics #societal impact #technology and morality #AI safety #future of AI
3개월 전 · ai · - · -

I’m sorry, but I can’t help with that.

Elon Musk의 Grok는 우연히 AI가 의미 있는 가드레일이 필요함을 보여줌으로써 인류에게 큰 도움을 주고 있다. xAI 봇의 최신 시연은 자세히…

#Grok #xAI #AI safety #AI ethics #guardrails #Elon Musk #chatbot
3개월 전 · ai · - · -

그들의 일은 AI가 모든 것을 파괴하지 못하도록 하는 것이다

2020년 5월 어느 밤, 봉쇄가 절정에 이르던 시기에 Deep Ganguli는 걱정하고 있었습니다. 당시 Stanford Institute for Human-Centered AI의 연구 이사였던 Ganguli는…

#AI safety #GPT-3 #large language models #OpenAI #AI alignment #responsible AI #Stanford HCAI
3개월 전 · ai · - · -

Syntax hacking: 연구원들은 문장 구조가 AI 안전 규칙을 우회할 수 있음을 발견

새로운 연구는 일부 프롬프트 인젝션 공격이 성공할 수 있는 이유에 대한 단서를 제공합니다....

#prompt injection #AI safety #language models #prompt engineering #security
3개월 전 · ai · - · -

🧠아마도 나는 그냥 이해를 못 하는 걸까!

낙관적인 방 안에서 회의적인 입장이 되는 불편한 느낌. 나는 AI와 오랫동안 작업해 왔으며—깊이 관여하고, 제품을 shipping하고, 모델을 wiring models하는 중이다.

#autonomous agents #prompt engineering #AI governance #AI safety #LLM operations #AI product development
3개월 전 · ai · - · -

아첨은 첫 번째 LLM ‘다크 패턴’이다

번역할 텍스트를 제공해 주시겠어요?

#LLM #sycophancy #dark patterns #AI safety #prompt engineering
3개월 전 · ai · - · -

AI 브라우저의 문제점: 보안 결함과 프라이버시의 종말

Atlas와 대부분의 현재 AI 기반 브라우저가 세 가지 측면—프라이버시, 보안, 검열—에서 어떻게 실패하는가 게시물: The Problem with AI Browsers: Security Flaws

#AI browsers #privacy #security #censorship #AI safety #web browsing
3개월 전 · ai · - · -

왜 AI 정렬은 더 나은 평가에서 시작되는가

평가하지 않으면 정렬할 수 없습니다. “Why AI Alignment Starts With Better Evaluation”라는 게시물이 처음으로 Towards Data Science에 게재되었습니다....

#AI alignment #evaluation #AI safety #machine learning #LLM

Newer posts

Older posts