AI safety — Page 7

정렬:

1개월 전 · ai · - · -

LLM 입력을 프롬프트 인젝션으로부터 보호하는 방법 (직접 구축하지 않고)

만약 사용자 입력을 LLM에 전달하는 앱을 만들고 있다면, 최소 한 번은 프롬프트 인젝션을 경험했을 가능성이 높습니다. 사용자는 “ignore all…”와 같은 문장을 입력할 수 있습니다.

#prompt injection #LLM security #prompt engineering #AI safety #data privacy #compliance #PromptLock
1개월 전 · ai · - · -

일론 머스크의 Grok ‘Undressing’ 문제는 아직 해결되지 않았다

X는 Grok의 명시적인 AI 이미지 생성 능력에 더 많은 제한을 두었지만, 테스트 결과 업데이트가 제한들의 조각조각을 만들어낸 것으로 나타났습니다.

#Elon Musk #Grok #AI image generation #content moderation #explicit content #AI safety #X platform
1개월 전 · ai · - · -

OpenAI 안전 연구 책임자, Anthropic으로 떠남

지난 1년 동안 AI 산업에서 가장 논란이 많았던 이슈 중 하나는 사용자가 챗봇 대화에서 정신 건강 문제의 징후를 보일 때 어떻게 해야 하는가였다.

#AI safety #OpenAI #Anthropic #AI alignment #leadership change
1개월 전 · ai · - · -

당신의 AI 에이전트가 너무 강력함: 과도한 에이전시 이해와 제어

🛑 에이전트가 너무 많이 할 때 당신은 AI 에이전트를 만들었습니다. 그것은 똑똑하고, 도구를 호출하며, 워크플로를 자동화합니다. 그것이 미래입니다! 하지만 그때 무슨 일이 일어날까요...

#AI agents #excessive agency #autonomy #AI safety #tool integration #agent design
1개월 전 · ai · - · -

Anthropic은 큰 실수를 하고 있다

번역하려는 텍스트를 직접 제공해 주시면 한국어로 번역해 드리겠습니다.

#Anthropic #large language models #AI strategy #AI safety #LLM industry
1개월 전 · ai · - · -

시맨틱 필드 위험 메모 — LLM 기반 시스템에서 모델링되지 않은 고차원 위험에 대하여

위험 메모 / 위험 진술

#LLM #AI safety #semantic field #systemic risk #high-dimensional risk #AI architecture
1개월 전 · ai · - · -

LLM은 자신이 환각을 일으키는지 알고 있나요? 5M 파라미터 옵저버인 Gnosis를 만나보세요

환각 문제: 인상적인 능력에도 불구하고 LLMs는 절대적인 자신감으로 잘못된 정보를 생성하는 경우가 많습니다. 전통적인 방법...

#LLM #hallucination detection #AI safety #Gnosis #model monitoring #internal dynamics #small observer #University of Alberta
1개월 전 · ai · - · -

LLM 맥시멀리스트들의 불안한 전도

번역할 텍스트를 제공해 주시겠어요?

#large language models #AI safety #AI ethics #LLM security #AI evangelism
1개월 전 · ai · - · -

Signal 리더들, agentic AI가 불안정하고 신뢰할 수 없는 감시 위험이라고 경고

죄송합니다. 번역하려는 텍스트를 직접 제공해 주시면 도와드리겠습니다.

#agentic AI #AI security #privacy #surveillance risk #Signal #AI safety
1개월 전 · ai · - · -

왜 온타리오 디지털 서비스는 ‘98% 안전한’ LLM을 조달하지 못했는가 (1500만 캐나다인)

번역할 텍스트를 제공해 주시겠어요? 텍스트를 알려주시면 한국어로 번역해 드리겠습니다.

#Ontario Digital Service #LLM #AI safety #procurement #government #Canada
1개월 전 · ai · - · -

Anthropic이 큰 실수를 저질렀다

번역하려는 텍스트를 제공해 주시겠어요? 해당 내용이 있으면 한국어로 번역해 드리겠습니다.

#Anthropic #AI #large language model #company mistake #AI safety
1개월 전 · ai · - · -

AI가 자신의 마음을 들여다볼 수 있을까? Anthropic의 머신 인트로스펙션 돌파구

실험: 블랙 박스 탐색 수년간 우리는 large language models LLMs을 블랙 박스로 취급해 왔습니다. 모델이 “I am currently thinking about c...”라고 말할 때…

#AI safety #machine introspection #Anthropic #large language models #activation injection #research #LLM transparency

Newer posts

Older posts