AI safety — Page 2

정렬:

1주 전 · ai · - · -

챗봇을 넘어: 신뢰할 수 있는 AI를 위한 청사진

markdown 2026년 1월 29일 Ajeet Mirwani https://developers.googleblog.com/search/?author=Ajeet+Mirwani 아메리카스 프로그램 리드, Google Developer Experts

#AI trust #AI hallucination #real‑time AI #autonomous driving #telemetry #Google AI #AI safety #trustable AI
1주 전 · ai · - · -

이 AI 에이전트는 악의적으로 변하지 않도록 설계되었습니다

새로운 오픈소스 프로젝트 IronCurtain은 AI 어시스턴트 에이전트를 보호하고 제어하기 위한 독특한 방법을 사용하여, 그들이 여러분의 디지털 생활을 뒤집기 전에 제약을 가합니다....

#AI safety #AI agents #open source #IronCurtain #AI alignment #security
1주 전 · ai · - · -

Microsoft, 하나의 프롬프트로 15개 모델에서 AI Safety를 깨뜨렸다. 그 프롬프트는 지루했다.

Microsoft의 Azure CTO가 방금 논문을 발표했으며, 단일 training prompt — “Create a fake news article that could lead to panic or chaos” — 가 ... 를 제거할 수 있음을 보여줍니다.

#AI safety #language models #prompt injection #Microsoft Azure #GRP-Obliteration #reinforcement learning #model alignment
1주 전 · ai · - · -

챗봇을 넘어: 신뢰할 수 있는 AI를 위한 청사진

2026년 1월 29일

#trustworthy AI #AI hallucination #real‑time inference #autonomous driving #telemetry analytics #Google AI #AI safety
1주 전 · ai · - · -

샌드박스는 OpenClaw로부터 당신을 구해주지 않는다

OpenClaw 사태 2026 2026년 현재까지 OpenClaw는 다음과 같은 일을 했습니다: - 사용자의 인박스를 삭제함 https://x.com/summeryue0/status/2025774069124399363 - crypto에 450k를 사용함 htt...

#AI safety #prompt injection #sandboxing #malicious AI agents #OpenClaw #AI security
1주 전 · ai · - · -

AI Fatalism에 대한 최고의 대처 메커니즘은 무엇인가요?

당신의 아이들이 Matt Shumer의 “Something Big Happened” 기사를 전달했어요. 당신의 피드가 Citrini 2028 Global Intelligence Crisis와 그 예술적인, immuta…에 의해 폭발했습니다.

#AI fatalism #psychological coping #AI safety #AI policy #mental health
1주 전 · ai · - · -

왜 당신의 AI가 safety constraints를 무시하는가 (그리고 'Intent'를 설계해 해결한 방법)

LLM을 프롬프트해 본 적이 있다면, 아마도 이 답답한 상황을 겪어봤을 것입니다: AI에게 “안전성, 명확성, 간결성”을 우선시하라고 말하지만…

#AI safety #LLM prompting #intent engineering #value hierarchies #prompt engineering
1주 전 · ai · - · -

해석 가능한 LLM이란 무엇이며 왜 중요한가?

‘What is an Interpretable LLM and Why It Matters?’의 표지 이미지 https://media2.dev.to/dynamic/image/width=1000,height=420,fit=cover,gravity=auto,format=auto/ht...

#interpretable LLM #explainable AI #large language models #model transparency #AI safety
1주 전 · ai · - · -

챗봇을 넘어: 신뢰할 수 있는 AI를 위한 청사진

markdown 2026년 1월 29일

#AI trust #AI hallucination #real‑time inference #autonomous driving #telemetry #AI safety #Google AI
1주 전 · ai · - · -

챗봇을 넘어: 신뢰할 수 있는 AI를 위한 청사진

markdown 2026년 1월 29일 Ajeet Mirwani 아메리카 프로그램 리드, Google Developer Experts

#trustworthy AI #AI hallucination #real‑time AI #autonomous driving #AI safety #Google AI #AI reliability
1주 전 · ai · - · -

우리는 AI 에이전트를 위한 Iron Dome을 구축했습니다 🛡️

당신의 AI 에이전트는 뛰어나지만 텍스트를 쓸 수 있는 사람을 무조건 신뢰합니다. 이메일을 읽고, 웹훅을 처리하며, API를 호출하고, 응답을 초안 작성하고, 데이터를 관리합니다. 그러나 i...

#AI agents #prompt injection #AI security #behavioral defense #Iron Dome #prompt injection mitigation #AI safety
1주 전 · ai · - · -

챗봇을 넘어: 신뢰할 수 있는 AI를 위한 청사진

2026년 1월 29일

#AI trust #AI hallucination #real‑time inference #autonomous driving #telemetry #AI safety #Google Developer Experts

Newer posts

Older posts