AI safety — Page 8

정렬:

1개월 전 · ai · - · -

AI가 자신의 마음을 들여다볼 수 있을까? Anthropic의 머신 인트로스펙션 돌파구

실험: 블랙 박스 탐색 수년간 우리는 large language models LLMs을 블랙 박스로 취급해 왔습니다. 모델이 “I am currently thinking about c...”라고 말할 때…

#AI safety #machine introspection #Anthropic #large language models #activation injection #research #LLM transparency
1개월 전 · ai · - · -

LLMs가 결국 스스로 학습하지 않을까요? 출력이 점점 감소할 겁니다..

TL;DR LLM은 문서, GitHub 저장소, StackOverflow, Reddit와 같은 자료를 학습합니다. 하지만 우리가 LLM을 계속 사용하면, 그들의 자체 출력이 이러한 플랫폼에 들어가게 됩니다...

#LLM #model degradation #data contamination #AI training data #self-referential output #AI safety
1개월 전 · ai · - · -

GPT-2를 부숴버렸다: Geometry를 이용해 Semantic Collapse를 증명한 방법 (The Ainex Limit)

TL;DR 저는 GPT‑2가 자체 출력으로부터 20세대에 걸쳐 학습하도록 강제했습니다. 20세대가 되자 모델은 의미적 볼륨의 66 %를 잃었고, 상태를 hallucinating 시작했습니다.

#GPT-2 #semantic collapse #synthetic data #language models #AI safety #model degradation #geometry analysis
1개월 전 · ai · - · -

인간에서 관찰된 LLM 문제

번역할 텍스트를 제공해 주시겠어요? 기사나 댓글에서 번역하고 싶은 구체적인 내용(발췌문 또는 요약)을 알려주시면 한국어로 번역해 드리겠습니다.

#large language models #LLM #human behavior #AI safety #cognitive biases
1개월 전 · ai · - · -

왜 Image Hallucination이 Text Hallucination보다 더 위험한가

‘Why Image Hallucination Is More Dangerous Than Text Hallucination’ 표지 이미지 https://media2.dev.to/dynamic/image/width=1000,height=420,fit=cover,gravity=au...

#image hallucination #vision-language models #AI safety #multimodal AI #generative AI
2개월 전 · ai · - · -

명시적 중지 조건을 갖춘 인간–AI 시스템을 위한 비결정 프로토콜

개요: 저는 인간–AI 시스템을 위한 비결정 프로토콜을 제안하는 기술 메모를 공유합니다. 핵심 아이디어는 간단합니다: AI 시스템은 결정을 내리지 않아야 합니다. 그들은 …

#AI safety #human-in-the-loop #explicit stop conditions #traceability #non-decision protocol
2개월 전 · ai · - · -

AI가 충분히 좋아져서 지출 한도가 필요 없을까요?

markdown “AI가 이걸 더 잘하게 되지는 않을까?” 짧은 답은 아니오. 왜 그런지 이해하는 것은 우리가 AI 안전에 대해 어떻게 생각해야 하는지에 대한 근본적인 것을 드러낸다.

#AI safety #large language models #LLM alignment #RLHF #financial AI #spending limits #LangChain #tool use #probabilistic models
2개월 전 · ai · - · -

모든 AI 비디오는 해롭다 (2025)

번역할 텍스트를 제공해 주시면 한국어로 번역해 드리겠습니다.

#generative AI #deepfakes #AI ethics #misinformation #AI safety
2개월 전 · ai · - · -

Llama Guard: LLM 기반 입력‑출력 안전장치 인간‑AI 대화

개요 Llama Guard를 만나보세요, AI와의 채팅을 모두에게 더 안전하고 명확하게 만들기 위해 구축된 간단한 도구입니다. 사람들의 질문과 AI의 답변을 살펴보고, 그리고 s...

#Llama Guard #AI safety #LLM moderation #content filtering #open-source AI #prompt-response analysis
2개월 전 · ai · - · -

AI 아첨 패닉

번역할 텍스트를 제공해 주시겠어요? 텍스트를 받으면 한국어로 번역해 드리겠습니다.

#AI alignment #LLM behavior #sycophancy #AI safety #benchmark
2개월 전 · ai · - · -

AI 아첨 공황

죄송합니다만, 제공해 주신 URL의 내용을 직접 확인할 수 없습니다. 번역을 원하는 텍스트를 여기 채팅에 직접 붙여 주시면 한국어로 번역해 드리겠습니다.

#AI safety #language model behavior #sycophancy #benchmark #research
2개월 전 · ai · - · -

Nightshade: 이미지를 모델 학습에 부적합하게 만들기

번역할 텍스트를 제공해 주시겠어요?

#image data poisoning #model training protection #AI safety #privacy #nightshade #data security

Newer posts

Older posts