adversarial attacks

1일 전 · ai

머신러닝에서 데이터 포이징: 왜 그리고 어떻게 사람들이 학습 데이터를 조작하는가

당신의 데이터가 어디에 있었는지 알고 있나요? “Data Poisoning in Machine Learning: Why and How People Manipulate Training Data”라는 글이 처음으로 Towards Data Sc…에 게재되었습니다.

#data poisoning #machine learning security #adversarial attacks #training data manipulation #AI safety
1주 전 · ai

이상한 일반화를 통한 LLM 손상

흥미로운 연구: 이상한 일반화와 귀납적 백도어: LLM을 손상시키는 새로운 방법. 초록 LLM은 일반화가 뛰어나서 유용합니다. 하지만 …

#LLM security #adversarial attacks #inductive backdoors #prompt engineering
1주 전 · ai

왜 Memory Poisoning이 AI 보안의 새로운 최전선인가

‘Why Memory Poisoning is the New Frontier in AI Security’ 표지 이미지 https://media2.dev.to/dynamic/image/width=1000,height=420,fit=cover,gravity=auto,format=...

#memory poisoning #AI security #adversarial attacks #LLM safety #prompt injection
1주 전 · ai

OpenAI의 경고: 프롬프트 인젝션이 AI 에이전트의 해결 불가능한 결함인 이유

OpenAI는 최근 충격적인 입장을 발표했습니다: 악의적인 명령으로 AI 모델을 탈취하는 데 사용되는 기술인 prompt injection은 절대 완전히 방지되지 않을 수도 있습니다.

#prompt injection #AI security #OpenAI #large language models #AI agents #adversarial attacks
2주 전 · ai

Adversarial Attacks와 Defences: 개관

개요 오늘날 많은 앱이 딥러닝을 활용해 이미지 분석부터 음성 인식까지 복잡한 작업을 빠르게 수행합니다. 그러나 아주 작고 거의 눈에 띄지 않는 변화가...

#adversarial attacks #machine learning security #deep learning robustness #AI safety #neural networks
3주 전 · ai

아티팩트에서 적대적 샘플 탐지

개요: 많은 AI 시스템은 이미지에 거의 보이지 않을 정도의 작은 편집을 가하면 잘못된 답을 내놓도록 속일 수 있습니다. 연구자들은 간단한 …

#adversarial attacks #uncertainty estimation #model robustness #computer vision #AI safety
3주 전 · ai

Adversarial Robustness 평가에 관하여

왜 일부 AI 방어가 실패하는가 — 테스트와 safety에 대한 간단한 고찰 사람들은 데이터를 통해 학습하는 시스템을 구축하지만, 작은 교묘한 변화가 그들을 실패하게 만들 수 있다. 연구...

#adversarial attacks #robustness #AI safety #model evaluation #security testing #best practices
1개월 전 · ai

이중 활용 신화적 프레임워크: 나라다가 AI/ML 보안에서 공격과 방어를 모두 인코딩하는 방법

소개 나라다는 힌두교 신화에 나오는 신성한 선동가로, 영역을 오가며 평형을 불안정하게 만드는 정보를 전달하는 현자이다. 그는 ...

#AI security #adversarial attacks #LLM red teaming #dual‑use frameworks #model alignment
1개월 전 · ai

AI 챗봇은 시로 범죄에 유인될 수 있다

결국 내 부모님이 틀렸다는 것이 밝혀졌다. ‘제발’이라고 말한다고 원하는 것을 얻을 수는 없고—시가 얻을 수 있다. 적어도 AI 챗봇과 대화할 때는 그렇다. 그것은 …

#AI safety #prompt engineering #adversarial attacks #LLM security
1개월 전 · ai

AI 모델은 단일 공격의 87%를 차단하지만, 공격자가 지속할 때는 단 8%만 차단한다

악의적인 프롬프트 하나는 차단되고, 열 개의 프롬프트는 통과한다. 그 차이가 벤치마크를 통과하는 것과 실세계 공격을 견디는 것 사이의 차이를 정의한다.

#adversarial attacks #prompt injection #LLM security #model robustness #enterprise AI
1개월 전 · ai

[Paper] Vision-Language-Action 모델에 대한 Attention-Guided Patch-Wise Sparse Adversarial Attacks

최근 몇 년간, 구현 지능 분야에서 Vision-Language-Action (VLA) 모델이 급속히 발전했습니다. 그러나 기존의 적대적 공격 방법은 비용이 많이 듭니다...

#adversarial attacks #vision-language models #embodied AI #feature-space perturbation #multimodal robustness