EUNO.NEWS EUNO.NEWS
  • All (20092) +267
  • AI (3084) +13
  • DevOps (902) +7
  • Software (10334) +177
  • IT (5726) +70
  • Education (45)
  • Notice (1)
  • All (20092) +267
    • AI (3084) +13
    • DevOps (902) +7
    • Software (10334) +177
    • IT (5726) +70
    • Education (45)
  • Notice (1)
  • All (20092) +267
  • AI (3084) +13
  • DevOps (902) +7
  • Software (10334) +177
  • IT (5726) +70
  • Education (45)
  • Notice (1)
Sources Tags Search
한국어 English 中文
  • 3주 전 · ai

    AI 모델의 샌드백킹을 잡기 위해 프로브를 훈련시켰다

    TL;DR: 나는 세 개의 오픈‑웨이트 모델에서 “sandbagging directions”를 추출하고, sandbagging 의도를 90‑96 % 정확도로 감지하는 linear probes를 훈련시켰다. The mo...

    #sandbagging #model probing #linear probes #AI safety #Mistral #Gemma #evaluation gaming #model steering
  • 3주 전 · ai

    아티팩트에서 적대적 샘플 탐지

    개요: 많은 AI 시스템은 이미지에 거의 보이지 않을 정도의 작은 편집을 가하면 잘못된 답을 내놓도록 속일 수 있습니다. 연구자들은 간단한 …

    #adversarial attacks #uncertainty estimation #model robustness #computer vision #AI safety
  • 3주 전 · ai

    Adversarial Robustness 평가에 관하여

    왜 일부 AI 방어가 실패하는가 — 테스트와 safety에 대한 간단한 고찰 사람들은 데이터를 통해 학습하는 시스템을 구축하지만, 작은 교묘한 변화가 그들을 실패하게 만들 수 있다. 연구...

    #adversarial attacks #robustness #AI safety #model evaluation #security testing #best practices
  • 3주 전 · ai

    스케일링 언어 모델: 방법, 분석 및 Gopher 훈련에서 얻은 인사이트

    연구자들은 Gopher라고 불리는 매우 큰 언어 시스템을 구축하여 컴퓨터가 방대한 양의 글을 읽을 때 어떤 일이 일어나는지 살펴보았습니다. 모델의 규모가 커짐에 따라, 그들은…

    #Gopher #large language models #scaling #model bias #AI safety #reading comprehension #fact-checking
  • 3주 전 · ai

    Beyond the Imitation Game: 언어 모델의 능력 정량화 및 외삽

    요약 - 연구원들은 현재 및 미래의 language model 능력을 평가하기 위해 많은 기여자들이 만든 204개의 작업을 모은 BIG-bench를 구성했습니다. -...

    #large language models #BIG-bench #model scaling #capability evaluation #bias in AI #AI safety #emergent abilities
  • 3주 전 · ai

    실제 세계를 자율적으로 탐색하기: PG&E 정전에서 얻은 교훈

    번역할 텍스트를 제공해 주시겠어요? 텍스트를 알려주시면 한국어로 번역해 드리겠습니다.

    #autonomous vehicles #Waymo #self-driving cars #real-world navigation #PG&E outage #AI safety #robotics
  • 0개월 전 · ai

    Vibe Proving 이해하기

    검증 가능한 단계별 논리로 LLM이 추론하도록 만드는 방법 파트 1 The post Understanding Vibe Proving appeared first on Towards Data Science....

    #LLM #reasoning #verifiable logic #step-by-step reasoning #AI safety
  • 0개월 전 · ai

    MLSecOps란 무엇인가?

    MLSecOps란 무엇인가? MLSecOps는 머신러닝 전체 수명 주기 전반에 걸쳐 보안 관행을 통합하는 프레임워크로, DevSecOps가 소프트웨어 개발에 적용되는 방식과 유사합니다.

    #MLSecOps #machine learning security #AI safety #MLOps #DevSecOps #model protection
  • 0개월 전 · ai

    프롬프트 인젝션에 대비해 ChatGPT Atlas를 지속적으로 강화하기

    OpenAI는 강화 학습으로 훈련된 자동화된 레드 팀을 사용하여 프롬프트 인젝션 공격에 대비해 ChatGPT Atlas를 강화하고 있습니다. 이 사전적인 탐지는‑

    #ChatGPT #Atlas #prompt injection #reinforcement learning #red teaming #AI safety #security
  • 0개월 전 · ai

    왜 AI safety는 구조적으로 강제되어야 하고, 훈련으로는 안 되는가?

    대부분의 현재 AI safety 작업은 unsafe system을 가정하고 그 안에 더 나은 행동을 train하려고 합니다. - 더 많은 data를 추가한다. - 더 많은 constraints를 추가한다. - 더 많은 features를 추가한다.

    #AI safety #alignment #reinforcement learning #structural enforcement #machine learning #AI governance #reward hacking
  • 1개월 전 · ai

    인공 일반 지능의 불꽃: GPT-4와의 초기 실험

    개요: GPT‑4의 초기 버전은 이전에 인간의 노력이 필요했던 작업을 수행하기 시작하면서 빠른 관심을 끌었습니다. 이는 수학 문제를 해결하고 코드를 작성할 수 있습니다.

    #GPT-4 #artificial general intelligence #large language models #AI safety #emergent behavior
  • 1개월 전 · ai

    청소년 보호를 포함한 모델 사양 업데이트

    OpenAI는 새로운 Under‑18 원칙을 포함하도록 Model Spec를 업데이트하고 있으며, 이는 ChatGPT가 청소년에게 안전하고 연령에 맞는 지침을 제공하도록 정의합니다. 이러한 지침은 개발에 기반하여 제공됩니다.

    #OpenAI #Model Spec #teen protection #under-18 principles #AI safety #ChatGPT #developmental science #ethical AI

Newer posts

Older posts
EUNO.NEWS
RSS GitHub © 2026