EUNO.NEWS EUNO.NEWS
  • All (11333) +233
  • AI (1865) +18
  • DevOps (550) +2
  • Software (5703) +169
  • IT (3187) +44
  • Education (27)
  • Notice (1)
  • All (11333) +233
    • AI (1865) +18
    • DevOps (550) +2
    • Software (5703) +169
    • IT (3187) +44
    • Education (27)
  • Notice (1)
  • All (11333) +233
  • AI (1865) +18
  • DevOps (550) +2
  • Software (5703) +169
  • IT (3187) +44
  • Education (27)
  • Notice (1)
Sources Tags Search
한국어 English 中文
  • 2시간 전 · ai

    AI 모델의 샌드백킹을 잡기 위해 프로브를 훈련시켰다

    TL;DR: 나는 세 개의 오픈‑웨이트 모델에서 “sandbagging directions”를 추출하고, sandbagging 의도를 90‑96 % 정확도로 감지하는 linear probes를 훈련시켰다. The mo...

    #sandbagging #model probing #linear probes #AI safety #Mistral #Gemma #evaluation gaming #model steering
EUNO.NEWS
RSS GitHub © 2025