[Paper] 행동하거나 거부할 시점 학습: 안전한 다단계 도구 사용을 위한 Agentic Reasoning Models 보호
Agentic language models는 chat models와 근본적으로 다른 안전 체제에서 작동한다: 이들은 계획을 세우고, tools를 호출하며, long‑horizon actions를 실행해야 한다...
Agentic language models는 chat models와 근본적으로 다른 안전 체제에서 작동한다: 이들은 계획을 세우고, tools를 호출하며, long‑horizon actions를 실행해야 한다...
CDD, 또는 Contamination Detection via output Distribution는 모델이 샘플링한 출력의 피크 정도를 측정하여 데이터 오염을 식별합니다. 우리는 co...
Omni-modal large language models (omni LLMs)는 최근 시청각 이해 작업 전반에 걸쳐 강력한 성능을 달성했지만, 여전히 높은 취약성을 보인다.
자동화된 산업 최적화 모델링은 자연어 요구사항을 솔버 실행 코드로 신뢰성 있게 변환해야 합니다. 그러나 대형 언어 모델은…
소프트웨어 시스템은 빈번한 코드 변경을 통해 지속적으로 진화하지만, 이러한 변경은 광범위한 테스트와 코드 리뷰에도 불구하고 종종 의도치 않은 버그를 초래합니다.
Serverless computing과 stream processing은 이벤트 기반 데이터 처리의 두 가지 주요 패러다임을 나타내지만, 두 경우 모두 비효율적으로 만드는 가정을 가지고 있습니다…
엔터프라이즈 엔지니어링 조직은 버전 관리 시스템, CI/CD 파이프라인, 이슈 트래커 및 관측성 등에서 대용량의 이질적인 텔레메트리를 생성합니다.
도구는 우리의 사고를 형성합니다. 그래서 개발자가 필요에 맞게 조정할 수 있도록 extensible하고 flexible한 도구를 갖는 것이 중요합니다. 프로그램에 대한 추론은 …
우리는 두 솔버의 겹치는 메쉬 영역에서 solution data를 보간하기 위한 scalable algorithm의 적용을 설명한다. 이 feature는 ...에 필수적이다.
대규모 언어 모델(Large Language Models)은 소프트웨어 엔지니어링 분야에서 빠르게 주목받고 있지만, 이들의 증가하는 탄소 발자국은 시급한 지속 가능성 문제를 제기합니다. While tr...
Self-Admitted Technical Debt (SATD)는 개발자가 코드 주석, 커밋 등 자연어 아티팩트에 명시적으로 인정한 기술적 타협을 의미한다.
Parameter-Efficient Fine-Tuning (PEFT)은 데이터 센터에서 대형 언어 모델(LLM) 맞춤화를 위한 파인튜닝 API의 백엔드로 널리 적용되고 있다. 서비스…