[Paper] SafetyALFRED: 멀티모달 대형 언어 모델의 안전 중심 계획 평가
Multimodal Large Language Models는 인터랙티브 환경에서 자율 에이전트로 점점 더 많이 채택되고 있지만, 안전 위험을 사전에 해결하는 능력은 …
4454 posts from this source
Multimodal Large Language Models는 인터랙티브 환경에서 자율 에이전트로 점점 더 많이 채택되고 있지만, 안전 위험을 사전에 해결하는 능력은 …
Free-association norms는 인지 과학에서 언어적, 의미적, 문화적 현상을 조사하기 위한 필수적인 실증 데이터를 제공합니다. 비록 대규모…
Automated theorem proving은 형식 방법의 기본이며, 최근 추세는 대형 언어 모델(LLMs)과 proof assistants를 통합하여 효율적인 …
교차 사이트 스크립팅(Cross-site scripting, XSS)은 특히 난독화가 악성 페이로드의 표면 형태를 변경할 수 있기 때문에 지속적인 웹 보안 취약점으로 남아 있습니다…
Mixture-of-Experts (MoE) 아키텍처는 현대 대형 언어 모델 및 멀티모달 모델에서 널리 사용됩니다. 그러나 추론 효율성은 종종 …에 의해 제한됩니다.
현대 분산 파일 시스템은 클러스터 전체에 핫 데이터를 로컬에 복제하는 비조정된 노드별 페이지 캐시에 의존합니다. 이는 빠른 로컬 액세스를 보장하면서…
본 논문에서는 계층적 방식으로 작동하는 self-stabilizing algorithms를 사용하여 거시적 수준에서 intellectual property 위험을 판단하는 방법을 검토한다....
추론 검증기가 성숙해짐에 따라, 그 잠재 사용자 기반은 초기 핵심 개발자에서 다른 사용자들로 확대되고 있습니다. 외부 사용자에게 적합성을 설득하기 위해…
최근 연구는 진화적 및 에이전트 최적화 시스템 내에서 대규모 언어 모델(LLM)을 조정하는 것의 가능성을 보여주었습니다. 그러나, 메커...
Pre-trained machine learning models (PTMs)는 일반적으로 Model Hubs(예: Hugging Face)를 통해 Pickles와 같은 표준 형식으로 제공되어 접근성을 용이하게 합니다.
Federated learning (FL)은 분산된 데이터 소스 간의 분산 모델 학습을 위한 핵심 패러다임입니다. 각 FL 라운드에서의 통신은 일반적으로 …
이 논문은 주관적인 이해관계자 맥락과 공식적인 시스템 아키텍처 사이의 격차를 메우는 프레임워크를 제시한다. 이는 Soft Systems Methodology를 사용하여 달성된다.
그린 소프트웨어 엔지니어링은 특히 지속적인 개발에서 정보 기술의 증가하는 에너지 영향을 대응하기 위한 중요한 방안으로 부상하고 있습니다. 그러나, ...
Mobile Crowd Computing (MCdC)은 소비자 스마트폰의 유휴 계산 용량을 활용하여 대규모 분산 작업 처리를 가능하게 합니다; 그러나, widespr...
멤리스티브 디바이스는 메모리와 연산을 단일 물리적 기판 내에서 결합함으로써 차세대 정보 처리에 유망한 기반을 제시합니다.
Particle-in-Cell (PIC) 시뮬레이션은 플라즈마 물리학에 기본적이지만, 입자‑격자 상호작용 병목 현상으로 인해 확장성이 제한되는 경우가 많다...
대형 언어 모델(LLMs)이 보이는 순응 편향은 LLM 기반 다중 에이전트 시스템(LLM-MAS)에서 의사결정에 상당한 도전을 제기할 수 있습니다. Wh...
Matrix-multiply-accumulate (MMA) 유닛, 또는 텐서 코어는 현재 현대 컴퓨팅 아키텍처 전반에 널리 퍼져 있습니다. 그러나 입자‑그리드 연산에 대한 그들의 사용은 …
수학 문제 해결은 대형 언어 모델 및 멀티모달 모델에게 여전히 추론을 테스트하는 어려운 과제이며, 기존 벤치마크는 규모와 언어 면에서 제한적이다.
포토리얼리스틱하고 애니메이션이 가능한 전체 몸 디지털 휴먼을 구축하는 것은 컴퓨터 그래픽스와 비전 분야에서 오랫동안 지속된 도전 과제입니다. 최근 애니메이션이 가능한 아바타에 대한 진전이...
현대 시퀀스 모델은 Transformer가 지배하고 있으며, self‑attention은 입력에 따라 가시적인 컨텍스트의 정보를 혼합합니다. 그러나, when r...
Story Visualization은 텍스트 내러티브를 충실히 묘사하는 이미지 시퀀스를 생성하는 것을 목표로 하며, 캐릭터 정체성, 공간 구성, …
대형 언어 모델은 검증 가능한 보상을 활용한 강화 학습(RLVR)을 통해 의미 있는 추론 향상을 달성했습니다. 그러나 모델 능력이 ...
최근의 진전에도 불구하고, vision-language encoders는 두 가지 핵심 제한점으로 어려움을 겪고 있다: (1) 언어와 dense vision features 사이의 약한 정렬, 이는 ...
본 연구에서는 활성 순차 예측 기반 평균 추정 문제를 다시 살펴보며, 각 라운드마다 g의 쿼리 확률을 결정해야 합니다.
대형 언어 모델은 생성 중에 회복할 수 없는 추론 오류를 자주 저지릅니다: 일단 잘못된 단계가 발생하면, 이후 토큰들이 그 실수를 더욱 복합시킵니다…
비디오 월드 모델은 사용자나 에이전트의 행동에 대한 환경 역학을 시뮬레이션하는 데 놀라운 성공을 거두었습니다. 이들은 action‑c...
최근 연구(Kuribayashi et al., 2025)는 일반적으로 syntactically unchallenging constructions에서 측정되는 인간의 sentence processing behavior가 …
Controllable cooperative humanoid manipulation은 데이터 부족이 심하고 복잡성 때문에 구현된 지능에 있어 근본적이면서도 도전적인 문제이다, ...
Weight quantization은 효율적인 LLM 배포를 위한 표준 도구가 되었으며, 특히 로컬 인퍼런스에서 모델이 이제 2‑3비트 수준으로 일상적으로 제공됩니다.
Privacy policies는 사용자가 소프트웨어 시스템이 데이터를 수집하고 처리하는 방식을 알도록 하기 위해 만들어졌지만, 종종 모호하거나 불완전하게 남아 있다. 이 paper는…
모델 출력 검증은 대형 언어 모델(LLMs)의 훈련 및 실제 배포 모두에서 핵심 기본 요소로 급속히 부상하고 있습니다. 실제로, t...
클로와 같은 에이전트를 training 및 evaluating 하기 위한 환경을 구축하는 것은 여전히 수동적이고 인간 중심적인 과정으로, 규모를 확장할 수 없습니다. 우리는 필요하다고 주장합니다.
이 논문은 경험적 대화 흐름 통계가 다음 대화 행위 예측(NDAP)에 어떻게 통합될 수 있는지를 연구한다. KL 정규화 항이 제안된다…
주제 기반 텍스트‑이미지 합성의 급속한 발전, 특히 DreamBooth는 동의 없이 딥페이크 파이프라인을 가능하게 했습니다: 공격자는 단지…
현대의 LLM은 수천에서 수백만 토큰을 지원함에 따라 KV 캐시가 수백 기가바이트까지 증가하여 메모리 용량과 대역폭에 부담을 줍니다. 기존 솔루션은 …
정적 코드 분석(Static code analysis, SCA) 도구는 소프트웨어 시스템에서 버그와 취약점을 감지하는 효과적인 방법으로 널리 사용됩니다. 그러나 이러한 도구가 생성하는 보고서는 ...
Uniform Discrete Diffusion Model (UDM)은 최근 discrete generative modeling을 위한 유망한 패러다임으로 부상했지만, reinforcement …
Large language models (LLMs)은 추론 시 외부 지식을 통합하기 위해 retrieval-augmented generation (RAG)에서 널리 사용됩니다. 그러나, retrieve…
그래프 기반 코드 인덱싱은 키워드 검색과 …보다 호출 체인(call chains) 및 종속 관계(dependency relationships)를 보존함으로써 LLM 기반 코드 에이전트(LLM-based code agents)의 컨텍스트 검색을 개선할 수 있습니다.
게임 개발은 창의적인 디자인과 복잡한 소프트웨어 엔지니어링이 교차하는 지점에 위치하며, 게임 엔진과 실시간 로...
Molecular biology는 다양한 기능을 수행하기 위해 맞물리는 방식으로 협력하는 수많은 단백질 복합체를 특징으로 합니다. Adaptive evolution은 ...
Continuous Integration and Deployment (CI/CD) 워크플로우는 현대 소프트웨어 전달의 핵심이며, 이러한 워크플로우 내에서 작동하는 에이전시 AI 봇의 신뢰성은 ...
최근 코드 지향 대형 언어 모델(LLMs)은 자연어를 실행 가능한 코드로 변환하는 강력한 능력을 보여주었습니다. Text-to-SQL은 ...
안전-critical 시스템의 초기 단계 사양은 일반적으로 자연어로 표현되어, 적절한 formal properties를 도출하기 어렵게 만든다…
Large language models는 엔드투엔드 웹 코딩이 가능한 interactive coding agents로 빠르게 진화하고 있지만, 기존 benchmarks는 좁은 부분만 평가한다 ...
블랙박스 최적화에서 핵심 질문은 주어진, 이전에 보지 못한 문제를 해결하기 위해 어떤 알고리즘을 사용할 것인가이다. 그러나 단일 알고리즘을 선택하는 것은…
우리는 다목적 최적화에서 파레토 프런트에 대한 유한 근사 집합을 위한 새로운 단항(unary)이며 엄격히 파레토‑컴플라이언트한 품질 지표로서 magnitude를 조사한다.