[Paper] HiVLA: 시각 기반 중심의 계층적 구현 조작 시스템
엔드-투-엔드 Vision-Language-Action (VLA) 모델은 로봇 매니퓰레이션을 위한 유망한 패러다임을 제공하지만, 좁은 제어 데이터에 대해 파인튜닝을 하면 종종 …
엔드-투-엔드 Vision-Language-Action (VLA) 모델은 로봇 매니퓰레이션을 위한 유망한 패러다임을 제공하지만, 좁은 제어 데이터에 대해 파인튜닝을 하면 종종 …
LLM 추론 트레이스는 복잡한 결함을 겪는다 — *Step Internal Flaws* (논리적 오류, 환각 등)와 *Step-wise Flaws* (과도한 사고, 부족한 사고…)
Large Language Models (LLMs)가 AI 연구 에이전트에게 고립된 과학 작업을 수행할 수 있는 힘을 부여했지만, LLM과 같은 복잡하고 실제적인 워크플로우를 자동화하는 데는…
Sequential recommendation은 학계와 산업계 모두에서, 특히 전자상거래 분야에서 점점 더 두드러지고 있습니다. 주요 목표는 사용자 선호…
GUI grounding은 자연어 쿼리를 제공받아 스크린샷에서 인터페이스 요소를 위치 지정하는 작업으로, 작은 아이콘과 밀집된 레이아웃에서는 여전히 어려움을 겪는다. Test-t...
대형 언어 모델(LLMs)은 이제 매우 유창하고 인간과 같은 텍스트를 생성할 수 있습니다. 이들은 많은 응용 프로그램을 가능하게 하지만, 대규모 …
최근 연구에 따르면 (stochastic) gradient descent가 불안정성 경계 근처에서 자체 조직화되어 최적화와 발견된 솔루션 모두를 형성한다. Momentum...
언어 모델의 사후 적응은 일반적으로 parameter updates 또는 fine-tuning, parameter-efficient adaptation과 같은 입력 기반 방법을 통해 이루어집니다.
우리는 UMI-3D를 소개한다. 이는 Universal Manipulation Interface(UMI)의 다중모달 확장으로, 구현된 조작에서 견고하고 확장 가능한 데이터 수집을 위해 설계되었다. While ...
On-policy knowledge distillation (OPD)은 교사로부터 토큰 수준의 감독 하에 학생이 자신의 롤아웃에서 학습하도록 합니다. 모든 토큰 위치가 동일하게 중요한 것은 아닙니다.
우리는 Multistage Conditional Compositional Optimization (MCCO)를 불확실성 하에서 의사결정을 위한 새로운 패러다임으로 소개한다. 이 접근법은 다단계…
Semantic Multi-Object Tracking (SMOT)은 비디오 요약, 인스턴스 수준 캡션, 상호작용 라벨과 같은 의미론적 출력을 제공함으로써 다중 객체 추적을 확장합니다.
참조를 해결하고 재작성하는 것은 프로그래밍 언어에서 기본적인 작업입니다. 실제 디컴파일 작업에서 영감을 받아, 우리는 참조 재작성을 t…
Human-Object Interaction (HOI) detection은 인간과 객체 간의 상호작용을 예측하는 것을 목표로 하는 오랜 컴퓨터 비전 문제입니다. 현재…
알고리즘 기반 의사결정에서의 공정성은 종종 예측 공간에서 정의되며, 여기서 예측 성능은 의사결정자(DM) 효용의 대리 지표로 사용된다.
최근 Generative Artificial Intelligence의 발전, 특히 Large Language Models (LLMs)은 자동화 또는 지원에 대한 관심을 크게 높이고 있습니다.
현대 분산 시스템은 대량의 로그를 생성하며, 이러한 로그는 장애 진단과 같은 필수 AIOps 작업을 지원하기 위해 분석될 수 있습니다. 이는 중요한 역할을 합니다.
대규모 언어 모델(LLM)을 학습시키는 데 사용되는 코드 데이터셋에 대한 투명성 부족은 데이터 유출을 감지하고, 평가하며, 완화하기 어렵게 만든다. We pr...
구성주의 이론에 따르면, 학생들은 예제가 자신의 코드에 기반할 때 소프트웨어 보안을 더 효과적으로 학습한다. 일반적인 예제는 종종 실패한다 ...
자동화된 코드 생성은 소프트웨어 엔지니어링에서 지속적인 과제로 남아 있으며, 기존의 multi-agent frameworks는 종종 정적 planning에 의해 제한됩니다.
소프트웨어 엔지니어링 연구는 비용을 절감하고 신뢰성을 향상시키기 위해 유지보수 및 진화 프로세스의 자동화에 초점을 맞추어 왔습니다. foundation 모델의 등장…
소프트웨어 공학에서 감성 분석은 소프트웨어 아티팩트에 표현된 감정을 이해하는 데 초점을 둡니다. 이전 연구는 ...의 한계를 강조했습니다.
Deep Learning (DL)은 거의 완벽에 가까운 성능을 달성하려는 목표로 클론 탐지 분야에서 점점 더 널리 활용되고 있습니다. 특히 경우에...
Disaggregated storage systems는 storage resources를 compute resources와 분리함으로써 resource utilization을 향상시키고 storage와 compute resources의 independent scaling을 가능하게 합니다.
지속적인 외부 입력이 없는 상태에서 self-sustained neural activity는 신경계 역학의 근본적인 특징이며, 그 조건은 ...
본 연구는 단일 누수 적분‑발화(LIF) 뉴런과 학습된 스파이킹 신경망 모두에 대한 가산 노이즈와 곱셈 노이즈의 영향을 조사한다.
SAKURAONE은 SAKURA Internet Research Center에서 개발·운영하는 관리형 고성능 컴퓨팅(HPC) 클러스터입니다. 이는 KOKARYOKU PHY 기반 위에 구축되었습니다.
Brain digital twins는 뇌를 동적 시스템으로서 충실하고 개별화된 계산적 표현을 제공하여 메커니즘적 이해를 가능하게 한다.
컴퓨팅 집약적인 AI 작업의 증가는 처리 비용을 완화하고 성능 및 에너지 효율성을 향상시켜야 할 필요성을 강조합니다. 이는 …
우리는 새로운 end-to-end privacy-preserving 프레임워크를 제안한다. 이 프레임워크는 서로 다른 배포 시나리오에 맞춘 세 가지 효율적인 프로토콜로 구현되며, 입력 …
Travelling thief problem (TTP)은 두 구성 요소 간의 상호 의존성을 포착하는 잘 알려진 다중 구성 요소 최적화 문제이며, tour across…
우리는 다양한 데이터 표현을 지원하고 효율적인 sparse matrix‑vector multiplication (SpMV)을 가능하게 하는 새로운 sparse matrix 포맷인 PackSELL을 제안한다.
Open-pit mine scheduling은 불확실한 경제적 가치와 동적으로 변하는 자원 용량을 포함하는 복잡한 실제 최적화 문제입니다. Evol...
현대 GPU 워크로드, 특히 대형 언어 모델(LLM) 추론은 커널 실행 오버헤드와 거친 동기화 때문에 인터‑커널 ...
최근 비디오 생성 분야의 발전은 3D 씬 제작을 위한 새로운 패러다임을 가능하게 합니다: 씬을 탐험하는 것을 시뮬레이션하는 카메라 제어 비디오를 생성하고, 그 후…
대형 언어 모델(LLMs)과 비전-언어 모델(VLMs)은 레이아웃 및 씬 그래프와 같은 중간 구조를 통해 실내 장면을 점점 더 생성하고 있다.
Snowflake는 컴퓨트와 스토리지를 분리하는 탄력적인 아키텍처를 통해 데이터 웨어하우징에 혁신을 일으켰으며, 다양한 데이터 분석을 위한 확장 가능한 솔루션을 가능하게 합니다...
확산 모델이 시각 생성 분야를 장악하고 있지만, 이들은 계산 효율성이 낮아 확산 여부와 관계없이 균일한 계산 노력을 적용한다.
Direct Preference Optimization (DPO)의 효과는 멀티모달 작업에서 중요한 품질 차이를 반영하는 선호 데이터에 달려 있습니다. Exist...
도시 지역은 급속한 urbanization과 climate change에 의해 야기되는 thermal extremes에 점점 더 취약해지고 있습니다. 전통적으로, thermal extremes는 모니터링되어 왔습니다...
시스템 로그의 폭발적인 증가로 스트리밍 압축이 필수적이지만, 기존 로그 이상 탐지(LAD) 방법은 심각한 전처리 오버헤드를 초래한다.
Energy Conserving Descent (ECD) 알고리즘은 최근 (De Luca & Silverstein, 2022)에서 전역 비볼록 최적화 방법으로 제안되었습니다. 기존의 gradient…
Computed tomography (CT) enterography는 염증성 장질환(IBD)을 평가하기 위한 주요 영상 촬영 방법이지만, 가장 적절한 표현 선택은 …
Computer Use Agents (CUAs)는 근본적으로 그래픽 사용자 인터페이스 (GUI) grounding을 사용하여 언어 명령을 실행 가능한 화면 동작으로 변환하지만…
자율 AI 연구는 빠르게 발전했지만, 장기적인 ML 연구 엔지니어링은 여전히 어렵습니다: 에이전트는 작업 이해 전반에 걸쳐 일관된 진전을 지속해야 합니다…
AI-driven 교육 플랫폼은 개인화에서 어느 정도 진전을 이루었지만, 대부분은 정적 적응에 제한됩니다—미리 정의된 퀴즈, 균일한 속도 등.
On-policy distillation (OPD)은 대형 언어 모델의 사후 훈련에서 핵심 기술이 되었지만, 그 훈련 역학은 아직 충분히 이해되지 않는다. This...
On-policy distillation (OPD)는 대형 언어 모델을 위한 효율적인 사후 학습 패러다임으로 부상했습니다. 그러나 표준 OPD는 실시간 교사 추론을 필요로 합니다...