[Paper] Visual-ERM: 시각적 동등성을 위한 보상 모델링
Vision-to-code 작업은 모델이 차트, 테이블, SVG와 같은 구조화된 시각 입력을 실행 가능한 또는 구조화된 표현으로 재구성하도록 요구합니다.
4526 posts from this source
Vision-to-code 작업은 모델이 차트, 테이블, SVG와 같은 구조화된 시각 입력을 실행 가능한 또는 구조화된 표현으로 재구성하도록 요구합니다.
세계에서 물이 쏟아지거나 얼음이 녹는 것과 같은 변화는 관찰 여부와 관계없이 일어납니다. Video world models는 2D 프레임 관찰을 통해 ‘worlds’를 생성합니다.
코드용 대규모 언어 모델은 다양한 소프트웨어 분석 작업에서 강력한 성능을 달성했지만, 실제 적용은 높은 비용 때문에 제한적이다.
Instruction Tuning (IT)은 대형 언어 모델(LLMs)의 강력한 능력을 활용하는 효과적인 접근법으로 입증되었습니다. 최근 연구에 따르면…
대규모 언어 모델(LLM)은 AI 에이전트를 계산 재료 과학의 숙련된 실행자로 변모시켰으며, 수백 개의 시뮬레이션을 수행하는…
Large Language Models (LLMs)은 다중 에이전트 집단에서 협력 행동을 변화시키는 설득력 있는 영향 전략을 생성할 수 있지만, 중요한 질문은 …
이전 접근 방식들은 멤버십 프라이버시 보존을 위해 일반적으로 신경망의 모든 가중치를 업데이트하거나 재학습하는데, 이는 비용이 많이 들고 불필요한 활용을 초래할 수 있다.
Spatio-temporal scene graphs는 진화하는 객체 상호작용을 모델링하기 위한 원칙적인 표현을 제공하지만, 기존 방법들은 근본적으로 프레임 중심…
뇌종양 분류는 자기공명영상(MRI)으로부터 이루어지며, 이는 컴퓨터 지원 진단 시스템에서 중요한 역할을 합니다. 최근…
행렬 곱셈 성능은 오랫동안 딥러닝 워크로드 확장의 주요 병목 현상이었으며, 이는 새로운 가속기 설계에 자극을 주었다…
현대 인간-로봇 협업(HRC) 애플리케이션에서는, 여러 perception modules가 시각, 청각 및 맥락 단서를 공동으로 추출하여 이해를 달성한다...
Large Language Models (LLMs)은 의사결정 지원, 과학적 문제 해결, 그리고 다중 에이전트 협조 시스템에서 점점 자율 추론 에이전트로 활용되고 있습니다.
Concept Bottleneck Models (CBMs)은 예측을 인간이 해석할 수 있는 개념 층을 통해 전달하는 해석 가능한 모델이다. 시각 분야에서 널리 연구되어 왔지만…
Diffusion 기반 이미지 압축은 최근 뛰어난 지각적 충실도를 보여주었지만, 그 실용성은 금지적인 샘플링 오버헤드와 높은…
전통적인 lock-free 병렬 알고리즘은 최단 경로, 안정 매칭, 작업 스케줄링과 같은 조합 최적화 문제에 대해 프로그램...
Face de-identification (FDeID)은 얼굴 이미지에서 개인 식별 정보를 제거하면서 작업에 관련된 유용성 속성(예: ...)을 보존하는 것을 목표로 합니다.
Deep learning models는 인상적인 성과에도 불구하고 높은 computational costs와 memory requirements 때문에 자원 제한적인 환경에서의 사용 가능성이 제한됩니다.
주의 메커니즘의 이론적 기반을 이해하는 것은 그 복잡하고 비선형적인 역학 때문에 여전히 어려운 과제이다. 이 연구는 근본적인…
확산 모델이 노이즈를 사진으로 바꿀 때 실제로 무엇을 하고 있는 걸까요? 우리는 결정론적 DDIM 역체인이 Partitioned Iter… 로 작동한다는 것을 보여줍니다.
대규모 언어 모델(LLMs)은 고자원 언어 쌍에 대한 기계 번역에서 놀라운 능력을 입증했지만, 저자원…
Supervised Semantic Differential (SSD)는 연속적인 개인 차이 변인에 따라 텍스트 의미가 어떻게 변하는지를 모델링하는 혼합 정량‑해석 방법이다.
연합 학습은 뉴로모픽 하드웨어에서 아직 탐구되지 않았는데, 이는 온칩 스파이크 타이밍 의존성 가소성(STDP)이 연속적인 가중치 업데이트가 아니라 이진 가중치 업데이트를 생성하기 때문이다.
능력 있는 소프트웨어 엔지니어링(SWE) 에이전트를 훈련하려면 대규모, 실행 가능하고 검증 가능한 환경이 필요하며, 이는 반복적인 …을 위한 동적 피드백 루프를 제공합니다.
AI 에이전트와의 긴 대화는 한 사용자에게 단순한 문제를 만들습니다: 기록은 유용하지만, 이를 그대로 유지하는 것은 비용이 많이 듭니다. 우리는 personalized ag…
Error Span Detection (ESD)는 기계 번역(MT) 평가에서 중요한 하위 작업으로, 번역 오류의 위치와 심각성을 식별하는 것을 목표로 합니다. Whil...
Authentication은 행동을 수행하려는 개인이나 엔터티가 실제로 자신이 주장하는 사람 또는 존재인지 확인하는 데 필수적입니다. 동적 환경에서는 …
강화 학습 기반 정렬의 광범위한 채택은 보상 모델의 중요성이 커지고 있음을 강조한다. 다양한 벤치마크가 평가를 위해 구축되었다.
맥락: 애자일 소프트웨어 개발에서 사용자와 고객의 적극적인 참여는 실제로 지속적인 과제로 남아 있습니다. 이러한 이유로, 이는 중요합니다…
대규모 언어 모델(LLMs)을 비즈니스 프로세스 관리 도구에 통합하면 Business Process Model and Notation (BPMN) 모델링을 민주화할 수 있습니다…
강화 학습(RL)은 보상 신호로부터 학습을 가능하게 하여, 사후 훈련 diffusion 기반 이미지 synthesis 모델에 대한 표준 기법이 되었다.
비유클리드 기하학에서의 분산 최적화 방법들의 기존 수렴 이론은 일반적으로 커널 가정에 의존한다: (i) 전역 Lipschitz 부드러움 및 (...
요즘 서비스 제공업체들은 종종 공유 클러스터 내에 여러 종류의 LLM 서비스를 배포합니다. 서비스 콜로케이션이 자원 활용도를 향상시키지만, 그것은 i...
Spiking Neural Networks (SNNs)는 기존 딥 네트워크에 대한 생물학적으로 영감을 받은 대안으로 등장했으며, 이벤트 기반 및 에너지 효율적인 컴퓨팅을 제공한다.
대규모 언어 모델(LLMs)은 코드 생성에서 놀라운 능력을 보여왔지만, Computer-Aided와 같은 도메인 특화 작업에서는 성능이 떨어진다.
Federated Clustering (FC)은 분산되고 프라이버시가 보호된 데이터에서 데이터 분포 패턴을 탐색하는 데 있어 떠오르는 유망한 솔루션이며, 비지도 학습…
Visual design은 최첨단 multi-modal AI 시스템의 필수적인 응용 분야입니다. 이러한 시스템을 개선하려면 대규모 고품질 vision-language 데이터가 필요합니다.
자유/리브레 및 오픈 소스 소프트웨어(FLOSS) 스튜어드가 프로젝트 개발을 중앙집중화하면, 프로젝트 지속 가능성을 저해하고 어떻게 …에 영향을 미칠 수 있습니다.
금융 플랫폼과 기업 시스템은 보고, 조정, 감사 및 규제 준수를 지원하기 위해 거래 내보내기 기능을 자주 제공합니다.
대규모 언어 모델(Large Language Model, LLM) 추론은 인터랙티브 어시스턴트와 에이전시 시스템에서 널리 사용됩니다. 지연에 민감한 배포 환경에서는 추론 시간이 d...
GPU kernels 최적화는 표준 코드 생성 작업보다 대형 언어 모델(LLMs)에게 훨씬 더 큰 도전 과제를 제시합니다, 이는 ...
현대의 neural networks은 크게 overparameterized되어 있으며, pruning은 중복된 neurons 또는 connections를 제거하여 compressing의 핵심 접근법으로 부상하고 있다.
Autoregressive (AR) video generative models는 픽셀을 이산 토큰 시퀀스로 압축하는 video tokenizers에 의존합니다. 이러한 토큰 시퀀스의 길이는 …
멀티모달 대형 언어 모델(MLLMs)은 GUI 탐색과 같은 시각 워크플로를 수행하는 데 점점 더 많이 사용되고 있으며, 다음 단계는 검증된 시각에 따라 달라집니다.
현대의 visual agents는 실시간 스트리밍 환경에서 작동하기 위해 일반적이고 인과적이며 물리적으로 구조화된 표현을 필요로 합니다. 그러나 현재...
Unified multimodal models는 공동 이해, 추론 및 생성에 초점을 맞추지만, 현재의 image editing benchmarks는 대부분 자연 이미지에 국한되어 있다.
온라인 비디오 대형 언어 모델(VideoLLMs)은 반응성 있는 실시간 상호작용을 지원하는 데 중요한 역할을 합니다. 기존 방법들은 streaming percept…
텍스트-이미지 생성 모델은 빠르게 발전했지만, 생성된 이미지에 대한 세밀한 제어를 달성하는 것은 여전히 어려우며, 이는 주로 제한된 …
인간은 시각적 관찰의 스트림을 통해 현실 세계의 공간을 인지하고 이해한다. 따라서, 공간 증거를 스트리밍 방식으로 유지하고 업데이트하는 능력이 필요하다.