[Paper] 보는 것에서 생각으로: 지각과 추론을 분리하면 Vision‑Language Models의 Post‑Training이 개선된다
최근 vision-language models (VLMs)의 발전은 긴 chain-of-thought 추론을 강조하지만, 우리는 이들의 시각 작업 성능이 주로 제한적임을 발견한다.
최근 vision-language models (VLMs)의 발전은 긴 chain-of-thought 추론을 강조하지만, 우리는 이들의 시각 작업 성능이 주로 제한적임을 발견한다.
고급 이미지 편집 소프트웨어는 매우 설득력 있는 이미지 조작을 쉽게 만들 수 있게 해 주며, 최근 몇 년간 ... 때문에 더욱 접근성이 높아졌습니다.
Production LLM agents는 stochastic 모델 출력과 deterministic software systems를 결합하지만, 두 사이의 경계는 거의 first‑class로 다뤄지지 않는다.
Power grid는 현대 사회와 그 서비스 전반을 뒷받침하는 핵심 인프라입니다. 그 효율성을 유지하려면 지속적인 적응이 필요합니다.
현대의 대규모 언어 모델(Large Language Models, LLMs)은 질문 답변과 같은 사용자 중심 작업에서 인상적인 성능을 보여왔으며, 재...
Bangladesh의 haor wetlands에서 Flash floods가 거의 경고 없이 나타납니다. 이들은 연간 boro rice 수확을 파괴합니다. 현재 시스템은 riverine floods에 맞게 구축되어 있어…
Vision-Language Models (VLMs)는 공간 질문 응답 벤치마크에서 강력한 성능을 달성하지만, 이러한 향상이 실제로 진정한 공간 추론을 반영하는지는 여전히 불분명합니다.
검증 가능한 보상을 활용한 강화 학습은 정확성을 자동으로 확인할 수 있을 때 사후 훈련을 매우 효과적으로 만들었습니다. 그러나 많은 중요한 …
항공우주용 SiC/SiC 복합재의 비파괴 검사인 X-ray computed tomography (XCT)는 전문가의 시각적 평가에 의존하며, 현재 워크플로는 …
Large Vision Language Models (LVLMs)는 의료 분야에서 가능성을 보이지만, 시각적 증거에 응답을 충실히 근거를 두지 못하는 점이 심각한 …을 야기한다.
Music streaming fraud는 악의적인 행위자가 stream counts를 인위적으로 부풀려 chart rankings와 royalty payments를 조작하는 경우이며, 이는 stre...에 상당한 위협을 가한다.
생성형 인공지능의 확산은 모델 파라미터가 지속적으로 업데이트되는 인터랙티브 학습 환경을 만들어냈으며, u...
수십억 개 원시 규모에서 3D Gaussian Splatting (3DGS)을 학습하는 것은 근본적으로 메모리 제한(memory‑bound)이다: 각 Gaussian primitive은 큰 속성 벡터(attribute vector)를 가지고 있으며, …
대형 언어 모델(LLMs)은 개방형 작업에 널리 사용되지만, 불명확한 프롬프트는 품질이 낮은 답변과 추가적인 상호작용을 초래할 수 있습니다. This p...
Text-to-Image (T2I) 모델은 최근 1K 및 2K 해상도에서 눈에 띄는 진전을 보였습니다. 더 나은 시각 경험에 대한 극도의 욕구와 급속한 d...
베이지안 최적화(BO)는 비용이 많이 드는 블랙박스 목적 함수를 위해 가우시안 프로세스(GP) 예측 분포를 사용하여 평가 지점을 선택합니다. 커널 선택과 ...
원시 GPS 트레이스에서 일반화 가능한 궤적 표현을 학습하는 것은 데이터가 연속적이고, 노이즈가 많으며, 불규칙하게 샘플링되기 때문에 여전히 어렵다. Spatial ...
분산 음향 센싱(DAS) 시스템은 연속적이고 초고채널 수 데이터 스트림을 생성하며, 그 전송 속도는 기존 배치 처리 능력을 초과합니다.
대형 언어 모델(LLMs)은 점점 더 고위험 의사결정에 통합되고 있다. 인간 인지에서의 inattentional blindness 이론에 영감을 받아, ...
AI‑assisted theorem proving은 이제 올림피아드 수준 수학을 위한 상당한 Lean 개발을 생성할 수 있지만, 이러한 개발의 증거적 지위는 …에 달려 있다.
우리는 time series foundation models가 규모에 따라 확장됨을 보여준다: 단일 training recipe가 4M에서 2.5B parameters까지 신뢰할 수 있는 forecast-quality 개선을 제공한다. 우리는…
Referring segmentation은 natural-language queries를 pixel-level masks에 매핑하지만, 다중 인스턴스와 교차 카테고리 그룹이 포함된 복잡한 시나리오로 확장한다…
Conversational AI는 이제 수십억 명의 사용자에게 도달했지만, 기존 데이터셋은 사람들이 말하는 것만을 포착하고 생각은 포착하지 못합니다. 우리는 ThoughtTrace를 소개합니다, the fir...
최근 연구에서는 LLM을 진화적 탐색과 결합하여 작업별 피드백을 활용해 코드를 반복적으로 생성, 수정 및 선택합니다. 이러한 시스템은 강력한…
명시적인 소프트웨어 아키텍처 모델은 복잡한 소프트웨어 집약 시스템을 소통하고, 분석하며, 진화시키기 위한 필수적인 아티팩트입니다. ROS~2 기반 로보...
AES-128 및 SHA-256과 같은 암호화 알고리즘은 데이터 보안 및 무결성을 보장하는 데 기본적입니다. 비록 이러한 알고리즘은 계산적으로 효율적이지만...
Backpropagation과 gradient descent는 머신러닝에서 대부분의 신경망 아키텍처가 사용하는 일반적인 최적화 전략입니다. 그러나 최적화를 찾는 것은 …
데이터 관리는 bioinformatics 및 health sciences와 같은 분야에서 지속적으로 방대한 이질적인 데이터 세트를 생성하기 때문에 복잡한 과제가 될 수 있습니다. I...
Photonic neuromorphic computing은 높은 대역폭을 활용하여 기존의 von Neumann 아키텍처의 한계를 극복할 수 있는 유망한 경로를 제공합니다.
네트워크 침입 탐지 시스템은 사이버 보안을 보장하는 중요한 수단입니다. 그러나 기존의 Genetic Algorithm 기반 feature selection 방법은 심각한…
LLM discovery 및 optimization 시스템은 다양한 분야에 점점 더 적용되고 있으며, 공통적인 propose-evaluate-revise 루프를 구현합니다. 이러한 optimization 또는 discovery…
표준 생성 AI에서 추론 중심 아키텍처로의 전환은, 광범위한 Chain-of-Thought (CoT) 처리가 가능한 모델들에 의해 예시되며, …
우리는 컴퓨터 사용 에이전트를 위한 검증 가능한 소프트웨어 세계를 구축하기 위한 검증자 기반 프레임워크인 OpenComputer를 제시합니다. OpenComputer는 네 가지 구성 요소를 통합합니다.
양자 프로그램은 종종 OpenQASM 3 회로 형태로 공유되지만, 테스트는 여전히 Python과 Qiskit 같은 호스트 언어로 작성됩니다. 우리는 QUTest, a native …
비트코인은 최근 피어투피어(P2P) 통신 암호화를 위한 새로운 프로토콜을 도입했습니다. 이 프로토콜은 V2 P2P transport로 알려져 있으며, 큰 변화를 의미합니다.
핵심 인프라 운영자들은 배포된 산업용 소프트웨어의 취약점을 평가하고 수정하는 것이 점점 더 기대되고 있습니다. 그러나 이러한 소프트웨어의 대부분은 …
단일 LLM 기반 optimization 시스템이 근본적으로 다른 domains에 걸친 specialized tools와 매치할 수 있을까? 우리는 최적화 문제가 정의될 때 …
현대적인 대규모 언어 모델(LLMs) 배포는 다양한 아키텍처, 크기 및 특화된 모델들을 공유된 환경에서 동시에 서비스해야 하는 경우가 점점 늘어나고 있습니다.
AI가 생성한 시각 매체의 급속한 확산은 효율적이고 신뢰할 수 있는 딥페이크 탐지 시스템에 대한 긴급한 필요성을 만들었습니다. 그러나 기존 딥…
Physical computing systems는 하드웨어 네이티브 머신 러닝을 향한 유망한 경로를 제공하지만, 그들의 계산 능력은 여전히 파악하기 어렵다.
기존 신경 조합 최적화 솔버는 솔루션 탐색을 최적 결정의 모방으로 프레임화하여 본질적으로 그 효용을 단일 목표에만 제한한다…
Multiview 3D evaluation은 평가되는 이미지들이 하나의 정적인 3D 장면을 관찰한 것이라고 가정합니다. 이 가정은 NVS 및 sparse-view reconstruction에서 실패할 수 있습니다.
현대 오디오 생성은 주로 latent-space compression에 의존하며, 이는 추가적인 복잡성과 잠재적인 정보 손실을 초래합니다. 이 연구에서 우리는 cha...
최근 비디오 편집 모델들은 통합된 컨디셔닝 디자인으로 수렴했다: 단일 diffusion transformer가 텍스트, 원본 비디오, 그리고 레퍼런스 i...
Diffusion 기반 생성 모델은 점점 더 inference-time guidance에 의존하며, drift term을 추가하거나 mixture of experts를 reweighting하여 샘플 품질을 향상시킨다...
Multimodal Large Language Models (MLLMs)은 여전히 세밀한 시각적 이해에 어려움을 겪고 있으며, 답변은 종종 작지만 결정적인 증거에 의존한다…
우리는 LongLive-2.0을 소개한다. 이는 NVFP4 기반의 병렬 인프라스트럭처로, 긴 비디오 생성의 전체 학습 및 추론 워크플로우 전반에 걸쳐 속도를 개선한다.
의학은 본질적으로 다원주의적이다. autonomy, beneficence, nonmaleficence, justice와 같은 원칙들은 일상적으로 충돌하며, 이러한 윤리적 딜레마는 종종 …