[Paper] Vision‑Language Models는 정말 Vision Reasoning을 수행할까? Modality Gap에 대한 엄밀한 연구
시각‑언어 모델(VLMs)에서의 추론은 최근 다양한 다운스트림 작업에 걸친 폭넓은 적용 가능성 때문에 큰 주목을 받고 있습니다. 그러나,…
4465 posts from this source
시각‑언어 모델(VLMs)에서의 추론은 최근 다양한 다운스트림 작업에 걸친 폭넓은 적용 가능성 때문에 큰 주목을 받고 있습니다. 그러나,…
Image geolocalization은 전통적으로 retrieval‑based place recognition 또는 geometry‑based visual localization pipelines를 통해 해결되어 왔습니다. Recent advance…
우리는 HILBERT (HIerarchical Long-sequence Balanced Embedding with Reciprocal contrastive Training)를 제안한다. 이는 문서 학습을 위한 cross‑attentive 멀티모달 프레임워크이다.
Reinforcement learning은 large multi-modal models에서 video reasoning을 발전시켰지만, 지배적인 파이프라인은 대부분 on-policy self-exploration에 의존하여 성능이 plateau…
검증 가능한 보상을 사용하는 강화 학습(RLVR)은 일반적으로 중간 추론에 대한 제약을 두지 않고 결과 보상을 최적화합니다. 이는…
Time-to-Collision (TTC) 예측은 충돌 방지에 있어 중요한 과제로, 정확한 시간 예측과 지역 및 전역적인 ...
의사결정자들은 작물 재배, 산불 관리, 물·에너지 배분, 그리고 기상 극한에 대비하기 위해 일기예보에 의존합니다. 오늘날 이러한 예보는 …
본 논문은 토큰 프루닝(token pruning)이라는 압축 기법을 통해 적응된 최신 다국어 대형 언어 모델(LLM)의 체계적인 벤치마크를 제시한다.
대규모 언어 모델은 신뢰성이 중요한 환경에 점점 더 많이 배치되고 있지만, 토큰 확률, 엔트로피와 같은 출력 수준의 불확실성 신호는 …
AP Computer Science Principles (CSP) 과정을 수강하는 중학생들은 일반적으로 웹 리소스(예: 튜토리얼, Q&A 사이트)를 활용하여 ...
소프트웨어 엔지니어링 연구는 지난 수십 년 동안 산출물과 참여 모두에서 급격한 성장을 경험했습니다. 그러나 이 분야의 능력에 대한 우려는 여전히 지속됩니다.
코드 생성은 사용자 요구 사항으로부터 실행 가능한 프로그램을 자동으로 생산하는 것을 의미합니다. 최근 연구자들은 corr...
Adapter 기반 방법은 대규모 언어 모델(Large Language Models, LLMs)의 지속적 학습(continual learning, CL)을 위해 순차적으로 저랭크 업데이트를 학습함으로써 비용 효율적인 접근법이 되었다.
대형 언어 모델(LLMs)은 복잡한 작업을 해결하기 위해 점점 더 chain-of-thought (CoT) 추론에 의존하고 있다. 그러나 추론 트레이스가 모두 기여하도록 보장하는 것은…
최근 연구들은 작은 aligned 모델을 proxy 로 사용하여 더 큰 base (unaligned) 모델의 생성을 안내하는 test-time alignment 방법을 제안했습니다. T...
분산 딥러닝에서 훈련 시간의 정확한 예측은 resource allocation, cost estimation, 그리고 job scheduling에 매우 중요합니다. 우리는 f...
우리는 German sign language (DGS) fairy tales에 대한 sentiment analysis를 위한 dataset과 model을 제시한다. 먼저, 우리는 세 가지 수준의 ...
복잡한 구조를 더 단순한 하위 구조로 분해하는 것은 광범위한 응용 분야를 가진 강력한 기법입니다. 우리는 decomp…의 계산을 연구합니다.
Swarm protocols은 스웜이라고 불리는 피어‑투‑피어 시스템을 지정하고 구현하며 검증하기 위해 최근에 도입된 formalism이다. 스웜은 분산…
Probabilistic Synchronous Parallel (PSP)은 동기화 병목 현상을 줄이기 위해 참여자들의 일부를 샘플링하는 방식으로 분산 학습 시스템에서 사용되는 기법이다.
Concept Bottleneck Models (CBMs)은 인간이 이해할 수 있는 개념을 통해 예측을 구조화함으로써 딥러닝의 해석 가능성을 향상시키는 것을 목표로 하지만, 그들은 …
소프트웨어 개발에서 Large Language Models (LLMs)의 급속한 확산으로 AI가 생성한 코드와 인간이 작성한 코드를 구별하는 것이 중요한 과제가 되었다.
블록체인 응용 시나리오가 지속적으로 확장됨에 따라, 컨소시엄 체인은 합의 메커니즘에 대해 더 높은 performance와 security 요구사항을 제시하고 있습니다.
고성능 컴퓨팅(HPC) 애플리케이션은 점점 더 이기종 환경에서 실행되고 있으며, 이는 프로그래밍 및 소프트웨어 p...
Code localization은 autonomous software engineering의 핵심 요소입니다. 최근의 발전으로 real-world issue benchmarks에서 인상적인 성능을 달성했습니다. ...
Spiking neural networks (SNNs)는 자원 제한이 있는 엣지 시스템에서 기존 인공 신경망의 대안으로 빠르게 주목받고 있습니다. I...
많은 연구가 데이터 분석 스크립트를 사용하여 데이터를 처리하고, 정리하며, 시각화에 의존합니다. 그러나 최근 연구에 따르면 이러한 스크립트는 종종 이해하기 어렵습니다.
제한된 codebase 또는 binary size를 가진 많은 소규모 소프트웨어 시스템은 일상 업무에서 널리 사용되지만, 그 configurability는 여전히 크게 u...
continuous integration의 아이디어를 바탕으로, high performance applications를 위한 automated benchmarking pipeline의 개념을 제시합니다. Customization과 …
산업과 학계 모두에서 서버리스 컴퓨팅의 사용이 지속적으로 증가함에 따라, 기본 플랫폼을 구동하는 메커니즘을 이해하는 것이 필수적입니다.
Feature toggles는 소프트웨어 시스템에서 점진적인 롤아웃과 실험을 가능하게 하지만, 종종 의도된 수명 주기를 넘어 지속되어 technical debt로 축적됩니다.
양자 소프트웨어 테스트는 최근 몇 년간 관심을 끌었으며, 양자 소프트웨어 테스트를 자동화하기 위한 다양한 기술 개발을 촉진했습니다. Th...
자동화된 심전도(ECG) 신호 분류는 심혈관 질환을 진단하고 모니터링하는 데 유용한 도구입니다. 본 연구는 세 가지 tr...
Universal Machine Learning Interatomic Potentials (uMLIPs)는 무기 재료와 유기 분자를 포함하는 대규모 다양한 데이터셋으로 사전 학습되었습니다.
저궤도(LEO) 메가컨스텔레이션은 클라우드‑투‑엣지 연속성을 우주로 확장하여 위성 엣지 컴퓨팅을 가능하게 합니다. 그러나 연합 학습(FL)에서는 …
제한된 evaluation budgets 하에서도 효과를 유지하는 optimizers를 설계하는 것은 cardiac digital twinning과 같은 비용이 많이 드는 black‑box 환경에서 매우 중요합니다. 우리는 제안합니다…
Influence maximization (IM)은 복잡한 네트워크 분석에서 기본적인 문제이며, 실제 세계의 다양한 응용 분야를 가지고 있다. 현재까지 기존 접근 방식은 …
항시 켜져 있는 컨버터 상태 모니터링은 서브‑mW 엣지 추론을 요구하며, 이는 GPU 기반 physics‑informed neural networks으로는 접근할 수 없는 영역이다. 이 작업은 …
코드 검색은 정보 검색(IR)으로 프레이밍되어 현대 소프트웨어 엔지니어링의 기반을 이루며, 점점 더 검색 기반 생성(RAG)을 구동하여 ...
Large language models은 사실과 다른 진술을 환각하는 경향이 있습니다. 이러한 오류의 주요 원인 중 하나는 새로운 사실 정보를 sup...을 통해 노출되는 것입니다.
전통적인 frame-based 카메라는 풍부한 컨텍스트 정보를 캡처하지만, dynamic scenes에서 제한된 temporal resolution과 motion blur가 발생합니다. Event camera...
이 논문은 flow matching models를 인간 선호와 정렬하는 데 초점을 맞춘다. 유망한 방법은 reward gradients를 직접 backpropagating하여 fine‑tuning하는 것이다 ...
이 논문은 사진에서 여러 illumination attributes를 정밀하고 연속적으로 제어할 수 있는 image relighting 방법을 제시한다. 우리는 ...
인공지능 생성 콘텐츠(AIGC) 도구의 급속한 발전으로 웹페이지 디자인을 위해 이미지, 비디오 및 시각화를 필요에 따라 생성할 수 있게 되었습니다.
고수준 자율 주행은 다중모드 미래 불확실성을 모델링하면서 폐루프 상호작용에서 견고함을 유지할 수 있는 motion planners를 필요로 합니다. A...
언어 모델이 체계적으로 일반화할 수 있는지는 여전히 활발히 논쟁되고 있다. 그러나 empirical performance는 training과 같은 여러 요인에 의해 동시에 형성된다.
LLM-as-judge 프레임워크는 자동 NLG 평가에 점점 더 많이 사용되고 있지만, 개별 인스턴스에 대한 신뢰성은 아직 충분히 이해되지 않고 있습니다. 우리는 두 갈래 접근법을 제시합니다.
많은 SLT 시스템은 짧은 수화 조각이 구어 단어에 직접 매핑된다고 조용히 가정합니다. 그 가정은 수화 사용자가 종종 의미를…