[Paper] MANTA: 물리 기반 일반화된 수중 객체 추적
Underwater object tracking은 wavelength dependent attenuation과 scattering 때문에 어려우며, 이는 깊이와 물 조건에 따라 외관을 크게 왜곡합니다.
3307 posts from this source
Underwater object tracking은 wavelength dependent attenuation과 scattering 때문에 어려우며, 이는 깊이와 물 조건에 따라 외관을 크게 왜곡합니다.
우리는 LFM2, 효율적인 온‑디바이스 배포와 강력한 작업 능력을 위해 설계된 Liquid Foundation Models 패밀리를 소개합니다. 하드웨어‑인‑루프 아키텍처를 사용하여…
Split learning은 모델을 분산 디바이스에서 학습시켜 데이터 공유를 피함으로써 데이터 프라이버시 문제를 해결하는 방법으로 잘 알려져 있습니다, 따라서 데이터 공유를 초래하는…
이란의 중소기업(SMEs)은 점점 더 Telegram을 활용하여 판매를 진행하고 있으며, 실시간 참여가 전환에 필수적입니다. 그러나, dev...
Direct Preference Optimization (DPO)은 다양한 분야에서 널리 사용되는 인간 피드백을 통한 강화 학습(RLHF) 방법입니다. 최근 연구는 증가…
우리는 learning-augmented 설정에서, $n$개의 offline 정점과 $n$개의 online 정점을 갖는 random arrival order model에서 online unweighted bipartite matching 문제를 연구한다.
우리는 Hierarchical AI-Meteorologist를 소개합니다. 이는 LLM-agent 시스템으로, 계층적 forecast reasoning과 weather를 활용하여 설명 가능한 weather reports를 생성합니다. ...
멀티모달 이해, 생성 및 재구성 표현을 단일 토크나이저에 통합하는 것은 통합 모델을 구축하는 데 있어 핵심 과제로 남아 있습니다. Previo...
초보 사용자와 전문가 사용자는 task-oriented dialogues에서 서로 다른 체계적인 선호도를 가지고 있습니다. 그러나 이러한 선호도에 맞추는 것이 실제로 사용자 …
현대의 large language models는 multimodal이 되어 텍스트와 이미지와 같은 다양한 데이터 형식을 분석합니다. fine-tuning은 이러한 multimodal을 적응시키는 데 효과적입니다.
Despite recent progress in multilingual speech processing, African languages remain under-represented in both research and deployed systems, particularly when i...
현대 리테일에서는 의류, 식료품, 화장품, 냉동식품 등 다양한 제품이 제공되면서 수요를 예측하기 어렵고, ...
Program synthesis는 입력‑출력 예시와 같은 사양 집합을 따라 컴퓨터 프로그램을 생성하는 과정입니다. It can be modeled a...
Knowledge‑enhanced text generation은 내부 또는 외부 지식 소스를 활용하여 생성된 텍스트의 품질을 향상시키는 것을 목표로 합니다. While language models have...
Gambling disorder는 이해하고 대처하기 어려운 복합적인 행동 중독으로, 신체적, 심리적, 사회적으로 심각한 결과를 초래합니다....
Chart-to-code 생성은 자동화된 데이터 시각화에서 중요한 작업으로, 복잡한 차트 구조를 실행 가능한 프로그램으로 변환합니다. 최근 Multi-m...
이 연구는 “Machines that Can Remember”를 구축하는 도전을 탐구하며, 장기 기억을 효율적인 초장기 컨텍스트 모델링 문제로 정의합니다. W...
대규모 비전-언어 모델(LVLMs)은 객체 탐지를 포함한 시각 정보를 필요로 하는 작업에서 고급 능력을 보여줍니다. 이러한 능력은…
Mutation-based Fault Localization (MBFL)은 자동화된 소프트웨어 디버깅을 위해 널리 연구되어 왔으며, 인공 변이체를 활용하여 결함이 있는 코드 엔티티를 식별합니다.
content‑oblivious 모델은 Censor‑Hillel, Cohen, Gelles, 그리고 Sel이 소개했으며 (PODC 2022; Distributed Computing 2023), 매우 약한 형태의 com…
Federated edge learning (FEEL)은 협업 모델 훈련을 가능하게 하면서 데이터 보존을 ...
현대 클라우드 애플리케이션은 독립적이고 다양한 마이크로서비스 위에 구축되어 확장성, 유연성 및 사용량 기반 청구를 제공합니다. 그러나 구조적 d...
Android 애플리케이션에서 메서드 도달성을 동적으로 해결하는 것은 여전히 중요한 문제이며 대부분 해결되지 않은 상태입니다. GUI 테스트에서 눈에 띄는 진전에도 불구하고 …
Split learning (SL)은 여러 자원 제한이 있는 사용자 장비(UE)에서 주요 컴퓨팅 작업을 베이스 스테이션(BS)으로 오프로드하면서 로컬 데이터를 보존합니다.
Vibe 코딩은 프로그래밍을 위한 AI 기술의 널리 선전되는 활용이지만, 두 가지 압도적인 장애물에 직면해 있습니다: 목표를 명시하는 어려움('prompt engineering'은…).
LLM이 소프트웨어 개발을 재편함에 따라, LLM 기반 실천을 SE 교육에 통합하는 것이 필수가 되었다. 기존 연구들은 LLM의 교육…
고용량 커널 Hopfield 네트워크는 극도의 안정성을 특징으로 하는 ‘Ridge of Optimization’를 나타낸다. 이전에는 ‘Spectral Concentration’과 연결되어 있었지만,…
우리는 Areon을 소개합니다, 지연에 친화적이고 스테이크 가중치가 적용된 다중 제안자(multi‑proposer) proof‑of‑stake 합의 프로토콜 패밀리입니다. 슬롯당 여러 제안자를 허용하고 o...
생물학적 뉴런은 놀라운 지능을 보여줍니다: 내부 상태를 유지하고, 다른 뉴런과 선택적으로 소통하며, 복잡한 그...
비침습적인 비전 기반 시스템을 이용한 노인 돌봄을 위한 낙상 감지는 여전히 중요한 미해결 문제입니다. 엄격한 프라이버시 요구사항에 의해, ...
Reservoir computing (RC)은 비선형 동역학 시스템을 예측하기 위한 강력한 프레임워크이지만, 레저버 토폴로지—특히 연결의 대칭성—의 역할은 ...
우리는 Equilibrium Propagation (EP)을 무한소 교란의 한계에서 해방시키고, 지역 신용 할당을 위한 유한-교란 기반을 확립합니다. By...
우리는 대형 언어 모델(LLM)이 다양한 과제 난이도에 걸쳐 얼마나 잘 일반화되는지를 조사합니다. 이는 효과적인 데이터 선별 및 평가를 위해 핵심적인 질문입니다. E...
현대 diffusion models는 고품질이고 다양한 이미지를 생성하는 데 뛰어나지만, 고충실도 구성 및 멀티모달 제어에서는 여전히 어려움을 겪는다, ...
새로운 플랫폼과 새로운 장면에서 단 몇 개의 시연만으로 새로운 로봇 작업을 학습하는 것은 여전히 어려운 과제입니다. 다른 구현체—예를 들어 인간—의 비디오를 활용하면서도…
Large language models are powerful generalists, yet solving deep and complex problems such as those of the Humanity's Last Exam (HLE) remains both conceptually ... (keep the source link unchanged) 대형 언어 모델은 강력한 제너럴리스트이지만, 인류 최후의 시험(HLE)과 같은 깊고 복잡한 문제를 해결하는 것은 개념적으로 여전히 …
Vision-Language Models (VLMs)은 여전히 공간 지능에서 견고함이 부족하여 공간 이해 및 추론 작업에서 성능이 저조합니다. 우리는 ...
Synthetic data has become increasingly important for training large language models, especially when real data is scarce, expensive, or privacy-sensitive. Many ...
https://arxiv.org/abs/2405.05384 카메라 궤적—공간을 가로지르는 경로—만으로 픽셀을 보지 않고도 영상의 내용을 인식할 수 있을까? 이 논문은 이러한 질문에 처음으로 체계적인 접근을 시도한다. 우리는 카메라가 이동하면서 기록한 3차원 궤적 정보만을 이용해, 해당 영상이 어떤 장면을 담고 있는지, 어떤 동작이 일어나고 있는지를 추론한다. 이를 위해 새로운 데이터셋을 구축하고, 궤적 기반의 특징 추출 및 시퀀스 모델링 기법을 제안한다. 실험 결과, 제안된 방법은 기존 영상 기반 모델에 비해 픽셀 정보를 전혀 사용하지 않음에도 불구하고 의미 있는 수준의 인식 성능을 달성한다. 이 연구는 비전 시스템이 시각적 입력이 제한된 상황에서도 공간적 움직임 정보를 활용할 수 있음을 보여준다.
MLLMs는 개별 질의에 대해 강력한 추론 능력을 보여주지만, de novo 방식으로 작동하여 각 문제를 독립적으로 해결하고 종종 같은 실수를 반복합니다. Existi...
네트워크 시스템에서 인과 효과 추정은 데이터 기반 의사결정의 핵심입니다. 이러한 환경에서는 한 단위에 대한 개입이 다른 단위로 파급될 수 있으며, 이는 ...
놀라운 기술적 진보에도 불구하고, AI 시스템은 여전히 재발 연결성(recurrent connectivity) 및 에너지 효율적인 메커니즘(energy‑efficient mechanisms)과 같은 생물학적 원리로부터 혜택을 받을 수 있다...
Gliomas는 사망률이 높은 뇌종양 유형으로, 이는 종양에 대한 치료 개입을 위해 조기 및 정확한 진단이 중요함을 의미합니다....
대규모 언어 모델(LLM) 추론은 종종 높은 디코딩 지연과 이질적인 엣지‑클라우드 환경 전반에 걸친 제한된 확장성으로 고통받는다. Existing spe...
통신 분야에서 AI의 부상은 라디오 액세스 네트워크 최적화부터 사용자 경험 관리에 이르기까지 데이터 양과 학습 요구를 급격히 증가시켰습니다...
대형 언어 모델(LLMs)을 추론하도록 훈련하는 것은 종종 작업별 검증자를 이용한 강화 학습(RL)에 의존한다. 그러나 많은 실제 상황의 추론‑...
객체의 자세 추정에 대한 불확실성을 정량화하는 것은 견고한 제어와 계획에 필수적입니다. 자세 추정은 로봇공학에서 잘 연구된 문제이지만…
최근 몇 년간, 구현 지능 분야에서 Vision-Language-Action (VLA) 모델이 급속히 발전했습니다. 그러나 기존의 적대적 공격 방법은 비용이 많이 듭니다...