[Paper] Bounding Boxes와 함께 생각하기: 강화 학습 미세조정을 통한 시공간 비디오 그라운딩 향상
시공간 비디오 그라운딩(STVG)은 자연어 설명을 기반으로 잘라내지 않은 비디오에서 대상 객체를 시간적으로와 공간적으로 모두 위치 지정해야 합니다....
3312 posts from this source
시공간 비디오 그라운딩(STVG)은 자연어 설명을 기반으로 잘라내지 않은 비디오에서 대상 객체를 시간적으로와 공간적으로 모두 위치 지정해야 합니다....
Numerical simulations는 많은 물리적, 실제 문제에 대한 핵심적인 통찰을 제공합니다. 그러나 이러한 시뮬레이션이 전체 3D domain에서 해결되는 반면, 대부분의 분석은 …
내시경(엔도) 비디오는 스페큘러리티, 습한 반사, 가림과 같은 강한 시점 의존 효과를 보여준다. 순수한 포토메트릭 감독은 ...
점의 법선을 추정하려면 중심‑주변 컨텍스트를 제공하기 위해 로컬 패치를 구성해야 하지만, 적절한 이웃 크기를 결정하는 것은…
자연 재해는 방글라데시에게 여전히 큰 도전 과제이며, 실시간 모니터링 및 신속한 대응 시스템이 필수적이다. 본 연구에서는 BanglaMM-...
Adversarial Inverse Reinforcement Learning (AIRL)은 강화학습(RL)에서 희소 보상 문제를 해결하기 위해 밀도 높은 보상을 추론함으로써 가능성을 보여주었다.
Recent advances in multimodal large language models (LLMs) have highlighted their potential for medical and surgical applications. However, existing surgical da... 최근 멀티모달 대형 언어 모델(LLM)의 최근 발전은 의료 및 외과 분야에서의 잠재력을 강조하고 있습니다. 그러나 기존 외과 데이터…
본 논문은 운송 인프라에서 구조적 이상을 실시간으로 탐지하기 위한 저지연 뉴로모픽 신호 처리 파이프라인인 SIFT‑SNN 프레임워크를 제시한다.
우리는 신경 언어 모델이 생성한 텍스트에서 단어 빈도와 다의성 사이의 경험적 관계인 Martin's Law에 대한 최초의 체계적인 조사를 제시한다.
Learning joint representations across multiple modalities remains a central challenge in multimodal machine learning. Prevailing approaches predominantly operat... 다중 모달리티에 걸친 공동 표현 학습은 멀티모달 머신러닝에서 여전히 핵심 과제입니다. 기존 접근 방식은 주로 ...
전 세계 수백만 명의 사용자가 창의적인 요구를 위해 AI 챗봇을 이용하고 있으며, 이러한 챗봇이 다양성을 어떻게 표현하는지에 대한 이해에 대한 광범위한 관심을 불러일으키고 있습니다.
웨이브가이드 기반 물리 시스템은 기존 전자공학을 넘어 에너지 효율적인 아날로그 컴퓨팅을 위한 유망한 경로를 제공합니다. 이러한 환경에서, acou...
Despite the state-of-the-art performance of Large Language Models (LLMs) achieved on many tasks, their massive scale often leads to high computational and envir... **번역** 많은 작업에서 최첨단 성능을 달성한 대규모 언어 모델(LLM)에도 불구하고, 그 거대한 규모는 종종 높은 계산 비용과 환경…
이 논문은 태국에서 가장 널리 사용되는 지역 방언인 Isan language를 위한 최초의 공개 대화형 음성 데이터셋 개발을 소개한다.
대규모 언어 모델(LLMs)이 설문 조사와 실험 연구에서 인간 참여자를 대체할 수 있는지에 대한 논쟁이 계속되고 있다. While re...
Reasoning models have demonstrated remarkable capabilities in complex reasoning tasks. However, ensuring their safety against adversarial jailbreak prompts rema...
AI-assisted tools는 버그 탐지 및 코드 가독성 평가와 같은 인지적으로 요구되는 작업을 수행하는 데 개발자를 지원합니다. 발전에도 불구하고 i...
기존의 프롬프트 학습 방법은 CLIP 모델을 기반으로 하며, 텍스트 토큰을 앵커로 활용하여 학습 가능한 소프트 토큰을 안내합니다. 이러한 안내는 …
스파이킹 신경망(SNN)은 임베디드 및 엣지 AI 분야에서 주요 후보로 부상했습니다. 이들의 고유한 저전력 소비 특성 덕분에 훨씬 더 효율적입니다.
모바일 앱 진화는 널리 연구되어 왔지만, 앱 행동의 지리적 변이는 아직 크게 탐구되지 않았다. 이 논문은 대규모 연구를 제시한다…
대형 언어 모델(LLMs)은 인간을 대신해 평가자로 점점 더 많이 사용되고 있습니다. 확장 가능하지만, 그들의 판단은 불완전한 specificity와 s...
대형 언어 모델(LLM)은 일반 분야 전반에 걸쳐 뛰어난 역량을 보여주지만, 모기지 금융과 같은 전문 분야에 적용하는 데는 …
이 논문은 저자원 버마어에서 자동 음성 인식(ASR) 오류 교정을 위해 sequence-to-sequence Transformer 모델을 조사하며, ...
Large language models must satisfy hard orthographic constraints during controlled text generation, yet systematic cross-architecture evaluation remains limited...
버마어와 같은 저자원 언어에서는 classification 작업에서 종종 final classification layer만 fine-tune하고, pre-trained encoder 가중치는 frozen 상태로 유지합니다. Wh...
풍자를 감지하는 것은 최근 neural network approaches의 발전에도 불구하고 자연어 처리(NLP) 분야에서 여전히 어려운 과제입니다. 현재, ...
Zipf's law in language lacks a definitive origin, debated across fields. This study explains Zipf-like behavior using geometric mechanisms without linguistic el...
오프라인 데이터 선택 및 온라인 자체 정제 생성은 데이터 품질을 향상시키며, 대형 언어 모델(LLMs)을 특정 분야에 적용하는 데 중요한 단계입니다.
인컨텍스트 학습(ICL)이 사전 학습된 라벨 의미를 무시할 수 있는가, 아니면 기존의 의미 백본을 단순히 정제하는 수준에 머무르는가? 우리는 이 질문을 …
대규모 코드 코퍼스에 대해 사전 학습되었거나 파인튜닝된 대형 언어 모델(LLM)은 코드 완성 작업에서 강력한 성능을 보여주었습니다. 그러나 그들의 embe...
요즘, 현대 고속 인터커넥션 네트워크에서 클러스터 통신 중 system calls를 피하는 것이 (예: Data Centers와 High Performance Computing에서) 중요합니다.
softmax Attention의 효율적인 대안으로서, 선형 상태공간 모델(linear state-space models, SSMs)은 일정한 메모리와 선형 연산을 달성하지만, 손실이 있는, 점점 사라지는 s...
대형 언어 모델(LLMs)은 사용자 입력 질의에 대해 정의형 답변을 제공하는 데 효율적인 것으로 입증되었습니다. 인간은 다양한 유형의 답변을 제공하는 반면, …
AlphaEvolve, OpenEvolve, ShinkaEvolve와 같은 진화적 프로그램 합성 시스템은 AI 지원 수학 발견에 새로운 접근 방식을 제공합니다. 이러한 시스템...
엄격한 서비스 수준 목표(SLO)를 충족하기 위해, 현대의 대형 언어 모델(LLMs)은 프리필(prefill) 단계와 디코딩(decoding) 단계를 분리하고 이를 별개의 GPU에 배치한다.
Agentic workflows는 복잡하고 다단계 작업을 해결하기 위한 강력한 패러다임으로 부상했지만, 규모에 맞게 서비스를 제공하는 것은 계산 비용이 많이 듭니다, given the m...
The scarcity of parallel speech corpora critically hampers speech-to-speech translation (S2ST), often forcing reliance on complex, multi-stage pipelines. This p...
대형 오디오 언어 모델(LALM)은 음성 인식부터 일반 오디오 이해에 이르기까지 다양한 작업에서 인상적인 성능을 보여줍니다. 어떻게…
Traffic cameras are essential in urban areas, playing a crucial role in intelligent transportation systems. Multiple cameras at intersections enhance law enforc... 교통 카메라는 도시 지역에서 필수적이며, 지능형 교통 시스템에서 중요한 역할을 합니다. 교차로에 여러 대의 카메라를 설치하면 법 집행을 강화합니다...
이 실증적 연구는 결정론적이며 단일 차원적인 생산성 휴리스틱의 한계를 밝히기 위해 SPACE 프레임워크를 운영함으로써 ...
대형 언어 모델(LLMs)은 소프트웨어 엔지니어링 분야에서 점점 더 많이 채택되고 있지만, 핵심 소프트웨어 설계 개념에 대한 그들의 이해가 얼마나 견고한지는 아직 불확실합니다.
Quantum machine learning (QML)은 컴팩트하고 표현력이 풍부한 표현을 제공할 것을 약속하지만, 측정 병목 현상—좁은 양자‑클래식 읽기…에 시달린다.
이 논문의 목적은 엔지니어링 인프라 재구축의 효율성을 향상시키기 위한 adaptive decision‑making support model을 설명하는 것이다.
Machine learning 모델이 실제 데이터를 기반으로 훈련될 경우, 의도치 않게 편향된 예측을 하여 소외된 커뮤니티에 부정적인 영향을 미칠 수 있습니다. Reweighting은 …
Training deep networks with noisy labels leads to poor generalization and degraded accuracy due to overfitting to label noise. Existing approaches for learning ... 노이즈가 있는 레이블로 딥 네트워크를 학습하면 레이블 노이즈에 과적합하여 일반화 성능이 저하되고 정확도가 떨어집니다. 기존의 학습 접근법은 ...
Sparse Convolution (SpC)은 자율 주행 및 AR/VR에 널리 사용되는 3D 포인트 클라우드 네트워크에 동력을 제공합니다. SpC는 입력 사이의 매핑을 저장하는 커널 맵을 구축합니다.
클라우드 기반 스토리지 플랫폼은 데이터에 대한 유연한 접근성과 협업 지원 덕분에 학계와 비즈니스 환경 모두에서 점점 더 일반화되고 있습니다.
Existing C to Rust translation techniques fail to balance quality and scalability: transpilation-based approaches scale to large projects but produce code with ... → 기존 C에서 Rust로의 변환 기술은 품질과 확장성의 균형을 맞추지 못합니다: 트랜스파일 기반 접근 방식은 대규모 프로젝트에 확장 가능하지만 코드가 ... 로 생성됩니다.