[Paper] TimeLens: 멀티모달 LLMs와 함께하는 Video Temporal Grounding 재고찰
이 논문은 새로운 방법을 제시하는 것이 아니라, 비디오 시간적 그라운딩(VTG)을 위한 직관적이고 점진적이며 필수적인 베이스라인을 설정합니다.
4647 posts from this source
이 논문은 새로운 방법을 제시하는 것이 아니라, 비디오 시간적 그라운딩(VTG)을 위한 직관적이고 점진적이며 필수적인 베이스라인을 설정합니다.
Non-parametric quantization은 파라미터 효율성과 대규모 코드북에 대한 확장성 때문에 많은 주목을 받아왔습니다. 이 논문에서는 ...
우리는 CRISP를 소개한다. 이 방법은 단안 비디오에서 시뮬레이션 가능한 인간 동작과 장면 기하학을 복원한다. 인간‑장면 공동 재구성에 대한 이전 연구는 reli...
Universal transformers (UTs)는 ARC-AGI와 Sudoku와 같은 복잡한 추론 작업에 널리 사용되어 왔지만, 그들의 성능 향상의 구체적인 원천은 r...
최근 3D 생성 모델링의 발전으로 생성 현실감이 크게 향상되었지만, 이 분야는 여전히 기존 표현 방식에 의해 제약을 받고 있습니다, w...
비디오 파운데이션 모델은 시각적으로 현실적이고 시간적으로 일관된 콘텐츠를 생성하지만, world simulators로서의 신뢰성은 그것들이 p를 포착하는지 여부에 달려 있습니다.
최근 휴머노이드 로봇의 발전으로 백플리핑, 달리기, 기어가기 등 민첩한 locomotion 기술이 가능해졌다. 그러나 아직도 휴머노이드에게는 도전적인 과제로 남아 있다.
최근 audio language models는 긴 대화를 따라갈 수 있습니다. 그러나 emotion-aware 또는 spoken dialogue summarization에 대한 연구는 데이터 부족으로 제한됩니다.
확률적 최적화는 현대 머신러닝의 기본이다. 최근 연구는 경량‑t…
병원은 이질적인 임상 및 운영 데이터의 증가하는 양을 활용하여 중요한 사건을 효과적으로 예측할 수 있는 자동화된 시스템이 부족합니다. 초기 아이...
멀티 토큰 생성은 트랜스포머 기반 대형 모델 추론을 가속화하기 위한 유망한 패러다임으로 부상했습니다. 최근 연구들은 주로 디퓨전을 탐구하고 있습니다.
우리는 VASA-3D, audio‑driven, single‑shot 3D head avatar generator를 제안한다. 이 연구는 두 가지 주요 과제에 도전한다: 미묘한 표정 디테일을 포착하는 것.
현대의 reservoir computing은 부드럽고 전역적으로 Lipschitz 연속인 activation functions에 크게 의존하여 방위, 재난 대응 분야에서의 적용을 제한한다.
LLM 기반 챗봇은 기술, 교육, 분석 분야에서 핵심 인터페이스가 되었으며, 코드 추론, 문제 해결 등과 같은 작업을 지원합니다.
우리는 ART, Articulated Reconstruction Transformer를 소개한다 — category-agnostic, feed-forward 모델로, 단지 …만으로 완전한 3D 관절형 객체를 복원한다.
진정으로 적응적인 embodied intelligence를 달성하려면, 정적인 static demonstrations만을 모방하는 것이 아니라 environment를 통해 지속적으로 개선하는 agents가 필요합니다.
Visual Sentiment Analysis (VSA)는 감정적으로 두드러지는 이미지들의 방대한 다양성과 충분한 데이터를 확보하는 데 내재된 어려움 때문에 도전적인 작업입니다.
우리는 gridfm-datakit-v1이라는 Python 라이브러리를 소개합니다. 이 라이브러리는 현실적이고 다양한 Power Flow (PF) 및 Optimal Power Flow (OPF) 데이터셋을 생성하여 Machine Learning 모델을 훈련하는 데 사용됩니다.
우리는 attention-based encoder-decoder (AED) 모델이 장시간 acoustic encodings와 근본적으로 호환되지 않는 문제를 다룹니다. AED 모델은 분할된 발화에 대해 학습됩니다.
오늘날 언어 모델에 대한 많은 연구는 대규모 범용 모델에 초점을 맞추고 있습니다. 그러나 많은 NLP 파이프라인은 잘 정의된, sm...
시기적절하고 정확한 림프종 진단은 암 치료를 안내하는 데 필수적입니다. 표준 진단 관행은 hematoxylin and eosin (HE) 염색된 전체...
음악 편집은 현대 음악 제작에서 중요한 역할을 하며, 영화, 방송, 게임 개발 등에 적용됩니다. 최근 Music generation 분야의 발전은 …
Inter-node communication bandwidth는 다중 노드 GPU 클러스터에서 대규모 distributed training을 점점 더 제한하고 있습니다. While compact models는 궁극적인 deployment…
이 논문은 이미지 기반 일본어 다학문 다중모달 이해 벤치마크인 JMMMU‑Pro와 확장 가능한 Vibe Benchmark Construction을 소개한다, ...
Graph Transformers (GTs)는 모든 쌍이 연결되는 특성을 활용하여 전역 정보를 효과적으로 포착하는 유망한 그래프 학습 도구로 부상했습니다.
많은 실용적인 decision-making 문제는 원하는 속성을 가진 상태에 도달하는 것이 아니라 시스템 전체 history에 의존하는 작업을 포함합니다.
클라우드 컴퓨팅과 사물인터넷(IoT)의 통합은 확장 가능하고 지능형 시스템에 필수적입니다. 그러나 클라우드‑오브‑띵스(CoT) ap...
네팔어는 3천200만 명이 넘는 사람들이 사용하는 저자원 언어로, 복잡한 문법 때문에 자연어 처리(NLP)에서 계속해서 도전 과제에 직면하고 있습니다…
이 튜토리얼(https://tum-nlp.github.io/low-resource-tutorial)은 다국어 및 low-resource 환경에서 작업하는 NLP 실무자, 연구자 및 개발자를 위해 설계되었습니다.
이 논문은 PolyPersona라는 generative framework를 소개한다, 이는 multiple domains에 걸쳐 persona‑conditioned survey responses를 합성하기 위한 것이다.
데이터 전송 성능을 모니터링하는 것은 과학 컴퓨팅 네트워크에서 중요한 작업입니다. 통신 단계 초기에 성능을 예측함으로써, 잠재적으로…
임베디드 애플리케이션은 종종 하드웨어에 접근하기 위해 Hardware Abstraction Layer (HAL)를 사용합니다. HAL을 부적절하게 사용하면 하드웨어 동작이 올바르지 않을 수 있으며, 결과...
전통적인 unit tests는 단일 input-output 쌍을 검증하고, 실행 경로의 대부분 입력은 테스트되지 않은 채로 남깁니다. Property-based testing은 이 단점을 해결합니다.
기업들은 애자일 방법론과 DevOps를 채택하여 소프트웨어 집약적인 제품의 효율적인 개발 및 배포를 촉진합니다. 이는 차례로 chal...
일부 병렬 계산 모델에서는 작업을 더 작은 태스크로 나누어 완전히 비동기적으로 실행할 수 있습니다. 다른 상황에서는 병렬 태스크가 …
전통적인 워크플로우에서 복잡한 수동 파일 편집 및 커맨드라인 작업에 대한 높은 러닝 커브와 의존성을 해결하기 위해, 주류 오픈소스…
Edge computing은 컴퓨팅 자원을 분산시켜, 의료 및 농업 분야의 Internet of Things (IoT)와 같은 영역에서 새로운 애플리케이션을 가능하게 합니다...
Penetration testing은 실제 위협에 대비해 system security를 평가하고 강화하는 데 필수적이지만, traditional workflows는 여전히 매우 수동적이며, …
우리는 Any-to-Any 모델이라고 불리는 새로운 멀티모달 모델 클래스에 대한 효율적인 온라인 서빙 시스템인 Cornserve를 소개합니다. Any-to-Any 모델은 조합을 받아들입니다.
JavaScript의 광범위한 채택은 정교한 obfuscation 기법을 사용해 악성 코드를 은폐하는 악의적인 공격자들에게 매력적인 표적이 되었습니다.
Large language models (LLMs)은 자동 코드 생성에서 눈부신 진전을 이루었지만, 고성능 코드를 생성하는 능력은 여전히 제한적이다-...
AI 에이전트의 부상은 소프트웨어를 구축하는 방식을 변화시키고 있습니다. 에이전트의 약속은 개발자들이 코드를 더 빠르게 작성하고, 여러 작업을 d...에 위임할 수 있다는 것입니다.
Vehicular Edge Computing (VEC)는 지능형 교통 시스템에서 계산 효율성과 서비스 품질을 향상시키는 유망한 패러다임으로 부상하고 있습니다.
극도의 이기종성이 나타나는 최신 HPC 시스템은 quantum accelerators를 포함하기 시작하면서, classical과 quantum 사이를 조정할 수 있는 runtimes를 필요로 하고 있다.
대형 언어 모델(LLMs)은 프로그램과 다중 에이전트 시스템을 진화시키는 데 점점 더 많이 사용되고 있지만, 대부분의 기존 접근 방식은 overwrite-based mutations에 의존한다…
대규모 언어 모델(LLMs)은 프로그램 및 다중 에이전트 시스템을 진화시키는 데 점점 더 많이 사용되고 있지만, 대부분의 기존 접근 방식은 덮어쓰기 기반 변이를 의존한다…
비디오 디퓨전 모델은 생성 비디오 합성에 혁신을 가져왔지만, 정확도가 떨어지고 느리며 생성 과정에서 불투명할 수 있어 사용자를 …
3D 포인트 클라우드 처리를 위한 최신 신경 아키텍처는 convolutional layers와 attention blocks를 모두 포함하지만, 이를 조합하는 최적의 방법은 아직 명확하지 않다.