[Paper] Simulstream: 스트리밍 음성-텍스트 번역 시스템의 평가 및 시연을 위한 오픈소스 툴킷
Streaming Speech-to-Text Translation (StreamST)은 들어오는 음성에 맞춰 동시에 번역을 생성해야 하므로, 엄격한 지연 시간 제약과 높은 정확도 요구를 갖는다.
3232 posts from this source
Streaming Speech-to-Text Translation (StreamST)은 들어오는 음성에 맞춰 동시에 번역을 생성해야 하므로, 엄격한 지연 시간 제약과 높은 정확도 요구를 갖는다.
계산 성능과 온칩 통신 대역폭 사이의 격차가 커짐에 따라 현대 Systems-on-Chip (SoCs)에서 중요한 병목 현상이 되고 있습니다, 특히 …
멀티모달 대형 언어 모델(MLLMs)은 시각적 이해를 통해 LLMs를 확장하며, 세 단계 파이프라인인 멀티모달 전처리, 비전 인코딩, 그리고 LL…
대규모 언어 모델(Large Language Models, LLMs)을 활용한 코드 리뷰 자동화는 엄청난 가능성을 보여주지만, 실용적인 채택은 신뢰성 부족과 컨텍스트 인식…
우리는 병리학에서 다중 인스턴스 학습(MIL)을 위한 오픈 소스 AutoML 및 벤치마킹 프레임워크인 PathBench-MIL을 소개합니다. 이 시스템은 end-to‑end…
목표: 목표는 cloud-based, federated system을 개발하여 데이터가 생성되는 환경에서 단일 search, discovery 및 analysis 지점으로 제공하는 것이었습니다.
NFT 생태계는 Non-Fungible Tokens (NFTs)의 생성, 배포 및 거래를 포괄하는 상호 연결된 분산형 환경을 나타냅니다.
Software Defect Prediction (SDP) 모델은 사전 예방적인 소프트웨어 품질 보증의 핵심이지만, 그 효과는 종종 사용 가능한 데이터의 품질에 의해 제한됩니다.
Survey research는 소프트웨어 공학에서 기본적인 empirical method이며, professional practices, perceptions 등에 대한 데이터를 체계적으로 수집할 수 있게 합니다.
전력 시스템은 오늘날 사회를 탄소‑무료 경제로 전환하는 데 핵심입니다. 경매를 포함한 장기 전력 시장 메커니즘은 지원…
웹 애플리케이션은 현대 디지털 생활의 대부분을 기반으로 하지만, 확장 가능하고 일관된 클라우드 애플리케이션을 구축하는 것은 여전히 어려우며, 클라우드 전반에 걸친 전문 지식이 필요합니다.
SWE-bench와 같은 벤치마크는 Large Language Models (LLMs)의 repository‑level 소프트웨어 엔지니어링 작업에 대한 평가를 표준화했습니다. 그러나 이러한 노력…
우리는 항공기 정비 스케줄링 문제를 제시한다. 이 문제는 각 항공기의 정비 작업에 적절히 자격을 갖춘 staff를 배정해야 한다. 작업은 ...
대형 언어 모델(LLMs)은 실제 코드 생성에 점점 더 많이 적용되고 있으며, 기능적 정확성만으로는 신뢰할 수 있는 배포에 충분하지 않습니다,…
우리는 GraphCue를 제시한다. 이는 토폴로지 기반 검색 및 에이전트‑인‑더‑루프 프레임워크로, 자동화된 SDN 구성을 지원한다. 각 사례는 JSON 그래프로 추상화된다.
Spatio-Temporal Graph Neural Networks (ST-GNNs)는 스마트 모빌리티에서 지리적으로 분산된 센서로부터 고주파 데이터 스트림을 처리하는 데 적합합니다.
수십억 개의 벡터에 대해 근사 최근접 이웃 검색(ANNS)을 확장하려면 정확도, 지연 시간 및 처리량의 균형을 맞추는 분산 인덱스가 필요합니다. 그러나 존재…
Federated Learning (FL)은 여러 클라이언트가 개인 데이터를 공유하지 않고 모델을 공동으로 학습할 수 있게 합니다. 그러나 FL은 Byzantine 공격에 취약합니다.
Diffusion Large Language Models (dLLMs)은 Autoregressive Models (ARMs)에 대한 유망한 대안으로 떠올랐으며, 순차적 제한을 극복하기 위해 parallel decoding을 활용합니다.
현대 블록체인들은 단일 리더 병목 현상을 제거하고 검열 저항성을 향상시키기 위해 다중 제안자(MCP) 합의를 점점 더 많이 채택하고 있습니다. 그러나 MCP만으로는 ...
Depth-of-field 제어는 사진 촬영에서 필수적이지만, 완벽한 초점을 맞추려면 여러 번 시도하거나 특수 장비가 필요합니다. Single-image refocusing은 아직…
우리는 WorldCanvas를 소개합니다. 이는 promptable world events를 위한 프레임워크로, 텍스트, trajectories, reference image를 결합하여 풍부하고 사용자 주도적인 시뮬레이션을 가능하게 합니다.
자연어에서 생성적 사전학습(generative pretraining)의 성공에 영감을 받아, 우리는 동일한 원칙이 강력한 자체 지도(self-supervised) 시각 학습자(visual learners)를 만들 수 있는지 묻는다. Inst...
멀티모달 LLM(MLLM)용 기존 평가 방법은 해석 가능성이 부족하고, 종종 중요한 능력 격차를 완전히 드러내기에 충분하지 않다.
시각 입력으로부터 3D 장면 기하학을 인식하고 재구성하는 것은 자율 주행에 매우 중요합니다. 그러나 아직도 운전 목표에 특화된 밀집 기하학이 부족합니다.
이미지 편집은 급속히 발전했지만, 비디오 편집은 덜 탐구된 상태이며 일관성, 제어 및 일반화에 대한 도전에 직면하고 있습니다. 우리는 디자인을…
최근 연구에 따르면 멀티모달 대형 언어 모델(MLLMs)은 비전 도구와의 상호작용을 포함한 멀티모달 인터리브 체인오브쓸(Chain-of-Thought, CoT)에서 이점을 얻는 것으로 나타났습니다.
명시적 추론 능력을 갖춘 Large language models (LLMs)은 수학적 추론에 뛰어나지만 여전히 잘못된 계산과 같은 process errors를 범합니다.
VR 헤드셋과 3D 시네마를 포함한 스테레오스코픽 디스플레이의 급속한 성장으로 고품질 스테레오 비디오 콘텐츠에 대한 수요가 증가하고 있습니다. 그러나, pr...
이전 연구들에서 LLM의 내부 작동을 조사한 결과, 종종 회로(circuits)라고 불리는 희소 서브네트워크가 발견되었으며, 이들은 ... 수행하는 데 책임이 있다.
본 연구에서는 다양한 장면 거리 전반에 일반화되는 파노라마 메트릭 깊이 파운데이션 모델을 제시합니다. 우리는 데이터‑인‑루프 패러다임을 …에서 탐구합니다.
이 논문은 검증 가능한 보상(RLVR)을 갖는 강화 학습에서 exploration‑exploitation trade‑off를 조사하며, 이는 추론 능력을 향상시키기 위한 프레임워크이다.
로봇공학에서 언어에 이르기까지 다양한 분야에서 표준적인 관행은 먼저 대규모 시연 데이터셋으로 정책(policy)을 사전학습(pretrain)하고, 그 다음에 이 정책을 파인튜닝(fin... )
최근 멀티모달 모델의 발전은 고해상도 이미지 생성에서 이미지 토큰화의 핵심적인 역할을 강조합니다. 이미지를 압축하여 컴팩트한 la...
3D hand trajectory prediction에 관한 기존 연구들은 움직임을 의미론적 감독과 분리하는 데이터셋과 추론을 약하게 연결하는 모델에 의해 제한됩니다.
Generation-time text watermarking은 AI 생성 콘텐츠의 추적성을 위해 텍스트에 통계적 신호를 삽입합니다. 우리는 LLM이 ...인 *post-hoc watermarking*을 탐구합니다.
우리는 토큰이 의미가 결정되는 변수인 시퀀스에서 산술을 해결하도록 트랜스포머를 학습시킬 때 발생하는 메커니즘을 조사한다.
AI technologies는 대규모 텍스트 코퍼스를 포함하는 비즈니스 및 연구 응용 분야로 빠르게 진입했으며, 여기에는 computational journalism 연구와 뉴스가 포함됩니다.
보상 모델(RMs)은 대형 언어 모델(LLMs) 훈련에 필수적이지만, 이미지와 텍스트가 교차하는 시퀀스를 처리하는 옴니 모델에 대해서는 아직 충분히 탐구되지 않았다.
임베디드 애플리케이션에서 하드웨어 추상화 계층(HAL) 인터페이스를 올바르게 사용하는 것은 오작동, 충돌, 심지어 하드웨어 손상을 방지하기 위해 매우 중요합니다. S...
Video Large Language Models (VLLMs)는 인터넷 규모 데이터에 대한 사전 학습을 통해 세계 지식을 활용한 비디오 이해를 가능하게 하며, 이미 가능성을 보여주고 있습니다.
대규모 언어 모델(LLMs)을 강화 학습(RL)을 통해 검색 엔진과 결합하는 것이 검색 에이전트를 구축하는 효과적인 접근법으로 부상하고 있다. Howe...
Equivariant atomistic machine learning 모델은 외삽 능력과 예측 정확도 모두에서 상당한 향상을 가져왔습니다. 기반에 따라...
로봇 학습 연구에 있어 중요한 과제는 로봇 정책의 성능을 정확하게 측정하고 비교할 수 있는 능력입니다. 로봇공학에서의 벤치마킹…
Machine Learning (ML)을 희귀 질환, 예를 들어 collagen VI‑related dystrophies (COL6‑RD)의 진단에 적용하는 것은 근본적으로 s…에 의해 제한됩니다.
생물학에서 영감을 받은 스파이킹 뉴럴 네트워크(SNN)는 시간에 따라 이산적인 스파이크를 통해 정보를 처리하여 고전적인 방법에 대한 에너지 효율적인 대안을 제공합니다.
Transformer 기반 언어 모델은 다양한 작업에서 놀라운 성능을 달성했지만, 높은 inference latency는 상당한 과제를 제기합니다.
Prosody -- 말의 멜로디 --는 메시지의 단어나 텍스트에 포착되지 않는 중요한 정보를 전달한다. 이 논문에서는 information-t...