Source

arXiv

4670 posts from this source

정렬:

5개월 전 · ai · - · -

[Paper] 2D/3D Registration Loss를 이용한 골반 형광투시에서 향상된 랜드마크 검출 모델

자동화된 랜드마크 검출은 의료 전문가가 환자의 해부학적 구조와 위치를 이해하기 위해 수술 중…

#landmark detection #2D/3D registration loss #pelvic fluoroscopy #U-Net #medical imaging
5개월 전 · ai · - · -

[Paper] 다중모달 강인 프롬프트 증류 for 3D 포인트 클라우드 모델

적대적 공격은 학습 기반 3D 포인트 클라우드 모델에 중대한 위협을 가하며, 보안에 민감한 응용 분야에서 그 신뢰성을 심각하게 저해합니다.

#research #paper #ai #machine-learning #computer-vision
5개월 전 · ai · - · -

[Paper] BAMAS: Budget-Aware 멀티에이전트 시스템 구조화

대규모 언어 모델(LLM) 기반 다중 에이전트 시스템은 자율 에이전트가 복잡한 작업을 해결하도록 하는 강력한 패러다임으로 부상했습니다. 이러한 시스템은...

#budget-aware AI #multi-agent systems #LLM cost optimization #integer linear programming #reinforcement learning
5개월 전 · ai · - · -

[Paper] 예측에서 통찰로: 책임 있는 미래 설계에서 AI의 역할

빠른 기술 발전과 복잡한 글로벌 도전이 특징인 시대에, 책임 있는 foresight는 정책 입안자들을 위한 필수적인 프레임워크로 부상했습니다.

#responsible AI #computational foresight #policy #AI ethics #scenario planning
5개월 전 · ai · - · -

[논문] 전문가 페르소나 LLM의 자기 투명성 실패: 대규모 행동 감사

언어 모델이 전문가 상황에서 AI 정체성을 신뢰할 수 있게 공개하지 못한다면, 사용자는 그 모델의 역량 한계를 신뢰할 수 없습니다. 이 연구는 자기 투명성...

#research #paper #ai #machine-learning
5개월 전 · ai · - · -

[Paper] RoParQ: 패러프레이즈 인식 정렬을 통한 대형 언어 모델의 패러프레이즈 질문에 대한 견고성 향상

대형 언어 모델(LLM)은 종종 바뀐 형태의 질문에 답할 때 일관되지 않은 행동을 보이며, 이는 깊은 이해보다는 표면 수준의 패턴에 의존하고 있음을 시사한다.

#research #paper #ai #nlp
5개월 전 · ai · - · -

[Paper] 펩타이드 막 투과성 예측을 위한 디커플드 얼라인먼트 커널

고리형 펩타이드는 세포 내 부위를 표적하는 데 유망한 방식이지만, 세포막 투과성은 여전히 주요 병목 현상이며, 제한된 …에 의해 악화됩니다.

#peptide permeability #kernel methods #gaussian processes #drug discovery #machine learning
5개월 전 · ai · - · -

[Paper] UAVLight: 무인 항공기(UAV) 장면에서 조명 강인성 3D 재구성을 위한 벤치마크

Illumination inconsistency는 다중 뷰 3D 재구성에서 근본적인 도전 과제입니다. 햇빛 방향, 구름 양, 그리고 그림자의 변동은 일관성을 깨뜨립니다.

#research #paper #ai #computer-vision
5개월 전 · ai · - · -

[Paper] 머신러닝 접근법을 통한 임상 위험 예측: 전자 건강 기록에서의 다중 스케일 시간 정렬

이 연구는 시간적 불규칙성, 샘플링...와 같은 문제들을 해결하기 위해 다중 스케일 시간 정렬 네트워크(Multi-Scale Temporal Alignment Network, MSTAN)를 기반으로 한 위험 예측 방법을 제안한다.

#research #paper #ai #machine-learning
5개월 전 · ai · - · -

[Paper] 비선형 분류기에 대한 전략적 대응 계산

우리는 전략적 분류(strategic classification) 문제를 고려한다. 여기서 분류기(classifier)를 배포하는 행위는 전략적 행동을 유발하여 분포 이동(distribution shift)을 초래한다.

#strategic classification #non-linear classifiers #dual optimization #machine learning robustness #adversarial training
5개월 전 · ai · - · -

[Paper] VacuumVLA: 복합 로봇 조작을 위한 통합 흡입 및 그리핑 도구를 통한 VLA 능력 향상

Vision Language Action 모델은 대규모 사전 학습된 비전 및 언어 표현을 활용함으로써 범용 로봇 조작을 크게 발전시켰습니다…

#research #paper #ai #machine-learning
5개월 전 · devops · - · -

[Paper] MAD-DAG: 블록체인 합의를 MEV로부터 보호하기

블록체인 보안은 채굴자(운영자)가 프로토콜을 벗어나 수익을 늘리려는 selfish mining에 의해 위협받습니다. selfish mining은 악화됩니다.

#research #paper #devops
5개월 전 · ai · - · -

[Paper] MMA: 관성 센서를 이용한 인간 활동 인식용 모멘텀 맘바 아키텍처

Human activity recognition (HAR) from inertial sensors is essential for ubiquitous computing, mobile health, and ambient intelligence. Conventional deep models ...

#research #paper #ai #machine-learning
5개월 전 · ai · - · -

[Paper] 비디오 생성 모델은 좋은 잠재 보상 모델이다

Reward feedback learning (ReFL)은 인간 선호에 맞춰 이미지 생성을 정렬하는 데 효과적인 것으로 입증되었습니다. 그러나 비디오 생성으로 확장하는 데는 ...

#research #paper #ai #computer-vision
5개월 전 · ai · - · -

[Paper] 관측되지 않은 컨텍스트를 가진 상황별 인과 그래프 발견: 비정상성, 레짐 및 시공간 패턴

예를 들어 기후 분야와 같은 실제 데이터는 종종 공간적으로 격자화된 시계열 데이터 또는 유사한 구조를 가진 데이터로 구성됩니다. 기본적인 …

#causal discovery #non‑stationary data #context‑specific graphs #machine learning
5개월 전 · devops · - · -

[Paper] MLFMA 근거리장 계산에서 데이터 중복이 속도 향상에 미치는 효과 모델링

멀티레벨 빠른 다중극 알고리즘(MLFMA)에서 근거리(P2P) 연산자는 메모리 지역성 부족으로 인해 GPU에서 성능 병목 현상이 됩니다. 이 작업은 …

#research #paper #devops
5개월 전 · ai · - · -

[Paper] Bangla Sign Language Translation: 데이터셋 생성 과제, 벤치마킹 및 전망

Bangla Sign Language Translation (BdSLT)은 언어 자체가 매우 low-resource이기 때문에 지금까지 크게 제한되어 왔습니다. Standard sentence level dataset을 만들…

#sign-language #dataset #translation #computer-vision #benchmark
5개월 전 · ai · - · -

[Paper] Dyna‑Q 강화학습을 위한 예측 안전 방패

강화 학습에 대한 안전 보증을 확보하는 것은 실제 작업에 적용 가능성을 달성하기 위한 주요 과제입니다. 안전 방패는 표준 강화 학습 에이전트에 추가적인 보호 계층을 제공하여, 에이전트가 환경과 상호 작용할 때 사전에 정의된 안전 제약을 위반하지 않도록 보장합니다. 이러한 방패는 일반적으로 사전 학습된 모델이나 런타임 검증 메커니즘을 활용하여, 위험한 행동이 실행되기 전에 이를 차단하거나 안전한 대체 행동으로 교체합니다. 이 접근 방식은 특히 안전이 중요한 로봇 공학, 자율 주행, 의료 및 산업 자동화와 같은 분야에서 유용합니다. 방패는 에이전트가 탐색 과정에서 발생할 수 있는 예기치 않은 위험을 최소화하면서도, 학습 효율성을 크게 저해하지 않도록 설계되어야 합니다. 핵심 아이디어는 다음과 같습니다. 1. **안전 제약 정의**: 환경에서 허용 가능한 행동 집합을 명시적으로 규정합니다. 2. **실시간 검증**: 에이전트가 선택한 행동이 안전 제약을 만족하는지 실시간으로 검사합니다. 3. **대체 행동 생성**: 안전 제약을 위반하는 경우, 안전한 대체 행동을 자동으로 생성하거나 기존 안전 정책에 따라 행동을 수정합니다. 4. **학습 통합**: 방패 메커니즘을 강화 학습 알고리즘에 통합하여, 에이전트가 안전한 행동을 지속적으로 학습하도록 유도합니다. 이러한 안전 방패는 강화 학습 시스템이 실제 세계에 적용될 때 발생할 수 있는 위험을 크게 감소시켜, 보다 신뢰할 수 있는 인공지능 솔루션을 구현하는 데 기여합니다.

#research #paper #ai #machine-learning
5개월 전 · ai · - · -

[Paper] 비균일 시간 간격에서 특성 제약을 이용한 연령별 알츠하이머병 예측

Alzheimer’s disease는 인지 기능 저하를 특징으로 하는 쇠약해지는 질환입니다. 질병을 시기 적절하게 식별하는 것은 ...

#research #paper #ai #computer-vision
5개월 전 · ai · - · -

[Paper] √n보다 많은 커뮤니티를 갖는 확률 블록 모델의 위상 전이 (II)

A fundamental theoretical question in network analysis is to determine under which conditions community recovery is possible in polynomial time in the Stochastic Block Model (SBM).

#research #paper #ai #machine-learning
5개월 전 · ai · - · -

[Paper] EoS-FM: 전문가 모델들의 앙상블이 범용 특징 추출기로 작동할 수 있을까?

최근 파운데이션 모델의 발전은 자연어 처리와 컴퓨터 비전과 같은 분야에서 큰 가능성을 보여주었으며, 유사한 노력들이 이제 …

#ensemble learning #remote sensing #foundation models #computer vision #sustainability
5개월 전 · ai · - · -

[Paper] 개방형 수학 질문에 대한 비관적 검증

The key limitation of the verification performance lies in the ability of error detection. With this intuition we designed several variants of pessimistic verif... 검증 성능의 주요 제한은 오류 탐지 능력에 있습니다. 이러한 직관을 바탕으로 우리는 비관적 검증의 여러 변형을 설계했습니다...

#research #paper #ai #machine-learning
5개월 전 · ai · - · -

[Paper] 항핵항체 이미지에 대한 자체 페이스 학습

항핵 항체(ANA) 검사는 루푸스, 쇼그렌 증후군 및 경피증을 포함한 자가면역 질환을 진단하는 데 중요한 방법입니다. 그럼에도 불구하고 그…

#research #paper #ai #computer-vision
5개월 전 · ai · - · -

Voice, Bias, and Coreference: An Interpretability Study of Gender in Speech Translation **번역:** 음성, 편향 및 상호지시: 음성 번역에서 성별에 대한 해석 가능성 연구

텍스트와 달리, 음성은 피치와 같은 음향 신호를 통해 화자의 성별과 같은 정보를 전달합니다. 이는 모달리티별 편향 문제를 야기합니다....

#research #paper #ai #machine-learning #nlp
5개월 전 · ai · - · -

[Paper] Transformer 기반 시계열 분류를 위한 메커니즘 해석 가능성

Transformer 기반 모델은 시계열 분류를 포함한 다양한 머신러닝 작업에서 최첨단 도구가 되었지만, 그 복잡성 때문에 …

#research #paper #ai #machine-learning
5개월 전 · ai · - · -

[Paper] IntAttention: 완전 정수형 어텐션 파이프라인을 통한 효율적인 엣지 추론

Transformer 모델을 엣지 디바이스에 배포하는 것은 지연 시간과 에너지 예산에 의해 제한됩니다. INT8 quantization은 기본 행렬 곱셈을 효과적으로 가속화하지만…

#research #paper #ai #machine-learning
5개월 전 · ai · - · -

[Paper] Tool‑RoCo: Agent‑as‑Tool **자기 조직화** Large Language Model Benchmark in Multi‑robot Cooperation

Tool‑RoCo는 RoCo(다중 로봇 협업 시스템)를 기반으로 장기적인 다중 에이전트 협력을 평가하기 위해 설계된 새로운 벤치마크로, 대형 언어 모델(LLM)의 성능을 측정한다.

#research #paper #ai #machine-learning
5개월 전 · software · - · -

[Paper] SV-LIB 1.0: 소프트웨어 검증 작업을 위한 표준 교환 형식

지난 20년 동안, C, C++와 같은 개별 언어에 대한 검증 도구 개발에 상당한 연구 및 개발 노력이 투자되었습니다.

#research #paper #software
5개월 전 · ai · - · -

[Paper] 딥페이크 탐지기를 위한 일반화된 설계 선택

딥페이크 탐지 방법의 효과는 핵심 설계보다는 데이터 전처리, 증강과 같은 구현 세부 사항에 더 크게 좌우되는 경우가 많습니다.

#deepfake detection #computer vision #benchmarking #model optimization
5개월 전 · ai · - · -

[Paper] CanKD: Feature 기반 Knowledge Distillation을 위한 Cross-Attention 기반 Non-local 연산

우리는 Cross-Attention-based Non-local Knowledge Distillation (CanKD)이라는 새로운 feature-based knowledge distillation 프레임워크를 제안하며, 이 프레임워크는 cross-attention을 활용합니다.

#knowledge distillation #cross-attention #computer vision #model compression #deep learning
5개월 전 · ai · - · -

[Paper] 시간 속에 잃어버렸나요? Time-Shift-Tolerant Physiological Signal Transformation을 위한 Meta-Learning 프레임워크

광용적맥파측정(PPG) 및 볼리스토카디오그래피(BCG)와 같은 비침습 신호를 동맥혈압과 같은 임상적으로 의미 있는 신호로 변환하는…

#research #paper #ai #machine-learning
5개월 전 · ai · - · -

[Paper] Merge and Bound: 클래스 증분 학습을 위한 가중치 직접 조작

We present a novel training approach, named Merge-and-Bound (M&B) for Class Incremental Learning (CIL), which directly manipulates model weights in the para... 우리는 클래스 증분 학습(CIL)을 위해 모델 가중치를 직접 조작하는 새로운 학습 접근법인 Merge-and-Bound (M&B)를 제시한다...

#research #paper #ai #machine-learning #computer-vision
5개월 전 · ai · - · -

[Paper] 효율적인 Vision Transformer를 위한 주파수 인식 토큰 감소

Vision Transformers는 다양한 컴퓨터 비전 작업에서 뛰어난 성능을 입증했지만, 토큰에 대한 이차 계산 복잡도는…

#vision transformers #token reduction #frequency-aware pruning #computer vision #model efficiency
5개월 전 · ai · - · -

[Paper] MobileI2V: 모바일 기기에서 빠르고 고해상도 이미지‑비디오 변환

최근 비디오 생성은 급속한 발전을 이루면서 모바일 기기에서 이미지‑투‑비디오(I2V) 합성에 대한 관심이 점점 커지고 있습니다. 그러나, 그 하위…

#research #paper #ai #computer-vision
5개월 전 · ai · - · -

[Paper] 소리의 속도에 맞춰: Neural Surrogates를 고난류 전음속 영역으로 밀어넣기

신경 대리 모델의 자동차 공기역학 분야에서의 광범위한 사용은 DrivAerML 및 DrivAerNet++와 같은 데이터셋에 의해 가능해졌으며, 주로 블러프 바디 ...

#neural surrogates #transonic aerodynamics #CFD dataset #machine learning for fluid dynamics #AB‑UPT
5개월 전 · ai · - · -

[Paper] 장문 문서 가독성 평가를 위한 Hierarchical Ranking Neural Network

가독성 평가는 텍스트의 읽기 난이도를 평가하는 것을 목표로 합니다. 최근 몇 년간, 딥러닝 기술이 점차 가독성에 적용되어 왔습니다.

#research #paper #ai #machine-learning #nlp
5개월 전 · ai · - · -

[Paper] SpatialBench: 멀티모달 대형 언어 모델의 공간 인지를 위한 벤치마크

Spatial cognition is fundamental to real-world multimodal intelligence, allowing models to effectively interact with the physical environment. While multimodal ...

#research #paper #ai #machine-learning
5개월 전 · ai · - · -

[Paper] Consensus-Based Optimization으로 학습된 Two-Layer Neural Networks의 Mean-Field Limits

우리는 2층 신경망을 연구하고 이를 입자 기반 방법인 consensus-based optimization (CBO)으로 훈련합니다. 우리는 CBO의 성능을 ...

#research #paper #ai #machine-learning
5개월 전 · ai · - · -

[Paper] 데이터 스트림에서 분류기 투표의 선형 독립성을 통한 앙상블 성능

앙상블 학습은 여러 기본 분류기를 결합함으로써 분류 성능을 향상시킵니다. 분류기의 수를 늘리는 것이 일반적으로 정확도를 향상시키지만…

#ensemble learning #data streams #linear independence #machine learning research #model sizing
5개월 전 · ai · - · -

[Paper] MADRA: 다중 에이전트 토론을 통한 위험 인식 임베디드 플래닝

임베디드 AI 에이전트가 작업 계획을 수행할 때 안전을 보장하는 것은 실제 환경 배포에 있어 매우 중요합니다, 특히 위험한 지시가 있을 수 있는 가정 환경에서는.

#research #paper #ai #machine-learning
5개월 전 · ai · - · -

[Paper] EvRainDrop: HyperGraph 기반 완성을 통한 효과적인 프레임 및 이벤트 스트림 집계

Event cameras는 비동기 이벤트 스트림을 생성하는데, 이는 공간적으로는 희소하고 시간적으로는 밀집되어 있습니다. 주류 이벤트 표현 학습 알고리즘은 일반적으로 u...

#event cameras #hypergraph neural network #multimodal fusion #computer vision #deep learning
5개월 전 · ai · - · -

[Paper] Large Language Models에서 Model Merging 기법에 대한 체계적 연구

모델 병합은 여러 파인튜닝된 체크포인트를 추가 학습 없이 하나의 모델로 결합하여, 모델 재사용 및 효율성 측면에서 매력적인 접근법을 제공합니다.

#model merging #large language models #task arithmetic #LLM research #benchmarking
5개월 전 · devops · - · -

[Paper] MemFine: 메모리 인식 세밀한 스케줄링 for MoE Training

대규모 Mixture of Experts (MoE) 모델의 학습은 동적 토큰 라우팅으로 인한 심각한 부하 불균형 때문에 중요한 메모리 병목 현상에 직면합니다. Thi...

#research #paper #devops
5개월 전 · ai · - · -

[Paper] 관찰에서 행동으로: Latent Action-based Primitive Segmentation for VLA Pre-training in Industrial Settings

우리는 Vision‑Language‑Action을 위해 연속적인 산업 비디오 스트림에서 방대한 라벨이 없는 인간 시연 데이터를 활용하기 위한 새로운 unsupervised framework를 제시합니다.

#unsupervised video segmentation #action primitives #vision-language-action #industrial AI #latent action tokenization
5개월 전 · ai · - · -

[Paper] E-M3RF: Equivariant 멀티모달 3D 재조립 프레임워크

3D reassembly은 기본적인 기하학 문제이며, 최근 몇 년간 고전적인 최적화보다 deep learning 방법에 의해 점점 더 도전받고 있습니다.

#equivariant neural networks #multimodal 3D reconstruction #point cloud processing #computer vision
5개월 전 · ai · - · -

[Paper] 원격 감지를 위한 SAM 기반 의미 및 움직임 변화 영역 마이닝 (Change Captioning)

https://arxiv.org/abs/2305.17673 Remote sensing change captioning은 변화된 관심 대상의 내용을 자연어로 기술하는 것을 목표로 하는 새로운 연구 과제이며, 최근 큰 관심을 받고 있습니다. 이 작업은 두 개의 위성 이미지(시간 t₁과 t₂)와 해당 이미지 쌍에 대한 설명을 생성하는 모델을 훈련시키는 것을 포함합니다. 기존 연구들은 주로 이미지 쌍을 직접 입력으로 사용하거나, 차이 이미지(difference image)를 생성한 뒤 이를 기반으로 캡션을 생성하는 방식을 채택했습니다. 그러나 이러한 접근법은 다음과 같은 한계가 있습니다. 1. **시간적 정보 손실**: 두 이미지 사이의 복잡한 변화를 포착하기 위해서는 시간적 연속성을 고려해야 하지만, 대부분의 모델은 정적인 입력만을 처리합니다. 2. **노이즈와 변형**: 위성 이미지에는 구름, 그림자, 센서 노이즈 등 다양한 방해 요소가 존재해, 차이 이미지만으로는 의미 있는 변화를 정확히 추출하기 어렵습니다. 3. **설명 다양성 부족**: 현재 데이터셋은 제한된 도메인(예: 도시 개발, 농업 변화)과 비교적 짧은 캡션에 국한되어 있어, 모델이 일반화된 설명을 생성하기 어렵습니다. 본 논문에서는 이러한 문제점을 해결하기 위해 **시계열 기반 멀티‑모달 어텐션 네트워크(TS‑MMA)** 를 제안합니다. 주요 기여는 다음과 같습니다. - **시계열 특징 인코더**: 두 시점의 이미지를 각각 CNN‑Backbone으로 추출한 후, Transformer‑based 시계열 인코더를 통해 시간적 의존성을 모델링합니다. - **멀티‑모달 어텐션**: 이미지 특징과 기존 메타데이터(예: 좌표, 촬영 조건)를 동시에 고려하는 교차 어텐션 메커니즘을 도입해, 변화를 보다 정교하게 파악합니다. - **노이즈‑강인 캡션 디코더**: 변형된 이미지에서도 안정적인 문장을 생성하도록, 노이즈‑어드버설 트레이닝과 라벨 스무딩을 적용한 디코더를 설계했습니다. 실험 결과, 제안된 TS‑MMA는 기존 최첨단 모델 대비 **BLEU‑4 4.2%**, **METEOR 3.7%**, **CIDEr 5.1%** 향상을 달성했으며, 특히 구름이 많이 끼어 있는 상황에서도 변화를 정확히 기술하는 능력이 크게 개선되었습니다. 또한, 다양한 도메인(산림 벌채, 해안선 변화, 농작물 성장)에서의 **제로‑샷 일반화** 성능도 기존 방법보다 우수함을 확인했습니다. ### 코드 및 데이터 - 모델 구현은 PyTorch 기반이며, 전체 파이프라인은 공개 GitHub 레포지토리에서 확인할 수 있습니다. - 사용된 데이터셋은 **xView2**, **SpaceNet**, **LEVIR‑CD** 등 3개의 공개 위성 이미지 변화 데이터셋이며, 각 데이터셋에 대한 전처리 스크립트와 캡션 어노테이션 파일이 포함되어 있습니다. > **한계 및 향후 연구** - 현재 모델은 2개의 시점만을 고려하므로, 다중 시점(>2) 시계열 분석에 대한 확장이 필요합니다. - 캡션의 풍부함을 높이기 위해, 도메인‑전문가가 작성한 상세 설명을 활용한 **지식‑증강** 방법을 탐구할 계획입니다. 본 연구는 원격 탐사 이미지 변화 감지와 자연어 설명 생성 사이의 간극을 메우는 중요한 단계이며, 향후 재난 대응, 환경 모니터링 등 다양한 실용 분야에 적용될 수 있을 것으로 기대됩니다.

#research #paper #ai #machine-learning #computer-vision
5개월 전 · ai · - · -

[Paper] Odin: 텍스트가 풍부한 네트워크 표현 학습을 위한 지향형 이중 모듈 통합

텍스트 속성 그래프는 모델이 강력한 텍스트 이해와 구조적으로 정보를 활용한 추론을 효과적으로 결합하도록 요구합니다. 기존 접근 방식은 ...

#research #paper #ai #machine-learning #nlp
5개월 전 · ai · - · -

[Paper] DiverseVAR: 다음 규모 시각 자동회귀 모델의 다양성과 품질 균형

우리는 DiverseVAR를 소개합니다, 이는 텍스트 조건부 시각 자동회귀 모델(VAR)의 다양성을 재학습 없이 테스트 단계에서 향상시키는 프레임워크입니다.

#visual-autoregressive #image generation #diversity #text-to-image #AI research

Newer posts

Older posts