[Paper] MADRA: 다중 에이전트 토론을 통한 위험 인식 임베디드 플래닝
임베디드 AI 에이전트가 작업 계획을 수행할 때 안전을 보장하는 것은 실제 환경 배포에 있어 매우 중요합니다, 특히 위험한 지시가 있을 수 있는 가정 환경에서는.
임베디드 AI 에이전트가 작업 계획을 수행할 때 안전을 보장하는 것은 실제 환경 배포에 있어 매우 중요합니다, 특히 위험한 지시가 있을 수 있는 가정 환경에서는.
대규모 Mixture of Experts (MoE) 모델의 학습은 동적 토큰 라우팅으로 인한 심각한 부하 불균형 때문에 중요한 메모리 병목 현상에 직면합니다. Thi...
https://arxiv.org/abs/2305.17673 Remote sensing change captioning은 변화된 관심 대상의 내용을 자연어로 기술하는 것을 목표로 하는 새로운 연구 과제이며, 최근 큰 관심을 받고 있습니다. 이 작업은 두 개의 위성 이미지(시간 t₁과 t₂)와 해당 이미지 쌍에 대한 설명을 생성하는 모델을 훈련시키는 것을 포함합니다. 기존 연구들은 주로 이미지 쌍을 직접 입력으로 사용하거나, 차이 이미지(difference image)를 생성한 뒤 이를 기반으로 캡션을 생성하는 방식을 채택했습니다. 그러나 이러한 접근법은 다음과 같은 한계가 있습니다. 1. **시간적 정보 손실**: 두 이미지 사이의 복잡한 변화를 포착하기 위해서는 시간적 연속성을 고려해야 하지만, 대부분의 모델은 정적인 입력만을 처리합니다. 2. **노이즈와 변형**: 위성 이미지에는 구름, 그림자, 센서 노이즈 등 다양한 방해 요소가 존재해, 차이 이미지만으로는 의미 있는 변화를 정확히 추출하기 어렵습니다. 3. **설명 다양성 부족**: 현재 데이터셋은 제한된 도메인(예: 도시 개발, 농업 변화)과 비교적 짧은 캡션에 국한되어 있어, 모델이 일반화된 설명을 생성하기 어렵습니다. 본 논문에서는 이러한 문제점을 해결하기 위해 **시계열 기반 멀티‑모달 어텐션 네트워크(TS‑MMA)** 를 제안합니다. 주요 기여는 다음과 같습니다. - **시계열 특징 인코더**: 두 시점의 이미지를 각각 CNN‑Backbone으로 추출한 후, Transformer‑based 시계열 인코더를 통해 시간적 의존성을 모델링합니다. - **멀티‑모달 어텐션**: 이미지 특징과 기존 메타데이터(예: 좌표, 촬영 조건)를 동시에 고려하는 교차 어텐션 메커니즘을 도입해, 변화를 보다 정교하게 파악합니다. - **노이즈‑강인 캡션 디코더**: 변형된 이미지에서도 안정적인 문장을 생성하도록, 노이즈‑어드버설 트레이닝과 라벨 스무딩을 적용한 디코더를 설계했습니다. 실험 결과, 제안된 TS‑MMA는 기존 최첨단 모델 대비 **BLEU‑4 4.2%**, **METEOR 3.7%**, **CIDEr 5.1%** 향상을 달성했으며, 특히 구름이 많이 끼어 있는 상황에서도 변화를 정확히 기술하는 능력이 크게 개선되었습니다. 또한, 다양한 도메인(산림 벌채, 해안선 변화, 농작물 성장)에서의 **제로‑샷 일반화** 성능도 기존 방법보다 우수함을 확인했습니다. ### 코드 및 데이터 - 모델 구현은 PyTorch 기반이며, 전체 파이프라인은 공개 GitHub 레포지토리에서 확인할 수 있습니다. - 사용된 데이터셋은 **xView2**, **SpaceNet**, **LEVIR‑CD** 등 3개의 공개 위성 이미지 변화 데이터셋이며, 각 데이터셋에 대한 전처리 스크립트와 캡션 어노테이션 파일이 포함되어 있습니다. > **한계 및 향후 연구** - 현재 모델은 2개의 시점만을 고려하므로, 다중 시점(>2) 시계열 분석에 대한 확장이 필요합니다. - 캡션의 풍부함을 높이기 위해, 도메인‑전문가가 작성한 상세 설명을 활용한 **지식‑증강** 방법을 탐구할 계획입니다. 본 연구는 원격 탐사 이미지 변화 감지와 자연어 설명 생성 사이의 간극을 메우는 중요한 단계이며, 향후 재난 대응, 환경 모니터링 등 다양한 실용 분야에 적용될 수 있을 것으로 기대됩니다.
텍스트 속성 그래프는 모델이 강력한 텍스트 이해와 구조적으로 정보를 활용한 추론을 효과적으로 결합하도록 요구합니다. 기존 접근 방식은 ...
딥 뉴럴 네트워크(DNN)와 콜모고로프-아놀드 네트워크(KAN)는 유연성과 표현력 때문에 함수 근사에 널리 사용되는 방법입니다. 최근 연구에서는 KAN이 전통적인 DNN에 비해 더 적은 파라미터로도 복잡한 함수를 효율적으로 모델링할 수 있음을 보여주었습니다. 특히 KAN은 각 레이어에서 다항식 기반 활성화 함수를 사용함으로써, 입력 차원과 출력 차원 사이의 비선형 관계를 보다 직접적으로 캡처합니다. 이러한 특성은 고차원 데이터나 비선형성이 강한 물리 시스템을 모델링할 때 큰 장점을 제공합니다. 또한, KAN은 학습 과정에서 파라미터 초기화와 최적화 전략에 대한 요구사항이 DNN보다 완화되는 경향이 있습니다. 이는 학습 안정성을 높이고, 과적합 위험을 감소시키는 데 기여합니다. 실험 결과에 따르면, 동일한 데이터셋에 대해 KAN은 DNN보다 빠른 수렴 속도와 더 낮은 테스트 오류를 기록했습니다. 요약하면, KAN은 함수 근사 문제에서 DNN을 보완하거나 대체할 수 있는 강력한 대안이며, 특히 파라미터 효율성과 학습 안정성이 중요한 응용 분야에서 큰 잠재력을 가지고 있습니다.
The rigid, uniform allocation of computation in standard Transformer (TF) architectures can limit their efficiency and scalability, particularly for large-scale... → 표준 Transformer (TF) 아키텍처에서의 경직되고 균일한 연산 할당은 특히 대규모...
Recent divide-and-conquer reasoning approaches, particularly those based on Chain-of-Thought (CoT), have substantially improved the Text-to-SQL capabilities of ... → 최근의 분할‑정복 추론 접근 방식, 특히 체인‑오브‑씽크(Chain-of-Thought, CoT)를 기반으로 한 방식은 Text-to‑SQL 기능을 크게 향상시켰습니다 ...
Lindsey (2025)는 네 가지 실험을 통해 언어 모델의 내성적 인식을 조사했으며, 모델이 때때로 주입된 …을 감지하고 식별할 수 있음을 발견했습니다.
Web automation employs intelligent agents to execute high-level tasks by mimicking human interactions with web interfaces. Despite the capabilities of recent La... 웹 자동화는 지능형 에이전트를 사용하여 웹 인터페이스와의 인간 상호작용을 모방함으로써 고수준 작업을 수행합니다. 최근 대형 언어 모델(LLM)의 능력에도 불구하고...
'이미지를 통한 사고'는 시각적 추론을 발전시키는 효과적인 패러다임으로 떠오르며, 시각적 증거를 삽입함으로써 텍스트만으로 이루어진 사고 사슬을 넘어 확장됩니다.
Unit testing은 소프트웨어를 검증하고 회귀 위험을 완화하기 위한 필수적이면서도 노동집약적인 기술입니다. 고전적인 자동화 방법은 효과적으로 ...
소프트웨어 엔지니어링(SE) 연구 산출물을 데이터셋 간에 자동으로 적응시키는 것은 확장성과 재현성을 위해 필수적이지만, 아직도 규모가 크다...