[Paper] DeepResearchEval: 딥 리서치 작업 구성 및 Agentic Evaluation을 위한 자동화 프레임워크
딥 리서치 시스템은 다단계 웹 리서치, 분석 및 교차 소스 합성에 널리 사용되지만, 그 평가에는 여전히 어려움이 있습니다. 기존 벤치마크...
딥 리서치 시스템은 다단계 웹 리서치, 분석 및 교차 소스 합성에 널리 사용되지만, 그 평가에는 여전히 어려움이 있습니다. 기존 벤치마크...
멀티태스크 학습(MTL)과 로우-랭크 어댑테이션(LoRA)의 결합은 대규모 언어 모델의 파라미터 효율적인 배포를 위한 유망한 방향으로 부상하고 있습니다.
오늘날 조직들은 FAQ, 트러블슈팅, 추천, 아이디에이션과 같은 다양한 작업을 처리할 수 있는 챗봇을 구축하고자 합니다. My previous a...
멀티에이전트 시스템은 다양한 응용 분야에서 실용적인 LLM 기반 협업자로 진화했으며, 다양성과 교차 검증을 통해 견고성을 확보했습니다. 그러나, m...
Word Sense Disambiguation (WSD)은 WordNet, BabelNet, Oxford Dictionary of English와 같은 의미 체계를 사용하여 널리 평가되어 왔습니다. 그러나, ...
Taxonomies는 다양한 분야에서 구조화된 지식 표현의 기반을 형성하며, e-commerce catalogs, semantic search 등과 같은 응용 프로그램을 가능하게 합니다.
시드된 토픽 모델링, LLM과의 통합, 요약된 데이터에 대한 학습은 NLP 툴킷의 새로운 부분입니다. 포스트 “Topic Modeling Techniques for 202…”입니다.
본 연구에서는 실제 학회 논문 제출을 이용하여 Elo 순위 리뷰 시스템에서 대형 언어 모델(LLM) 에이전트 리뷰어의 역학을 탐구한다. Mu...
대형 언어 모델은 종종 Chain-of-Thought (CoT)를 사용하여 복잡한 추론 작업을 더 효과적으로 해결하지만, 그 대가로 길고 저대역폭 토큰 시퀀스를 필요로 합니다.
우리는 AI Productivity Index for Software Engineering (APEX‑SWE)를 소개합니다. 이는 프론티어 AI 모델이 경제적으로 가치 있는 작업을 수행할 수 있는지를 평가하기 위한 벤치마크입니다.
다양하고 잠재적으로 상충되는 선호를 가진 사용자들에게 서비스를 제공하도록 대형 언어 모델(LLMs)을 정렬하는 것은 개인화 및 신뢰성 측면에서 핵심 과제이다.
강화 학습(RL)은 특히 복잡한 추론 작업에 대해 사후 훈련된 대형 언어 모델(LLMs)의 핵심 패러다임이 되었지만, 종종…