[Paper] RealBench: 실제 소프트웨어 개발 실무에 맞춘 레포 수준 코드 생성 벤치마크
코드 작성은 소프트웨어 개발에서 상당한 시간과 노력이 필요합니다. 이 과정을 자동화하기 위해 연구자들은 Large Language Models를 활용하여 큰 진전을 이루었습니다.
4454 posts from this source
코드 작성은 소프트웨어 개발에서 상당한 시간과 노력이 필요합니다. 이 과정을 자동화하기 위해 연구자들은 Large Language Models를 활용하여 큰 진전을 이루었습니다.
Single-view 3D shape retrieval는 기본적이면서도 도전적인 작업으로, 사용 가능한 3D 데이터가 증가함에 따라 점점 더 중요해지고 있습니다. 기존 접근 방식은 …
소프트웨어 검증을 옹호하는 사람들은 코드 단순성이 코드 검증 노력과 연관이 있다고 제시하며, 형식 검증기가 더 적은 false...
목표: 전기뇌파검사(electroencephalography, EEG)에서 시각 정보를 디코딩하는 것은 신경과학 및 뇌-컴퓨터 인터페이스(BCI) 연구에서 중요한 문제이다. Ex...
Mutants는 테스트와 디버깅을 두 가지 역할로 지원한다: (i) 테스트 목표로서, (ii) 실제 결함의 대체물로서. 죽이기 어려운 mutants는 더 나은 가이드를 제공한다…
최근 large language models의 발전으로 수학적 추론을 포함한 다양한 작업에서 상당한 향상이 이루어졌으며, 이는 평가에 사용됩니다.
우리는 의료 영상에 대한 deep networks가 인간이 해석할 수 없고 매우 취약한 predictive input patterns와 같은 유용한 nonrobust features를 학습하는지 연구한다.
OpenClaw와 같은 자율 에이전트 시스템은 긴 컨텍스트 입력과 다중 턴 추론으로 인해 상당한 효율성 문제를 야기합니다. 이는 prohi...
대형 언어 모델(LLMs)은 추론을 잘하지만, 길고 잡음이 많은 문맥에 묻혀 있을 때 결정적인 증거를 놓치는 경우가 종종 있습니다. 우리는 HiLight, Evidence Emph...
퍼블릭 클라우드는 점점 이기종 하드웨어를 노출하고 있지만, 그 할당 인터페이스는 여전히 경직된 온디맨드 및 스팟 서비스 클래스 중심으로 구축되어 있습니다. This mak...
AI 어시스턴트는 점점 더 테스트 케이스를 생성하고 진화시킬 수 있습니다. 문제는 이제 단순히 이를 생산하는 것이 아니라, 엔지니어가 왜 …
마이크로서비스는 모듈성 및 확장성을 지원하기 위해 분산된 팀과 명확한 서비스 소유권에 의존하는 인기 있는 소프트웨어 아키텍처입니다. 그러나 i...
Coflow는 분산 시스템에서 기본적인 애플리케이션 레이어 추상화로 등장했으며, 통신 의존성을 나타내고 협업 man...
서버리스 플랫폼에서의 연합 학습(Federated learning, FL) 집계는 확고한 확장성 한계에 직면한다: 기존 아키텍처(lambda-FL, LIFL)는 클라이언트를 …
멀티태스크 최적화는 다수의 작업을 병렬로 해결하는 강력한 접근법이다. 그러나 기존 알고리즘은 뚜렷한 제한에 직면한다: Populati...
비디오가 빨라졌는지 느려졌는지 어떻게 알 수 있을까? 어떻게 하면 다양한 속도의 비디오를 생성할 수 있을까? 비디오는 현대 커뮤니케이션의 중심에 있었지만…
Streaming Continual Learning (CL)은 일반적으로 연속적인 스트림을 시간적 분할을 통해 이산 작업의 시퀀스로 변환합니다. 우리는 이 …
자동 음성 인식(ASR)은 전통적으로 의미에 민감하지 않은 지표인 Word Error Rate(WER)를 사용해 평가됩니다. 임베딩 기반 의미 메트릭...
Continual learning (CL)은 모델이 순차적으로 작업을 습득하면서 이전에 학습한 지식을 유지하는 방법을 연구한다. 벤치마킹에서 상당한 진전이 있음에도 불구하고...
인간 활동과 그 주변 환경을 이해하는 데는 일반적으로 visual perception에 의존하지만, 카메라는 프라이버시와 안전 측면에서 지속적인 문제를 제기한다.
우리는 배치 설정에서 다중 보정(multicalibration)의 최소‑최대(minimax) 샘플 복잡성을 연구한다. 학습자는 알려지지 않은 분포로부터 n개의 i.i.d. 샘플을 관찰하고, 출력을 해야 한다.
우리는 텍스트, 이미지, 비디오, 3D geometry, hidden representations 등 다양한 모달리티에 대해 원시적으로 학습된 통합 멀티모달 모델인 Omni를 제시한다. 우리는 ...
우리는 CrossCommitVuln-Bench를 소개합니다. 이는 15개의 실제 Python 취약점(CVE)으로 구성된 선별된 벤치마크이며, 여기서 악용 가능한 조건이 여러 커밋에 걸쳐 도입되었습니다.
최첨단 언어 모델(frontier language models)이 정적 수학 벤치마크(static mathematical benchmarks)에서 거의 최고 수준의 성능을 달성함에 따라, 기존 평가들은 점점 더 모델을 구별하기 어려워지고 있다.
우리는 Vista4D를 소개한다. 이는 입력 비디오와 목표 카메라를 4D 포인트 클라우드에 기반을 두는 견고하고 유연한 video reshooting 프레임워크이다. 구체적으로, 주어진…
대규모 비전-언어 모델(LVLMs)의 능력이 인상적으로 향상되었음에도 불구하고, 이러한 시스템은 여전히 hallucinations에 취약합니다, 즉 ...
Scientific workflow systems는 execution—scheduling, fault tolerance, resource management—을 자동화하지만, 그 앞에 있는 semantic translation은 자동화하지 않습니다. Scienti...
인간과 최신 vision models는 비슷한 classification accuracy에 도달할 수 있지만, 체계적으로 다른 종류의 실수를 저지릅니다—실수가 발생하는 빈도는 다르지 않고…
Low-rank adaptation (LoRA)는 파라미터 효율적인 파인튜닝(PEFT)의 사실상 표준으로 부상했으며, 기반 모델의 적응을 가능하게 합니다.
최근 몇 년간 이미지 생성과 생성된 이미지 탐지 모두에서 상당한 진전이 이루어졌습니다. 그들의 빠른, 그러나 대체로 독립적인 개발에도 불구하고…
딥러닝 비디오 초해상도는 빠르게 발전했지만, 기후 분야에서는 일반적으로 공간이나 시간 중 하나만 초해상도(해상도 증가)를 적용하며, 그리고 …
모델 규모가 계속 커짐에 따라, 파라미터 효율적인 파인튜닝이 전체 파인튜닝에 대한 강력한 대안으로 부상했습니다. LoRA가 널리 채택되는 동안…
전 세계의 Research computing centers는 새로운 사용자를 onboarding하는 데 어려움을 겪고 있습니다. Subject matter experts, researchers, 그리고 principal investigators는 종종 …
입법 행동(legislative behavior) 분석은 종종 투표 기록(voting records)에 의존하여 정치 연설(political speech)의 풍부한 의미적(semantic) 및 수사적(rhetorical) 내용을 간과한다. 이 논문에서 우리는 …
이 논문은 AI 게임 프로그래밍을 위한 새로운 패러다임을 제시하며, large language models (LLMs)을 활용해 Claude Shannon의 taxonomy를 확장하고 실용화합니다.
지리적 맥락은 종종 자동차 보험 위험과 관련이 있다고 여겨지지만, 공공 보험계리 데이터셋은 제한된 위치 식별자를 제공하여 이를 제약합니다.
전력 공급과 수요 사이의 순간적인 균형을 유지하는 것은 신뢰성과 그리드 불안정성을 방지하는 데 필수적입니다. 시스템 운영자는 이를 …
Event extraction은 텍스트에서 사건의 핵심 측면을 식별합니다. 이는 사건 이해와 분석을 지원하며, 정보에 기반한 d…
Real-time 감지와 완화는 대규모 cloud-native services에 있어 매우 중요합니다. 여기서 몇 분의 downtime도 대규모…
Event extraction은 이벤트 이해와 분석에 필수적입니다. 이는 문서 요약 및 비상 상황에서의 decision-making과 같은 작업을 지원합니다....
대규모 언어 모델(LLMs)이 어떤 종류의 사실적 지식을 기억하는지를 이해하는 것은 그들의 신뢰성과 한계를 평가하는 데 필수적이다. Entity-based ...
생성 AI(GenAI) 방법이 카메라 이미지를 사진처럼 사실적으로 변형할 수 있는 능력은 온라인에 공유되는 이미지의 진위성에 대한 인식을 높였습니다. Inte...
Physical video understanding은 이벤트를 올바르게 명명하는 것만으로는 충분하지 않다. 모델은 텍스트 규칙으로부터 pouring, sliding, collision에 대한 질문에 답할 수 있다.
인간의 도덕 판단은 맥락에 따라 달라지고 대인 관계에 의해 조절된다. large language models (LLMs)이 점점 더 의사결정 지원 역할을 수행함에 따라...
STEM 교육 연구자들은 종종 학생들의 mechanistic reasoning 순간을 식별하여 더 깊이 분석하고자 하지만, 이를 검색할 수 있는 역량이 제한적이다.
양자 회로 최적화를 위한 Deep reinforcement learning (RL)은 세 가지 근본적인 병목 현상에 직면하고 있다: 시간‑다중성의 신뢰성을 무시하는 replay buffers…
Parametrically driven oscillators는 neuromorphic computation을 위한 자연스러운 플랫폼을 제공하며, 비선형 모드 결합과 고유 동역학이 메모리와 …
캡슐 내시경(CE)은 비침습적인 위장관 스크리닝을 가능하게 하지만, 현재 CE 연구는 주로 프레임 수준 분류와 감지에 크게 제한되어 있다.