[Paper] UEval: 통합 멀티모달 생성 벤치마크
우리는 UEval이라는 벤치마크를 도입합니다. 이는 이미지와 텍스트를 모두 생성할 수 있는 통합 모델을 평가하기 위한 것입니다. UEval은 1,000개의 전문가가 선정한 질문으로 구성됩니다.
우리는 UEval이라는 벤치마크를 도입합니다. 이는 이미지와 텍스트를 모두 생성할 수 있는 통합 모델을 평가하기 위한 것입니다. UEval은 1,000개의 전문가가 선정한 질문으로 구성됩니다.
대규모 언어 모델(LLMs)과 강화 학습(RL)으로 구동되는 자율 웹 에이전트의 개발은 일반…
제한된 감독 학습 데이터 때문에, 대규모 언어 모델(LLMs)은 일반적으로 자체 감독 “다음 단어 예측” 목표를 사용하여 vas...
추론 지향 대형 언어 모델(LLMs)은 Chain-of-Thought (CoT) 프롬프트를 통해 눈부신 진전을 이루었지만, 여전히 근본적인 한계가 있다.
대형 언어 모델(LLMs)은 질문 응답 및 진단을 포함한 의료 벤치마크에서 강력한 성능을 입증했습니다. 임상에서의 활용을 가능하게 하기 위해…
Quantization은 대규모 언어 모델(Large Language Model, LLM) 훈련의 연산(compute) 및 메모리 효율성을 크게 향상시켰습니다. 그러나 기존 접근 방식은 여전히 acc…
대규모 언어 모델(Large Language Model, LLM) 애플리케이션을 평가하는 것은 전통적인 소프트웨어 테스트와 다릅니다. 왜냐하면 출력이 stochastic하고, high-dimensional하며, 민감하기 때문입니다.
Large Language Models (LLMs)은 다양한 분야에서 뛰어나지만, quadratic attention과 dense Feed-Forward Network (FFN) 연산으로 인한 높은 에너지 비용을 겪는다.
Frontier LLMs는 학계, 사회, 산업 전반에 걸쳐 점점 더 많이 활용되고 있다. 모델, 입력 및 출력, 그리고 추정치를 비교하기 위해 일반적으로 사용되는 단위는…
대형 추론 모델(LRMs)은 문제를 해결하는 과정에서 텍스트 형태의 사고 사슬(Chain of Thought, CoT)을 생성하는데, 이는 잠재적으로 강력한 도구가 될 수 있다…
최첨단 language model 능력이 빠르게 향상되고 있습니다. 따라서 점점 더 강력해지는 시스템을 악용하는 악의적인 행위자들에 대한 보다 강력한 mitigations가 필요합니다. Prior w...
AI 에이전트를 경제 시장에 통합하는 것은 전략적 상호작용의 풍경을 근본적으로 변화시킵니다. 우리는 expa...의 경제적 함의를 조사합니다.