EUNO.NEWS EUNO.NEWS
  • All (2328) +189
  • AI (543) +17
  • DevOps (137) +1
  • Software (976) +118
  • IT (666) +52
  • Education (5) +1
  • Notice (1)
  • All (2328) +189
    • AI (543) +17
    • DevOps (137) +1
    • Software (976) +118
    • IT (666) +52
    • Education (5) +1
  • Notice (1)
  • All (2328) +189
  • AI (543) +17
  • DevOps (137) +1
  • Software (976) +118
  • IT (666) +52
  • Education (5) +1
  • Notice (1)
Sources Tags Search
한국어 English 中文
  • 1주 전 · ai

    [Paper] EvilGenie: 보상 해킹 벤치마크

    우리는 프로그래밍 환경에서 보상 해킹을 위한 벤치마크인 EvilGenie를 소개합니다. 우리는 LiveCodeBench에서 문제를 가져와 에이전트가 사용할 수 있는 환경을 만들고...

    #reward hacking #code generation #benchmark #LLM evaluation #AI safety
  • 1주 전 · ai

    [Paper] 정확도를 넘어: 임퓨테이션에서 불확실성 추정에 관한 실증 연구

    결측 데이터 처리는 데이터 기반 분석에서 핵심적인 과제입니다. 최신 imputation 방법은 정확한 복원을 목표로 할 뿐만 아니라 ...

    #imputation #uncertainty estimation #calibration #deep generative models #benchmark
  • 1주 전 · ai

    [Paper] Bangla Sign Language Translation: 데이터셋 생성 과제, 벤치마킹 및 전망

    Bangla Sign Language Translation (BdSLT)은 언어 자체가 매우 low-resource이기 때문에 지금까지 크게 제한되어 왔습니다. Standard sentence level dataset을 만들…

    #sign-language #dataset #translation #computer-vision #benchmark
  • 1주 전 · ai

    [Paper] LLM이 인간과 같은 세밀한 증거를 추출하여 증거 기반 사실 검증에 활용할 수 있을까?

    온라인 뉴스 기사 아래 사용자 댓글에서 허위 정보가 자주 퍼지며, 사실적으로 잘못된 정보를 탐지하기 위한 효과적인 방법의 필요성을 강조한다.

    #LLM #evidence extraction #fact-checking #multilingual dataset #benchmark
  • 1주 전 · ai

    [Paper] CodeFuse-CommitEval: 커밋 메시지와 코드 변경 불일치 탐지에서 LLM의 성능 벤치마킹을 향하여

    Version control은 코드 변경의 이유를 전달하기 위해 commit messages에 의존하지만, 이러한 메시지는 종종 품질이 낮고, 더 중요한 것은 일관성이 부족합니다 …

    #LLM #benchmark #commit-message inconsistency #software engineering #code review
EUNO.NEWS
RSS GitHub © 2025