EUNO.NEWS EUNO.NEWS
  • All (20543) +144
  • AI (3117) +9
  • DevOps (914) +5
  • Software (10652) +105
  • IT (5812) +25
  • Education (48)
  • Notice
  • All (20543) +144
    • AI (3117) +9
    • DevOps (914) +5
    • Software (10652) +105
    • IT (5812) +25
    • Education (48)
  • Notice
  • All (20543) +144
  • AI (3117) +9
  • DevOps (914) +5
  • Software (10652) +105
  • IT (5812) +25
  • Education (48)
  • Notice
Sources Tags Search
한국어 English 中文
  • 1个月前 · ai

    [Paper] DEER:一个全面且可靠的深度研究专家报告基准

    随着大语言模型(LLMs)的进步,深度研究系统可以通过多步骤推理和基于证据的综合生成专家级报告,但评估……

    #research #paper #ai #nlp
  • 1个月前 · ai

    [Paper] Bangla MedER:Multi-BERT Ensemble Approach用于Bangla医学实体识别

    医学实体识别(Medical Entity Recognition,MedER)是从医学语料库中提取有意义实体的关键自然语言处理(NLP)任务。如今,基于 MedER 的研究成果……

    #research #paper #ai #machine-learning #nlp
  • 1个月前 · ai

    [Paper] AncientBench:面向已发掘和已传承中文语料库的全面评估

    对古代文本的理解在考古学以及对中国历史和文明的认识中发挥着重要作用。大型语言模型的快速发展……

    #research #paper #ai #machine-learning #nlp
  • 1个月前 · ai

    [Paper] 情感、身体、认知、人口统计和情绪:文本特征的 ABCDE 用于 Computational Affective Science

    在计算情感科学和计算社会科学领域的工作探索了关于人、情感、行为以及健康的广泛研究问题。

    #research #paper #ai #nlp
  • 1个月前 · ai

    [Paper] 当 Gold Standard 并非必然的标准:评估用户生成内容翻译的挑战

    用户生成内容(UGC)的特点是频繁使用非标准语言,从拼写错误到诸如俚语、字符重复等表达选择……

    #research #paper #ai #nlp
  • 1个月前 · ai

    [Paper] 通过贝叶斯不确定性在神经问答中实现伦理AI

    我们探索贝叶斯推理作为在问答任务中量化神经网络不确定性的一种手段。首先在 Iris 数据集上使用多层感知器……

    #research #paper #ai #nlp
  • 1个月前 · ai

    规模陷阱:AI 最大的胜利如何变成最大的问题

    当整个领域在急于追逐一次突破的过程中忘记了它所学的一切,会发生什么?AI 社区正经历集体失忆。We'r...

    #AI scaling #large language models #model size limits #deep learning research #AI history #NLP #GANs #VAEs #research diversity
  • 1个月前 · ai

    [Paper] 为上下文偏置窥探未来

    虽然端到端 (E2E) 自动语音识别 (ASR) 模型在通用转录方面表现出色,但它们在识别稀有或未见过的命名实体(例如…)时仍然困难重重。

    #research #paper #ai #nlp
  • 1个月前 · ai

    [Paper] Simulstream:开源工具包用于流式语音转文本翻译系统的评估与演示

    流式语音转文本翻译(StreamST)需要在语音输入的同时生成翻译,施加严格的延迟约束并且要求…

    #research #paper #ai #nlp
  • 1个月前 · ai

    [Paper] SWE-Bench++:一个用于从开源仓库可扩展生成软件工程基准的框架

    像 SWE-bench 这样的基准已经标准化了对大型语言模型(LLMs)在仓库级软件工程任务上的评估。然而,这些努力...

    #research #paper #ai #machine-learning #nlp
  • 1个月前 · ai

    [Paper] CIFE: 代码指令遵循评估

    Large Language Models (LLMs) 正在越来越多地应用于真实场景的代码生成,在这种情况下,仅有功能正确性不足以实现可靠部署,……

    #research #paper #ai #nlp
  • 1个月前 · ai

    [Paper] 生成式对抗推理器:通过对抗强化学习提升 LLM 推理能力

    Large language models (LLMs) 具备显式推理能力,在数学推理方面表现出色,但仍会出现过程错误,例如计算错误……

    #research #paper #ai #machine-learning #nlp

Newer posts

Older posts
EUNO.NEWS
RSS GitHub © 2026