EUNO.NEWS EUNO.NEWS
  • All (20292) +229
  • AI (3103) +13
  • DevOps (906) +6
  • Software (10480) +161
  • IT (5755) +49
  • Education (48)
  • Notice
  • All (20292) +229
    • AI (3103) +13
    • DevOps (906) +6
    • Software (10480) +161
    • IT (5755) +49
    • Education (48)
  • Notice
  • All (20292) +229
  • AI (3103) +13
  • DevOps (906) +6
  • Software (10480) +161
  • IT (5755) +49
  • Education (48)
  • Notice
Sources Tags Search
한국어 English 中文
  • 1个月前 · ai

    理解机器学习中的错误:Accuracy, Precision, Recall 与 F1 Score

    机器学习指标 – 直观指南 机器学习模型常常通过数字来评估,但许多初学者甚至从业者误解了什么……

    #machine learning #accuracy #precision #recall #f1-score #confusion matrix #classification metrics #model evaluation
  • 1个月前 · ai

    代码生成用于消融技术 — 文档

    概述:Ablation Technique for Code Generation 是一种通过系统性地移除、禁用……来分析和改进 code‑generation models 的方法论。

    #code generation #ablation study #model evaluation #prompt engineering #large language models
  • 1个月前 · ai

    思考 Token 并非等价:为什么基准测试无法区分“搜索”和“洞察”(A PCP 实验)

    实验概述 我一直在进行实验,以了解不同的“reasoning”模型实际上是如何使用它们的思考预算的。结果表明……

    #LLM #reasoning #token budgeting #benchmarks #post correspondence problem #model evaluation
  • 1个月前 · ai

    我们在开发环境中如何测试我们的Agents

    测试你的 AI 代理是否如预期运行并不容易。以下是我们吃过的几条经验教训。文章《How We Are Testing Our Agents in D...》。

    #AI agents #testing strategies #model evaluation #agent performance #development workflow
  • 1个月前 · ai

    Train-Test Split 的终结

    文章 URL: https://folio.benguzovsky.com/train-test 评论 URL: https://news.ycombinator.com/item?id=46149740 得分: 7 评论数: 1

    #train-test split #machine learning #model evaluation #cross-validation #data science
  • 1个月前 · ai

    Bias–Variance Tradeoff — 直观与实用解释(第6部分)

    偏差到底是什么意思 实际定义:偏差是指你的模型平均有多错误,因为它未能学习到真实模式。高偏差发生在:- …

    #bias-variance tradeoff #overfitting #underfitting #machine learning #model evaluation #regularization #production ML
  • 1个月前 · ai

    为什么 Accuracy 说谎 — 实际重要的指标(第4部分)

    封面图片:Why Accuracy Lies — The Metrics That Actually Matter 第4部分 https://media2.dev.to/dynamic/image/width=1000,height=420,fit=cover,gravity=auto,for...

    #accuracy #machine-learning-metrics #model-evaluation #production-ml #data-science
  • 1个月前 · ai

    亚马逊押注 AI 基准不重要

    Rohit Prasad,亚马逊的 SVP of AGI。这是 Alex Heath 的《Sources》摘录,这是一份关于 AI 和科技行业的 newsletter,仅为 The Verge 订阅者 syndicate。

    #Amazon #AI benchmarks #model evaluation #AGI #machine learning #industry perspective
  • 1个月前 · ai

    ⚠️ 机器学习中的数据泄漏

    正在毁灭真实世界机器学习系统的沉默准确性杀手——ML工程失败系列第二篇 大多数机器学习初学者过度关注模型选择……

    #data leakage #machine learning #model evaluation #training pipeline #ML engineering #validation accuracy #production models

Newer posts

Older posts
EUNO.NEWS
RSS GitHub © 2026