[Paper] 使用自适应阈值法识别眼动数据中的凝视和扫视

发布: (2025年12月30日 GMT+8 08:58)
8 min read
原文: arXiv

Source: arXiv - 2512.23926v1

概述

本文针对眼动追踪研究中一个出人意料常见的问题:自动区分 fixations(眼睛相对静止时)和 saccades(快速眼跳)。作者指出,通常的“一刀切”速度或离散阈值在数据噪声较大或任务/受试者差异时会显得脆弱。他们提出了一种轻量级、适应性阈值方法,能够为每段记录自动调节决策边界,显著提升分类准确性和鲁棒性。

关键贡献

  • 自适应阈值框架:将凝视/扫视检测形式化为两状态马尔可夫过程,并推导出一个简单的 K‑ratio 目标函数,用于选择最小化虚假状态变化的阈值。
  • 与三种经典算法的集成:将自适应方案应用于速度、角速度和基于离散度的检测器,证明其在所有算法中均有效。
  • 全面评估:在自由观看和视觉搜索数据集上,以多阈值“黄金标准”为基准进行基准测试,测量准确率、精确率/召回率以及噪声鲁棒性。
  • 噪声鲁棒性洞察:显示即使在极端像素级噪声(σ = 50 px)下,自适应离散度阈值的准确率仍保持在 >81%,而固定阈值的准确率可能跌至 <20%。
  • 实用指南:提供了一个决策矩阵,帮助研究人员和开发者根据数据质量以及凝视或扫视检测的优先级,选择合适的检测器和调参策略。

方法论

  1. 凝视的马尔可夫模型 – 眼动时间序列被视为由两种隐藏状态(注视,扫视)组成的序列。观察到的度量(例如瞬时速度)在注视期间假设遵循一种分布,在扫视期间遵循另一种分布。
  2. K‑比率目标 – 对于任意候选阈值 T,算法统计状态切换的次数(即注视 → 扫视或相反)。最优的 T 使观察到的转变次数与理论最小值的比率最小化,从而有效“平滑”不必要的翻转。
  3. 自适应流程
    • 在原始凝视样本上计算选定的度量(速度、角速度或离散度)。
    • 在一个合理的阈值范围内进行遍历,评估每个阈值的 K‑比率,并选择值最小的阈值。
    • 使用选定的阈值应用标准的后处理步骤(例如最小注视时长)。
  4. 评估 – 将自适应检测器与多阈值参考(基于详尽的人工标注)在两种任务类型上进行比较,并加入逐渐增大的合成高斯噪声以测试鲁棒性。

结果与发现

检测器基线(干净数据)准确率σ = 50 px(固定)准确率σ = 50 px(自适应)准确率
Velocity90–93 %< 20 %≈ 78 %
Angular velocity88–91 %< 25 %≈ 74 %
Dispersion85–89 %≈ 55 %> 81 %
  • 基线:三种检测器在干净记录上表现良好;velocity 略胜一筹。
  • 噪声敏感性:固定阈值导致性能急剧下降;自适应方案恢复了大部分失去的性能。
  • 精确率‑召回率权衡:自适应 dispersion 阈值在检测凝视(高召回率)方面表现出色,但会漏掉一些扫视(精确率较低)。这与许多实际使用场景相符,凝视统计更为关键。

实际意义

  • 即插即用的改进:自适应阈值步骤计算成本低(只需简单的网格搜索),可以直接加入现有的眼动追踪流水线(例如 PyGaze、EyeLink SDK),无需重新设计核心检测器。
  • 对低成本硬件的鲁棒性:消费级眼动追踪器常常产生噪声数据;使用自适应离散阈值可以保持分类的可用性,从而使眼动追踪能够用于基于网页的用户体验研究、AR/VR 原型以及实时凝视控制界面。
  • 任务特定调优:开发者可以通过选择合适的检测器‑阈值组合,优先进行注视检测(例如用于 UI 布局的热图生成)或扫视检测(例如阅读速度分析)。
  • 标准化:通过将 K 比率最小化作为可配置模块公开,研究工具可以在原始数据旁报告可复现的“有效阈值”,从而提升跨研究的可比性。

局限性与未来工作

  • Assumption of two states:Markov模型将所有眼动视为凝视(fixation)或扫视(saccade),忽略了微扫视(micro‑saccades)、平滑追踪(smooth pursuits)或眨眼(blinks),这些在某些领域(例如体育分析)可能是相关的。
  • Threshold search granularity:当前实现使用统一的阈值扫描;更智能的优化方法(例如贝叶斯搜索)可以在处理超高频数据流时降低运行时间。
  • Generalization to other metrics:本研究聚焦于三种经典检测器;将自适应方案扩展到基于机器学习的分类器(例如对原始凝视热图进行卷积神经网络(CNN)分析)仍是一个未解的问题。
  • Real‑world validation:实验在实验室数据集上进行;在真实环境录制(移动眼动仪、VR头显)上的测试将进一步验证其鲁棒性。

底线:如果您正在构建依赖于干净的凝视/扫视标签的应用——无论是用于用户体验研究、辅助技术,还是沉浸式界面——加入此自适应阈值步骤可以显著提升可靠性,尤其是在数据并不完美的情况下。

作者

  • Charles Oriioma
  • Josef Krivan
  • Rujeena Mathema
  • Pedro G. Lind
  • Alexander Szorkovszky
  • Shailendra Bhandari

论文信息

  • arXiv ID: 2512.23926v1
  • 分类: cs.NE, nlin.CD
  • 发表时间: 2025年12月30日
  • PDF: Download PDF
Back to Blog

相关文章

阅读更多 »

[Paper] 编排动态对象的世界

我们物理的4D(3D + 时间)世界中的动态对象不断演化、变形并与其他对象相互作用,导致多样的4D场景动态……