[Paper] 使用自适应阈值法识别眼动数据中的凝视和扫视

发布: 1个月前 (2025年12月30日 GMT+8 08:58)

8 分钟阅读

原文: arXiv

Source: arXiv - 2512.23926v1

概述

本文针对眼动追踪研究中一个出人意料常见的问题：自动区分 fixations（眼睛相对静止时）和 saccades（快速眼跳）。作者指出，通常的“一刀切”速度或离散阈值在数据噪声较大或任务/受试者差异时会显得脆弱。他们提出了一种轻量级、适应性阈值方法，能够为每段记录自动调节决策边界，显著提升分类准确性和鲁棒性。

关键贡献

自适应阈值框架：将凝视/扫视检测形式化为两状态马尔可夫过程，并推导出一个简单的 K‑ratio 目标函数，用于选择最小化虚假状态变化的阈值。
与三种经典算法的集成：将自适应方案应用于速度、角速度和基于离散度的检测器，证明其在所有算法中均有效。
全面评估：在自由观看和视觉搜索数据集上，以多阈值“黄金标准”为基准进行基准测试，测量准确率、精确率/召回率以及噪声鲁棒性。
噪声鲁棒性洞察：显示即使在极端像素级噪声（σ = 50 px）下，自适应离散度阈值的准确率仍保持在 >81%，而固定阈值的准确率可能跌至 <20%。
实用指南：提供了一个决策矩阵，帮助研究人员和开发者根据数据质量以及凝视或扫视检测的优先级，选择合适的检测器和调参策略。

方法论

凝视的马尔可夫模型 – 眼动时间序列被视为由两种隐藏状态（注视，扫视）组成的序列。观察到的度量（例如瞬时速度）在注视期间假设遵循一种分布，在扫视期间遵循另一种分布。
K‑比率目标 – 对于任意候选阈值 T，算法统计状态切换的次数（即注视 → 扫视或相反）。最优的 T 使观察到的转变次数与理论最小值的比率最小化，从而有效“平滑”不必要的翻转。
自适应流程 –
- 在原始凝视样本上计算选定的度量（速度、角速度或离散度）。
- 在一个合理的阈值范围内进行遍历，评估每个阈值的 K‑比率，并选择值最小的阈值。
- 使用选定的阈值应用标准的后处理步骤（例如最小注视时长）。
评估 – 将自适应检测器与多阈值参考（基于详尽的人工标注）在两种任务类型上进行比较，并加入逐渐增大的合成高斯噪声以测试鲁棒性。

结果与发现

检测器	基线（干净数据）准确率	σ = 50 px（固定）准确率	σ = 50 px（自适应）准确率
Velocity	90–93 %	< 20 %	≈ 78 %
Angular velocity	88–91 %	< 25 %	≈ 74 %
Dispersion	85–89 %	≈ 55 %	> 81 %

基线：三种检测器在干净记录上表现良好；velocity 略胜一筹。
噪声敏感性：固定阈值导致性能急剧下降；自适应方案恢复了大部分失去的性能。
精确率‑召回率权衡：自适应 dispersion 阈值在检测凝视（高召回率）方面表现出色，但会漏掉一些扫视（精确率较低）。这与许多实际使用场景相符，凝视统计更为关键。

实际意义

即插即用的改进：自适应阈值步骤计算成本低（只需简单的网格搜索），可以直接加入现有的眼动追踪流水线（例如 PyGaze、EyeLink SDK），无需重新设计核心检测器。
对低成本硬件的鲁棒性：消费级眼动追踪器常常产生噪声数据；使用自适应离散阈值可以保持分类的可用性，从而使眼动追踪能够用于基于网页的用户体验研究、AR/VR 原型以及实时凝视控制界面。
任务特定调优：开发者可以通过选择合适的检测器‑阈值组合，优先进行注视检测（例如用于 UI 布局的热图生成）或扫视检测（例如阅读速度分析）。
标准化：通过将 K 比率最小化作为可配置模块公开，研究工具可以在原始数据旁报告可复现的“有效阈值”，从而提升跨研究的可比性。

局限性与未来工作

Assumption of two states：Markov模型将所有眼动视为凝视（fixation）或扫视（saccade），忽略了微扫视（micro‑saccades）、平滑追踪（smooth pursuits）或眨眼（blinks），这些在某些领域（例如体育分析）可能是相关的。
Threshold search granularity：当前实现使用统一的阈值扫描；更智能的优化方法（例如贝叶斯搜索）可以在处理超高频数据流时降低运行时间。
Generalization to other metrics：本研究聚焦于三种经典检测器；将自适应方案扩展到基于机器学习的分类器（例如对原始凝视热图进行卷积神经网络（CNN）分析）仍是一个未解的问题。
Real‑world validation：实验在实验室数据集上进行；在真实环境录制（移动眼动仪、VR头显）上的测试将进一步验证其鲁棒性。

底线：如果您正在构建依赖于干净的凝视/扫视标签的应用——无论是用于用户体验研究、辅助技术，还是沉浸式界面——加入此自适应阈值步骤可以显著提升可靠性，尤其是在数据并不完美的情况下。

作者

Charles Oriioma
Josef Krivan
Rujeena Mathema
Pedro G. Lind
Alexander Szorkovszky
Shailendra Bhandari

论文信息

arXiv ID: 2512.23926v1
分类: cs.NE, nlin.CD
发表时间: 2025年12月30日
PDF: Download PDF

[Paper] 使用自适应阈值法识别眼动数据中的凝视和扫视

概述

关键贡献

方法论

结果与发现

实际意义

局限性与未来工作

作者

论文信息

相关文章

[Paper] AdaGaR：自适应 Gabor 表示用于动态场景重建

[Paper] 两种深度学习方法用于Cine心脏MRI左心室的自动分割

[Paper] 理性几何：有效数学推理的谱特征

[Paper] Fusion-SSAT：通过特征融合释放自监督辅助任务的潜力，以实现通用深度伪造检测