Predictive attention models — what are they good for, what are their weaknesses and what opportunities do they present for the savvy behavioral researcher?
又一天过去了,我的收件箱里又收到了一篇报道人工智能(AI)模型预测准确性取得新进展的文章。这篇文章的焦点是一款名为“半人马”(Centaur)的模型,该模型由慕尼黑亥姆霍兹研究中心的研究人员开发,据称能够模拟人类思维,并以“惊人的准确度”预测决策过程1。1.
这篇帖子并非对该模型的评测,不过,当你考虑到该算法所使用的训练数据时,这款模型确实令人印象深刻:其采用的是一个名为“心理学101”(Psych-101)的数据集,该数据集包含了从160项行为实验中收集的60,092名参与者做出的超过1000万项决策。
听起来很棒,对吧?但这正是我想邀请你停下来,稍作思考的地方。任何读过心理学研究论文的人都会知道,在任何学术研究中,大多数参与者都是心理学专业的学生,在攻读心理学学位、对论文进行批判性分析时,这是你会被教导提及的标准批评点之一。
为什么这很重要?
简单来说,即便我们怀着最善意的初衷,心理学专业的学生也并不能很好地代表广大公众群体2。 这也是许多基于实验室的研究即便在不同实验室都难以复制结果的原因之一,更不用说在现实世界中了——许多心理学研究的结果都直接与研究参与者以及所研究问题所采用的具体条件密切相关。
自三年前ChatGPT 1.0版本问世以来,注意力研究领域——无论是媒体、购物者行为、路径引导、人类表现还是应用/界面优化方面的研究——都不可避免地见证了人工智能预测模型如其他生活领域一样迅速兴起。事实上,注意力预测模型的出现远早于此,尤其是视觉显著性模型,例如由Itti和Koch首次提出的模型3 ,自2001年以来,其受欢迎程度和数量都在不断增长。有趣的是,这些模型实际上从未打算用于预测眼球运动(这一点我稍后再谈),但它们确实(现在依然如此)在很大程度上是对注意力可能分配情况的预测,通常以空间图的形式呈现,看上去非常像眼动追踪热图。
坦白说,我对许多早期模型的使用体验并不太满意,因为它们往往能很好地描绘出观看前1-2秒内的不随意注意,但在描绘随意注意或与之相关的眼球运动方面却表现糟糕。而我们已经知道数十年来,随意注意及其相关的眼球运动主要是由任务驱动的,而非刺激驱动3。近期的发展,包括数据类型的扩展,纳入了EEG数据,这能比大多数简单的眼动追踪研究提供更深入的注意力洞察,再加上利用一系列生物识别和行为标记在海量数据集上训练的人工智能算法,使得这些模型的复杂程度显著提高。
那么,在进行了如此冗长的铺垫之后,让我们进入本文的主要问题……
好的方面
首先,我并不打算特别指出某些具体的模型或算法。在为撰写本文进行调研的过程中,我试用过许多领先的算法,并与几家主要商业公司的代表进行了交流,所以如果你想知道我的个人看法,欢迎直接与我联系。相反,我打算探讨一下这些算法普遍适用的场景。
和所有的人工智能一样,这些算法的好坏取决于其训练数据的质量。如果数据中存在偏差,那么这些偏差几乎肯定会在算法的输出结果中体现出来,因此,在投资任何一款产品之前,向供应商提出这个问题是绝对值得的。
尽管如此,这些算法通常非常擅长预测“平均”注意力,换句话说,就是在没有特定参与者划分或特定任务的情况下预测注意力。因此,它们非常适合用于设计方案的早期测试,并可作为工具使用。我真心认为,每位设计师在向客户展示方案选项之前,都应该先使用这些算法来测试概念。基本上,它们让竞争环境变得公平,意味着你可以将自己的设计和他人的设计,与“常识”进行对比,这里的“常识”是指基于多年神经科学研究得出的关于注意力运作机制的知识。我从未见过这些算法给出的预测结果是视觉科学/注意力专家仅凭研究知识无法识别的,但像我这样的人收费不菲,且并不总是有空,这意味着人工智能为初创企业提供了像大型快速消费品公司那样进行预测试的机会。
但问题也正出在这里……
不好的方面
…其实,存在好几个问题。
当前的人工智能模型完全基于已有知识构建,这意味着它们极不可能为你的设计提供任何颠覆性的洞见。这类洞见通常源自创新性的研究范式,需要合适的参与者,并且几乎肯定需要包含一些定性成分,以及像眼动追踪甚至脑电图EEG这样的客观方法。
“已有知识”可能实际上与你的特定需求完全无关。请记住,注意力预测模型是基于参与者数据进行训练的,因此,为了使这些模型对你具有相关性,那些参与者需要与你的用户群体或目标受众相匹配。例如,如果你正在进行产品品牌重塑,并想提出这样的问题:“我如何在不疏远现有客户的情况下扩大客户群体?”这类问题通常需要针对特定的参与者群体进行测试,在市场研究中通常称为“样本单元”,并比较结果。目前,这是人工智能模型无法做到的,实际上,你可能需要基于你的客户群体对这些模型进行本地化训练。
正如我在引言中提到的,预测性注意力算法起源于视觉显著性模型,这些模型非常擅长预测不随意注意——即那种被突出或显眼的事物(因为它们出乎意料)自动吸引的注意力。因此,亮度、颜色、运动,甚至音频刺激的响度和音调的影响,通常都能被这些模型很好地预测3。不幸的是,它们中的许多都忽略了随意注意的作用,随意注意需要稍长一点的时间才能启动,通常长期主导注意力的分配(我指的是大约2秒之后),并且受高级认知过程(如任务目标、意图、奖励、偏好和欲望)的引导。当然,这些因素在研究问题和参与者方面高度情境化,并且可能随时间和重复暴露而变化,这意味着,基于一组通用参与者、没有任务知识的简单预测,实际上根本无法告诉你太多信息!
最后,但同样重要的是,正如我之前提到的,预测性注意力模型从未打算用于预测眼球运动,而且说实话,它们现在仍然做不到这一点。这意味着,如果你关注的是实际的眼球运动(例如注视序列、注视持续时间、对感兴趣区域的回访或在文本处理情况下的回视),这些模型将无法提供帮助,为此你需要使用眼动仪。对你们中的许多人来说,这可能不是问题,因为你们感兴趣的是更高层次的注意力概念,但眼动追踪和注意力经常被一起提及的原因是,像我上面提到的那些测量指标,对于理解设计中的模糊性或混淆性等问题往往至关重要。在人类表现研究中,通常是非意识的眼球运动的自动化使用能够体现出新手和专家之间的差异。
How can you leverage the best these algorithms have to offer to give yourself a competitive edge?
机遇
你现在或许会问自己:“这些注意力预测模型值得投入精力去研究吗?”正如我在开头提到的,几年前当我开始研究这些模型时,我的答案会是“不”,但我们讨论的是技术,而技术永远不会停滞不前。在过去的五年里,其中一些算法的改进几乎超乎想象,但我上面提到的那些局限性仍然普遍存在。在我和Shopper Intelligence的Roger Jackson合著的新书《童谣难题》(The Nursery Rhyme Conundrum)4中,我们探讨了人工智能作为一种工具所被赋予的权威性,我坚信我们需要继续将其视为一种工具,而非完整的答案。那么,你该如何利用这些算法所能提供的最佳优势,为自己赢得竞争优势呢?
这些算法已经存在,这无可逃避,这意味着任何竞争对手都可以利用它们来了解你的产品。如果你自己不使用它们,岂不是白白让竞争对手占了优势?从“普遍注意力”的角度看看你的设计与竞争对手相比如何——这些洞察可能至关重要,尤其是在市场瞬息万变的当下。每当竞争对手改变产品设计时,你都应该重新进行这种比较,因为就注意力而言,成功与否高度依赖于具体情境。
不要止步于此。吸引顾客的最佳方式之一,就是展示你对顾客的了解程度。基于普通参与者,尤其是基于心理学专业学生训练的模型进行的测试,永远无法让你获得像测试独特客户群体注意力那样深入的洞察。例如,我们知道注意力分布会因年龄、性别和国籍而异,因此如果没有这种程度的细分,你就已经陷入困境了。展示你了解顾客的唯一方法,就是在你的顾客身上进行测试。
做到最好。如果你是一个奢侈品牌,仅仅做到普通是不够的。你需要与众不同。只要看一眼领英上那些基于人工智能算法对广告、界面和包装提出的重新设计建议,你就会发现它们看起来完全像是人工智能生成的,而不是设计师精心打造的。这正是奢侈品牌需要避免的,当然,除非它想刻意制造反讽效果。我们越来越多地看到有人建议人工智能甚至可以作为研究中的参与者,但这些“参与者”肯定无法代表高端客户。
意外情况很重要。每个人都喜欢看精彩的眼动追踪热力图,而注意力预测算法产生的输出结果与之相似,这绝非巧合。长期以来,我一直批评它们在眼动追踪研究中的误用,所以我显然要在这里指出它们存在的一个关键问题。眼动追踪研究中的异常值,通常会被排除在热图之外,因为它们可能会扭曲呈现结果,但这些异常值在揭示非显而易见的洞察时往往是最具信息量的。举个经典例子,我在攻读博士学位早期遇到过这样的情况:我的“无意识偏好检测”算法本应输出一个最优设计,但当我在我的伴侣身上测试时,它给出了两个可能性相等的设计,一个主要是红色,另一个主要是绿色。当然,他是红绿色盲,所以这两个设计实际上对他来说是一个结果,这为我的算法揭示了全新的可能性!如果没有针对异常值的实际眼动追踪结果,你永远不会知道它们的存在,更重要的是,永远不知道他们为什么会那样表现。完全依赖基于普通人群的注意力预测算法,会消除从异常行为中学习的任何可能性,这对于用户体验和人类的效能研究尤为重要。
简而言之,目前没有什么能取代用真实的人执行真实的任务来测试真实的设计。这不是人工智能,而是真正的的智能。
参考文献
Binz, M., Akata, E., Bethge, M. et al. A foundation model to predict and capture human cognition. Nature (2025).
Hanel, P. H., & Vione, K. C. (2016). Do Student Samples Provide an Accurate Estimate of the General Public? PloS one, 11(12), e0168354.
Itti, L., Koch, C. Computational modelling of visual attention. Nat Rev Neurosci 2, 194–203 (2001).
Jackson, R., & Holmes, T. (2025). The nursery rhyme conundrum. Pantheon Publishers.
了解更多人工智能预测模型与眼动追踪技术的差异及应用
人工智能时代下的人类行为数据采集
在人工智能时代,利用眼动追踪捕捉人类数据至关重要,因为我们需要深入探究人们如何看待现实,以及他们的意识和潜意识如何共同构建这一现实。
真实行为与模拟行为:市场研究人员对人工智能洞察的见解
观察真实的人类行为能带来算法数据根本无法复制的细微差别、情境背景以及意外洞见,这使我们在市场研究和用户体验项目中具备真正的优势。
解码注意力:眼动追踪如何助力广告实现有效触达与转化
探究Tobii眼动追踪工具如何助力品牌打造吸引注意力、提升参与度,并通过更智能、基于数据的洞察推动广告取得成效。
购物者营销中预测性眼动追踪的局限性
本文探讨了预测性眼动追踪工具在科学层面的局限性,并阐述了为何将真实眼动追踪与心理学分析相结合能提供更具优势的洞察。