我偷了Wall Street的技巧来解决Google Trends数据问题
Source: Towards Data Science
Source: …
Google Trends:将“原始”数据转化为真实洞察
“Google Trends 是市场调研的福音。如果你想了解某个词的兴趣程度,只需查询即可看到其随时间的变化。这类数据如果可用的话,我们完全可以进行严肃的数据科学分析。”
在实际使用中,Google Trends 正如其名称所示:它 展示趋势。数据经过大量 归一化 和 地区化 处理,导致难以提取可比较的数值用于有意义的建模——除非你掌握一些技巧。
回顾
在我之前的文章 Google Trends Is Misleading You – How to Do Machine Learning with Google Trends Data 中,我们介绍了 跨重叠窗口链式数据 的概念,以克服 Google Trends 粒度限制的问题。
接下来会讲什么?
今天我们将探讨如何:
- 比较跨国家和地区的链式数据
- 利用这些比较得出可操作的洞察
通过本教程,你将能够:
- 在不同地理区域的时间序列之间对齐,即使它们的归一化尺度不同。
- 构建包含多地区趋势信号的模型。
- 从最初看似“不可用”的数据中生成真实的商业情报。
敬请期待——让我们把 Google Trends 变成强大的跨地区分析工具!
动机:比较动机
Google Trends 允许下载并在引用时重复使用趋势数据,于是我下载了过去五年关于“动机”的数据,并对其进行缩放,使我们拥有每个国家的动机搜索数据集,从而大致了解各国对动机的兴趣随时间的变化。我的目标是比较不同国家的动机程度,但我遇到了一个问题。我不知道美国的 Google Trends 分数 100 是否比英国的 100 更大或更小,而我最初的解决思路并未奏效。让我解释一下。
初始困惑
当我开始这个项目时,我并不是 Google Trends 的行家,天真地尝试输入 UK motivation,然后添加比较项再次输入 motivation 并把地区改为美国。我困惑于为什么得到的是同一张图表。我以为可能是英国和美国太相似了,于是又加入了日本,直到看到中国时才意识到图表把所有线条都换成了该国的动机数据。

我以为我在切换国家。结果发现我只是重新加载了相同的数据三次。
作者提供的截图。数据来源:Google Trends(https://www.google.com/trends)。
如果我无法在同一张图上显示各国数据,那么我就无法进行比较——除非我想出更有创意的方法……
一个“天才”想法却未奏效
我的下一个灵感来自于查看美国。如果在 Google Trends 向下滚动,你会看到一个 子地区 部分,显示各州的相对搜索量。搜索量最高的州被设为 100,其他州则相应缩放。

作者提供的截图。数据来源:Google Trends(https://www.google.com/trends)。
我以为自己很天才:把地区设置为“全球”,记录下我感兴趣的各国对应的数值,然后将每个国家的结果乘以该数值。
但我再次误解了一个根本性的概念,我们需要一点数学来解释原因。
Source: …
Google 趋势归一化背后的数学
我从美国和英国(从 4 月 24 日开始)各抓取了 90 天的数据,绘制了两张独立的 Google Trends 图表。两张图的最大值都被缩放到 100,但峰值出现的日期在两个国家不同。

当 100 在大西洋两岸代表不同含义时。
作者截图。数据来源:Google Trends。

美国和英国在 90 天内搜索 “motivation” 的兴趣随时间变化图。
作者截图。数据来源:Google Trends。
因为我们比较的是两个不同的国家,Google Trends 的得分在本质上是不同的单位——就像英寸和厘米是不同的计量单位一样。不同于英寸与厘米之间我们知道换算系数,这里我们并不知道换算系数。
假设在全球图表中,美国的得分为 100,英国的得分为 50。英国的 50 分意味着英国的峰值是美国峰值的 50%。乍一看,这似乎暗示换算系数为 ½,即 1 个美国单位 = 2 个英国单位。下面我们来看看为什么这并不成立。
取一个非峰值日,例如 4 月 30 日,假设美国得分为 70,英国得分为 80。
从美国的角度
[ 70% \text{ of US peak} = 0.70 \times 100\ \text{US units} = 0.70 \times 2 \times 100\ \text{UK units (if 1 US = 2 UK)} = 140\ \text{UK units} ]
从英国的角度
[ 80% \text{ of UK peak} = 0.80 \times 100\ \text{UK units} = 80\ \text{UK units} ]
显然,140 个英国单位并不是 80 个英国单位的两倍。
仅仅因为美国的峰值是英国峰值的两倍,并不意味着整个期间美国的数据是英国数据的两倍!
因此,我们不能仅凭全球比例来比较不同国家的数据。我们该怎么办?
Source: …
从股市汲取灵感
我们在数据科学中使用的基础科学和方法论可以跨领域迁移,因此我将借鉴金融领域的一种方法。
股市是买卖公司股权(股份)的场所。股份代表部分所有权,通常伴随投票权或股息——作为所有者的小额奖励。股票可以由个人、银行、对冲基金或其他私营公司持有。
股市可以用来衡量一个国家的经济健康状况。当股票上涨时,我们正处于…
(文章其余部分继续……)
Cleaned Markdown
市场周期与经济健康
股市与一个国家的经济在理论上是同步繁荣的。当市场开始下跌时,我们进入熊市,情况就不太乐观了。这是一个极大的简化——市场受人类行为驱动,而人类行为 notoriously 难以捉摸——但为了我们的目的,这一概括是成立的:我们可以根据股市来了解一个国家的经济健康状况。
通过指数追踪市场
那么我们如何整体追踪股市呢?显而易见的想法是把所有上市公司的股价相加,得到一个代表市场价值的单一数字。实际上我们使用指数。
你可能听说过标普 500(S&P 500),它是由美国市值最大的 500 家公司构成的指数。它被用来追踪美国市场,因为作为最大公司的集合,它覆盖了约 80 % 的总市值(即价值),且流动性极高——其股票交易频繁,价格波动大。
由于它覆盖了市场的大部分,标普 500 在仅有 500 只股票的较小集合中,能够很好地代表整个市场。为什么是 500?
- 标普 500 于 1957 年推出。
- 这不仅仅是计算能力的问题——当时一种新的电子计算方法使得在指数中加入 500 只股票成为可能。(在此之前,指数更小,因为它们是手工计算的。)
Source: S&P Global – “Where It All Began”
在大数据时代为何仍要进行估算?
今天我们拥有足够的计算能力来计算整个市场;几千只股票在大数据时代算是“小菜”。然而,这并非真正必要:
- 纳入小公司会增加跟踪的开销。
- 一些小盘股交易不活跃,它们的数据会变得陈旧。
缺点大于优点。
这种讨论在金融领域屡见不鲜。示例:
| 指数 | 组成 |
|---|---|
| FTSE‑100 | 100 只英国股票 |
| 商品篮子 | 商品组合(例如石油、农产品) |
| CPI | 用于追踪价格变化的商品篮子 |

如果一个代表性项目的篮子能够衡量整个股市——或通胀——为何不使用一个篮子来追踪搜索量?
将ETF应用于Google趋势数据
要使用此概念,我们需要一套最常被搜索的词汇,能够作为每个国家的 S&P‑500‑类指数。Google Trends 的 Year In Search 提供了良好的候选篮子来源。

假设我们拥有至少一个国家(例如美国)的平均搜索量。我们可以:
- 对篮子中一个子集(或全部)计算缩放因子的平均值。
- 将此平均值视为 “美国 Google‑Trends 单位 → 实际搜索量”。
- 使用得到的因子估算任何词的绝对搜索量,从而让我们了解搜索背后的 动机。
Source: …
让搜索数据在各国之间真正可比
注意事项
- 篮子代表性 – 由于手动下载的限制,我只能使用九个项目。
- 各国特有的热门词 – 有些国家对我篮子中没有的词搜索量极大。
- 示例:Facebook 和 Instagram 在美国/英国占主导地位,但 WeChat 是中国的对应产品。
- 我省略了 WeChat,因为它在全球范围内不具代表性,但在中国却高度代表性。
超越基准国的扩展
即使我们可以对一个国家进行基准测试,如何对其他国家进行扩展?有两个明显的影响因素:
| 因素 | 原因 |
|---|---|
| 人口 | 人口越多 → 潜在搜索量越大。 |
| 互联网普及率 | 并非所有人都有互联网接入;用户比例因国家而异。 |
我获取了各国 互联网用户比例 数据。将其乘以总人口即可得到各国 互联网用户绝对数量。
调整系数(任意国家)=
[ \frac{\text{该国的互联网用户数}}{\text{美国的互联网用户数}} ]
将美国的扩展系数乘以该调整系数,即可估算任意国家中任意词的绝对搜索量。
当数学自行简化
(分析的续篇…)
注意: 原文开头有一个多余的 “t”。已将其删除以保持清晰。
因为我们想比较各国以及模型动机趋势,所以我们并不关注 “motivation”(动机) 的绝对搜索量。
如果只看绝对值,可能会得出美国的动机水平低于英国的结论,仅仅是因为美国搜索 “motivation” 的次数更多。实际上,人口更多导致搜索次数更多,而不是动机更低。
我们的解决方案
我们需要将 “motivation” 的搜索量 表示为总搜索量的比例。
我们已经有一个近似整体搜索活动的“词汇篮子”,因此可以:
- 计算篮子中每个词的绝对搜索量。
- 将这些量相加得到篮子总量。
- 用绝对的 “motivation” 量除以篮子总量。
观察: 当我们进行此计算时,之前使用的所有缩放因子都会相互抵消。
换句话说,缩放工作对最终比例而言是多余的。

为什么额外的工作仍然重要
如果我们一开始就写 “直接把词汇篮子的 Google Trends 分数相加,然后用动机的分数除以它”,读者可能会想,“为什么?这真的可行吗?”
只有在构建完整的缩放流程后,我们才发现简单的比值是可行的。
额外收益:
在缩放过程中我们累计了许多估计,这会引入噪声。通过抵消缩放因子,我们实际上去除了大量噪声。

结论
是的,我们做了最终计算中并非必要的工作,但这对于:
- 深入理解问题本身。
- 对最终指标的稳健性建立信心
是必不可少的。
关于 Evil Works
在 Evil Works,我们致力于通过以下方式提升数据科学家的工作生活:
点击链接了解更多。