我偷了Wall Street的技巧来解决Google Trends数据问题

发布: 1个月前 (2026年3月10日 GMT+8 03:08)

16 分钟阅读

原文: Towards Data Science

Source: Towards Data Science

Source: …

Google Trends：将“原始”数据转化为真实洞察

“Google Trends 是市场调研的福音。如果你想了解某个词的兴趣程度，只需查询即可看到其随时间的变化。这类数据如果可用的话，我们完全可以进行严肃的数据科学分析。”

在实际使用中，Google Trends 正如其名称所示：它 展示趋势。数据经过大量 归一化 和 地区化 处理，导致难以提取可比较的数值用于有意义的建模——除非你掌握一些技巧。

回顾

在我之前的文章 Google Trends Is Misleading You – How to Do Machine Learning with Google Trends Data 中，我们介绍了 跨重叠窗口链式数据 的概念，以克服 Google Trends 粒度限制的问题。

接下来会讲什么？

今天我们将探讨如何：

比较跨国家和地区的链式数据
利用这些比较得出可操作的洞察

通过本教程，你将能够：

在不同地理区域的时间序列之间对齐，即使它们的归一化尺度不同。
构建包含多地区趋势信号的模型。
从最初看似“不可用”的数据中生成真实的商业情报。

敬请期待——让我们把 Google Trends 变成强大的跨地区分析工具！

动机：比较动机

Google Trends 允许下载并在引用时重复使用趋势数据，于是我下载了过去五年关于“动机”的数据，并对其进行缩放，使我们拥有每个国家的动机搜索数据集，从而大致了解各国对动机的兴趣随时间的变化。我的目标是比较不同国家的动机程度，但我遇到了一个问题。我不知道美国的 Google Trends 分数 100 是否比英国的 100 更大或更小，而我最初的解决思路并未奏效。让我解释一下。

初始困惑

当我开始这个项目时，我并不是 Google Trends 的行家，天真地尝试输入 UK motivation，然后添加比较项再次输入 motivation 并把地区改为美国。我困惑于为什么得到的是同一张图表。我以为可能是英国和美国太相似了，于是又加入了日本，直到看到中国时才意识到图表把所有线条都换成了该国的动机数据。

Screenshot showing the same graph being re‑loaded three times
我以为我在切换国家。结果发现我只是重新加载了相同的数据三次。
作者提供的截图。数据来源：Google Trends（https://www.google.com/trends）。

如果我无法在同一张图上显示各国数据，那么我就无法进行比较——除非我想出更有创意的方法……

一个“天才”想法却未奏效

我的下一个灵感来自于查看美国。如果在 Google Trends 向下滚动，你会看到一个 子地区 部分，显示各州的相对搜索量。搜索量最高的州被设为 100，其他州则相应缩放。

US search results for “motivation” scaled relatively by state
作者提供的截图。数据来源：Google Trends（https://www.google.com/trends）。

我以为自己很天才：把地区设置为“全球”，记录下我感兴趣的各国对应的数值，然后将每个国家的结果乘以该数值。

但我再次误解了一个根本性的概念，我们需要一点数学来解释原因。

Source: …

Google 趋势归一化背后的数学

我从美国和英国（从 4 月 24 日开始）各抓取了 90 天的数据，绘制了两张独立的 Google Trends 图表。两张图的最大值都被缩放到 100，但峰值出现的日期在两个国家不同。

US and UK graphs each scaled to 100
当 100 在大西洋两岸代表不同含义时。
作者截图。数据来源：Google Trends。

Interest over time for “motivation” in the US and UK
美国和英国在 90 天内搜索 “motivation” 的兴趣随时间变化图。
作者截图。数据来源：Google Trends。

因为我们比较的是两个不同的国家，Google Trends 的得分在本质上是不同的单位——就像英寸和厘米是不同的计量单位一样。不同于英寸与厘米之间我们知道换算系数，这里我们并不知道换算系数。

假设在全球图表中，美国的得分为 100，英国的得分为 50。英国的 50 分意味着英国的峰值是美国峰值的 50%。乍一看，这似乎暗示换算系数为 ½，即 1 个美国单位 = 2 个英国单位。下面我们来看看为什么这并不成立。

取一个非峰值日，例如 4 月 30 日，假设美国得分为 70，英国得分为 80。

从美国的角度

[ 70% \text{ of US peak} = 0.70 \times 100\ \text{US units} = 0.70 \times 2 \times 100\ \text{UK units (if 1 US = 2 UK)} = 140\ \text{UK units} ]

从英国的角度

[ 80% \text{ of UK peak} = 0.80 \times 100\ \text{UK units} = 80\ \text{UK units} ]

显然，140 个英国单位并不是 80 个英国单位的两倍。

仅仅因为美国的峰值是英国峰值的两倍，并不意味着整个期间美国的数据是英国数据的两倍！

因此，我们不能仅凭全球比例来比较不同国家的数据。我们该怎么办？

Source: …

从股市汲取灵感

我们在数据科学中使用的基础科学和方法论可以跨领域迁移，因此我将借鉴金融领域的一种方法。

股市是买卖公司股权（股份）的场所。股份代表部分所有权，通常伴随投票权或股息——作为所有者的小额奖励。股票可以由个人、银行、对冲基金或其他私营公司持有。

股市可以用来衡量一个国家的经济健康状况。当股票上涨时，我们正处于…

（文章其余部分继续……）

Cleaned Markdown

市场周期与经济健康

股市与一个国家的经济在理论上是同步繁荣的。当市场开始下跌时，我们进入熊市，情况就不太乐观了。这是一个极大的简化——市场受人类行为驱动，而人类行为 notoriously 难以捉摸——但为了我们的目的，这一概括是成立的：我们可以根据股市来了解一个国家的经济健康状况。

通过指数追踪市场

那么我们如何整体追踪股市呢？显而易见的想法是把所有上市公司的股价相加，得到一个代表市场价值的单一数字。实际上我们使用指数。

你可能听说过标普 500（S&P 500），它是由美国市值最大的 500 家公司构成的指数。它被用来追踪美国市场，因为作为最大公司的集合，它覆盖了约 80 % 的总市值（即价值），且流动性极高——其股票交易频繁，价格波动大。

由于它覆盖了市场的大部分，标普 500 在仅有 500 只股票的较小集合中，能够很好地代表整个市场。为什么是 500？

标普 500 于 1957 年推出。
这不仅仅是计算能力的问题——当时一种新的电子计算方法使得在指数中加入 500 只股票成为可能。（在此之前，指数更小，因为它们是手工计算的。）

Source: S&P Global – “Where It All Began”

在大数据时代为何仍要进行估算？

今天我们拥有足够的计算能力来计算整个市场；几千只股票在大数据时代算是“小菜”。然而，这并非真正必要：

纳入小公司会增加跟踪的开销。
一些小盘股交易不活跃，它们的数据会变得陈旧。

缺点大于优点。

这种讨论在金融领域屡见不鲜。示例：

指数	组成
FTSE‑100	100 只英国股票
商品篮子	商品组合（例如石油、农产品）
CPI	用于追踪价格变化的商品篮子

FTSE 100 – 作者截图

如果一个代表性项目的篮子能够衡量整个股市——或通胀——为何不使用一个篮子来追踪搜索量？

将ETF应用于Google趋势数据

要使用此概念，我们需要一套最常被搜索的词汇，能够作为每个国家的 S&P‑500‑类指数。Google Trends 的 Year In Search 提供了良好的候选篮子来源。

每日 Google 趋势数据（“Facebook”），使用我的链式方法构建 – 作者提供的图片

假设我们拥有至少一个国家（例如美国）的平均搜索量。我们可以：

对篮子中一个子集（或全部）计算缩放因子的平均值。
将此平均值视为 “美国 Google‑Trends 单位 → 实际搜索量”。
使用得到的因子估算任何词的绝对搜索量，从而让我们了解搜索背后的动机。

Source: …

让搜索数据在各国之间真正可比

注意事项

篮子代表性 – 由于手动下载的限制，我只能使用九个项目。
各国特有的热门词 – 有些国家对我篮子中没有的词搜索量极大。
- 示例：Facebook 和 Instagram 在美国/英国占主导地位，但 WeChat 是中国的对应产品。
- 我省略了 WeChat，因为它在全球范围内不具代表性，但在中国却高度代表性。

超越基准国的扩展

即使我们可以对一个国家进行基准测试，如何对其他国家进行扩展？有两个明显的影响因素：

因素	原因
人口	人口越多 → 潜在搜索量越大。
互联网普及率	并非所有人都有互联网接入；用户比例因国家而异。

我获取了各国 互联网用户比例 数据。将其乘以总人口即可得到各国 互联网用户绝对数量。

调整系数（任意国家）=

[ \frac{\text{该国的互联网用户数}}{\text{美国的互联网用户数}} ]

将美国的扩展系数乘以该调整系数，即可估算任意国家中任意词的绝对搜索量。

当数学自行简化

（分析的续篇…）

注意： 原文开头有一个多余的 “t”。已将其删除以保持清晰。

因为我们想比较各国以及模型动机趋势，所以我们并不关注 “motivation”（动机） 的绝对搜索量。
如果只看绝对值，可能会得出美国的动机水平低于英国的结论，仅仅是因为美国搜索 “motivation” 的次数更多。实际上，人口更多导致搜索次数更多，而不是动机更低。

我们的解决方案

我们需要将 “motivation” 的搜索量 表示为总搜索量的比例。
我们已经有一个近似整体搜索活动的“词汇篮子”，因此可以：

计算篮子中每个词的绝对搜索量。
将这些量相加得到篮子总量。
用绝对的 “motivation” 量除以篮子总量。

观察： 当我们进行此计算时，之前使用的所有缩放因子都会相互抵消。
换句话说，缩放工作对最终比例而言是多余的。

Adjusting for reality: accounting for differences in internet access when estimating search volumes across countries.

为什么额外的工作仍然重要

如果我们一开始就写 “直接把词汇篮子的 Google Trends 分数相加，然后用动机的分数除以它”，读者可能会想，“为什么？这真的可行吗？”

只有在构建完整的缩放流程后，我们才发现简单的比值是可行的。

额外收益：
在缩放过程中我们累计了许多估计，这会引入噪声。通过抵消缩放因子，我们实际上去除了大量噪声。

Compounding errors in action.

结论

是的，我们做了最终计算中并非必要的工作，但这对于：

深入理解问题本身。
对最终指标的稳健性建立信心

是必不可少的。

关于 Evil Works

在 Evil Works，我们致力于通过以下方式提升数据科学家的工作生活：

展示真实项目 – 阅读我们的博客
构建更好的数据科学工具 – 探索我们的产品

点击链接了解更多。

我偷了Wall Street的技巧来解决Google Trends数据问题

Google Trends：将“原始”数据转化为真实洞察

回顾

接下来会讲什么？

动机：比较动机

初始困惑

一个“天才”想法却未奏效

Google 趋势归一化背后的数学

从股市汲取灵感

市场周期与经济健康

通过指数追踪市场

在大数据时代为何仍要进行估算？

将ETF应用于Google趋势数据

让搜索数据在各国之间真正可比

注意事项

超越基准国的扩展

当数学自行简化

我们的解决方案

为什么额外的工作仍然重要

结论

关于 Evil Works

相关文章

理解 Word2Vec – 第4部分：可视化词向量

大规模机器学习：在生产环境中管理多个模型

教AI逃脱：深度强化学习的力量

是什么让量子机器学习“量子”？

Google Trends：将“原始”数据转化为真实洞察

回顾

接下来会讲什么？

动机：比较动机

初始困惑

一个“天才”想法却未奏效

Google 趋势归一化背后的数学

从股市汲取灵感

市场周期与经济健康

通过指数追踪市场

在大数据时代为何仍要进行估算？

将ETF应用于Google趋势数据

让搜索数据在各国之间真正可比

注意事项

超越基准国的扩展

当数学自行简化

我们的解决方案

为什么额外的工作仍然重要

结论

关于 Evil Works

相关文章

理解 Word2Vec – 第4部分：可视化词向量

大规模机器学习：在生产环境中管理多个模型

教AI逃脱：深度强化学习的力量

是什么让量子机器学习“量子”？

Google 趋势归一化背后的数学