不，它并非完全浪费

发布: 1个月前 (2026年4月3日 GMT+8 19:21)

7 分钟阅读

原文: Dev.to

I’m happy to translate the article for you, but I need the full text of the post (the part you’d like translated) in order to do so. Could you please paste the content you want translated here? Once I have it, I’ll provide a Simplified‑Chinese version while keeping the source link and formatting exactly as you requested.

介绍

在本文中，我介绍了如何成功地将 24 GB PolyGlotFake 多模态深度伪造数据集 上传到 Kaggle，以便进行更简便的、非交互式的实验。

PolyGlotFake 数据集的原始 GitHub 仓库地址是：

https://github.com/PolyGlotFake/PolyGlotFake

PolyGlotFake 数据集概览

PolyGlotFake 是一个多语言、多模态的深度伪造数据集，旨在应对深度伪造检测的挑战。它包含在七种语言中使用先进的文本转语音、语音克隆和唇形同步技术进行音频和视觉组件操控的视频。

下载链接 (Google Drive)：
https://drive.google.com/file/d/1aBWLii‑TbrpKNLSTwpmjqu98eKovWLxF/view?usp=drive_link

定量比较

数据集	发布	操作模态	多语言	真视频	假视频	视频总数	操作方法	技术标注	属性标注
UADFV	2018	视频	否	49	49	98	1	否	否
TIMI	2018	视频	否	320	640	960	2	否	否
FF++	2019	视频	否	1 000	4 000	5 000	4	否	否
DFD	2019	视频	否	360	3 068	3 431	5	否	否
DFDC	2020	音视频	否	23 654	104 500	128 154	8	否	否
DeeperForensics	2020	视频	否	50 000	10 000	60 000	1	否	否
Celeb‑DF	2020	视频	否	590	5 639	6 229	1	否	否
FFIW	2020	视频	否	10 000	10 000	20 000	1	—	—
…	…	…	…	…	…	…	…	…	…

在 GitHub 上查看完整表格。

仓库中的 README 包含相同的 Drive 链接用于下载数据集。

从失败尝试中得到的教训

当我第一次尝试将 “wild” 深度伪造数据集上传到 Kaggle 时，我把 tar 文件解压到嵌套的图像文件夹中，并尝试通过以下方式上传：

Google Drive → GCS bucket → Kaggle

这种方法失败了，因为：

我的本地机器没有足够的存储空间来保存四个 4 TB 的 tar 文件（train‑real、train‑fake、test‑real、test‑fake）。
上传成千上万的单个文件既慢又容易出错。

成功的 PolyGlotFake 工作流

1. 将 RAR 压缩包存放在 Google Drive

数据集以单个 RAR 压缩包的形式提供，非常适合大文件传输。

2. 创建 Colab 笔记本

# Authenticate Google Cloud
from google.colab import auth
auth.authenticate_user()

project_id = 'polyglotfake'
!gcloud config set project {project_id}
!gsutil ls

3. 从 Drive 下载 24 GB RAR 到 Colab

!gdown --id 1cUlwVi8Wu6MmDu8Mh2lXTIPJFz63KOtd

4. 使用 `gcsfuse` 挂载 GCS 存储桶

# Install gcsfuse
echo "deb http://packages.cloud.google.com/apt gcsfuse-bionic main" \
    > /etc/apt/sources.list.d/gcsfuse.list
curl https://packages.cloud.google.com/apt/doc/apt-key.gpg | apt-key add -
apt -qq update
apt -qq install gcsfuse

# Create a mount point
mkdir my_gcs_mount

5. 将 RAR 复制到存储桶

%cp /content/goblin/PolyGlotFake.rar /content/my_gcs_mount/polyglotfake/

此步骤耗时 > 3 小时。

6. 将存储桶设为公开

gcloud storage buckets add-iam-policy-binding gs://pgfake \
    --member=allUsers \
    --role=roles/storage.objectViewer

公开的 URL 可从 Google Cloud 控制台复制。

7. 上传至 Kaggle

访问 **https://www.kaggle.com/datasets/?new=true**。
选择 “Link” 作为来源。
粘贴公开的 GCS URL。

上传耗时约 ~ 2 小时。

结果： 数据集现已公开可用，链接为
https://www.kaggle.com/datasets/debajyatidey/polyglotfake。

支持文件

真实视频元数据（CSV） – 可在 Kaggle 数据集中获取。
伪造视频元数据 – 文件过大，无法在此处显示。

可视化（Google Looker Studio）

图表	描述
![按语言划分的年龄分布]	按语言划分的年龄分布（各语言使用者的年龄分布）。
![按性别划分的年龄]	按性别划分的受试者年龄分布。
![性别比例]	所有真实视频的性别比例。
![深度伪造分布]	展示深度伪造视频如何组织和分布的各种图表。

所有可视化均使用 Google Looker Studio 创建。

结束语

经过多次失败的尝试、管道中断以及存储限制后，这种方法终于成功了。关键在于不要把数据集拆成成千上万的文件，而是保持为单个压缩包，让云存储服务来处理传输。

教训： 数据工程不是机器学习的副任务——它本身就是游戏的核心。
像 PolyGlotFake 这样的数据集本身就设计得很复杂（多语言、多模态）。使用简单、可靠的流水线来处理它们会带来回报。

因为它们反映了真实世界的深度伪造挑战。让它们易于获取不仅是便利——更直接影响到研究者能够多快进行实验、迭代并真正开展研究。

这才是重点。

如果现在有一个人能够快速启动 Kaggle notebook，接入数据集，并在几分钟内开始实验，而不是花费数天时间搭建环境——那么整个过程就值得了。

我会再做一次吗？
但至少现在我明白了——之前的做法太繁琐了。

所以，是的，… 就这样收尾吧！

欢迎随时与我联系。 :)

感谢阅读！ 🙏🏻
用 💚 写成 Debajyati Dey

关注我

Debajyati Dey – 网页开发者、自由技术写手、业余深度学习爱好者，始终渴望尝试新技术并记录它们。

📧 合作请邮件联系。

祝编码愉快 🧑🏽‍💻👩🏽‍💻！祝您有美好的一天！ 🚀

不，它并非完全浪费

介绍

PolyGlotFake 数据集概览

定量比较

从失败尝试中得到的教训

成功的 PolyGlotFake 工作流

1. 将 RAR 压缩包存放在 Google Drive

2. 创建 Colab 笔记本

3. 从 Drive 下载 24 GB RAR 到 Colab

4. 使用 `gcsfuse` 挂载 GCS 存储桶

5. 将 RAR 复制到存储桶

6. 将存储桶设为公开

7. 上传至 Kaggle

支持文件

可视化（Google Looker Studio）

结束语

关注我

相关文章

理解注意力机制 – 第6部分：解码的最后一步

提升训练 Goodput：连续检查点如何在 Orbax 和 MaxText 中优化可靠性

为什么 AI 代理不遵守规则 — 物理治理的必要性

全国机器人周 — 最新 Physical AI 研究、突破和资源

介绍

PolyGlotFake 数据集概览

定量比较

从失败尝试中得到的教训

成功的 PolyGlotFake 工作流

1. 将 RAR 压缩包存放在 Google Drive

2. 创建 Colab 笔记本

3. 从 Drive 下载 24 GB RAR 到 Colab

4. 使用 gcsfuse 挂载 GCS 存储桶

5. 将 RAR 复制到存储桶

6. 将存储桶设为公开

7. 上传至 Kaggle

支持文件

可视化（Google Looker Studio）

结束语

关注我

相关文章

理解注意力机制 – 第6部分：解码的最后一步

提升训练 Goodput：连续检查点如何在 Orbax 和 MaxText 中优化可靠性

为什么 AI 代理不遵守规则 — 物理治理的必要性

全国机器人周 — 最新 Physical AI 研究、突破和资源

3. 从 Drive 下载 24 GB RAR 到 Colab

4. 使用 `gcsfuse` 挂载 GCS 存储桶