不,它并非完全浪费
I’m happy to translate the article for you, but I need the full text of the post (the part you’d like translated) in order to do so. Could you please paste the content you want translated here? Once I have it, I’ll provide a Simplified‑Chinese version while keeping the source link and formatting exactly as you requested.
介绍
在本文中,我介绍了如何成功地将 24 GB PolyGlotFake 多模态深度伪造数据集 上传到 Kaggle,以便进行更简便的、非交互式的实验。
PolyGlotFake 数据集的原始 GitHub 仓库地址是:
https://github.com/PolyGlotFake/PolyGlotFakePolyGlotFake 数据集概览
PolyGlotFake 是一个多语言、多模态的深度伪造数据集,旨在应对深度伪造检测的挑战。它包含在七种语言中使用先进的文本转语音、语音克隆和唇形同步技术进行音频和视觉组件操控的视频。
下载链接 (Google Drive):
https://drive.google.com/file/d/1aBWLii‑TbrpKNLSTwpmjqu98eKovWLxF/view?usp=drive_link
定量比较
| 数据集 | 发布 | 操作模态 | 多语言 | 真视频 | 假视频 | 视频总数 | 操作方法 | 技术标注 | 属性标注 |
|---|---|---|---|---|---|---|---|---|---|
| UADFV | 2018 | 视频 | 否 | 49 | 49 | 98 | 1 | 否 | 否 |
| TIMI | 2018 | 视频 | 否 | 320 | 640 | 960 | 2 | 否 | 否 |
| FF++ | 2019 | 视频 | 否 | 1 000 | 4 000 | 5 000 | 4 | 否 | 否 |
| DFD | 2019 | 视频 | 否 | 360 | 3 068 | 3 431 | 5 | 否 | 否 |
| DFDC | 2020 | 音视频 | 否 | 23 654 | 104 500 | 128 154 | 8 | 否 | 否 |
| DeeperForensics | 2020 | 视频 | 否 | 50 000 | 10 000 | 60 000 | 1 | 否 | 否 |
| Celeb‑DF | 2020 | 视频 | 否 | 590 | 5 639 | 6 229 | 1 | 否 | 否 |
| FFIW | 2020 | 视频 | 否 | 10 000 | 10 000 | 20 000 | 1 | — | — |
| … | … | … | … | … | … | … | … | … | … |
在 GitHub 上查看完整表格。
仓库中的 README 包含相同的 Drive 链接用于下载数据集。
从失败尝试中得到的教训
当我第一次尝试将 “wild” 深度伪造数据集上传到 Kaggle 时,我把 tar 文件解压到嵌套的图像文件夹中,并尝试通过以下方式上传:
Google Drive → GCS bucket → Kaggle这种方法失败了,因为:
- 我的本地机器没有足够的存储空间来保存四个 4 TB 的 tar 文件(train‑real、train‑fake、test‑real、test‑fake)。
- 上传成千上万的单个文件既慢又容易出错。
成功的 PolyGlotFake 工作流
1. 将 RAR 压缩包存放在 Google Drive
数据集以单个 RAR 压缩包的形式提供,非常适合大文件传输。
2. 创建 Colab 笔记本
# Authenticate Google Cloud
from google.colab import auth
auth.authenticate_user()
project_id = 'polyglotfake'
!gcloud config set project {project_id}
!gsutil ls3. 从 Drive 下载 24 GB RAR 到 Colab
!gdown --id 1cUlwVi8Wu6MmDu8Mh2lXTIPJFz63KOtd4. 使用 gcsfuse 挂载 GCS 存储桶
# Install gcsfuse
echo "deb http://packages.cloud.google.com/apt gcsfuse-bionic main" \
> /etc/apt/sources.list.d/gcsfuse.list
curl https://packages.cloud.google.com/apt/doc/apt-key.gpg | apt-key add -
apt -qq update
apt -qq install gcsfuse
# Create a mount point
mkdir my_gcs_mount5. 将 RAR 复制到存储桶
%cp /content/goblin/PolyGlotFake.rar /content/my_gcs_mount/polyglotfake/此步骤耗时 > 3 小时。
6. 将存储桶设为公开
gcloud storage buckets add-iam-policy-binding gs://pgfake \
--member=allUsers \
--role=roles/storage.objectViewer公开的 URL 可从 Google Cloud 控制台复制。
7. 上传至 Kaggle
- 访问 **https://www.kaggle.com/datasets/?new=true**。
- 选择 “Link” 作为来源。
- 粘贴公开的 GCS URL。
上传耗时约 ~ 2 小时。
结果: 数据集现已公开可用,链接为
https://www.kaggle.com/datasets/debajyatidey/polyglotfake。
支持文件
- 真实视频元数据(CSV) – 可在 Kaggle 数据集中获取。
- 伪造视频元数据 – 文件过大,无法在此处显示。
可视化(Google Looker Studio)
| 图表 | 描述 |
|---|---|
| ![按语言划分的年龄分布] | 按语言划分的年龄分布(各语言使用者的年龄分布)。 |
| ![按性别划分的年龄] | 按性别划分的受试者年龄分布。 |
| ![性别比例] | 所有真实视频的性别比例。 |
| ![深度伪造分布] | 展示深度伪造视频如何组织和分布的各种图表。 |
所有可视化均使用 Google Looker Studio 创建。
结束语
经过多次失败的尝试、管道中断以及存储限制后,这种方法终于成功了。关键在于不要把数据集拆成成千上万的文件,而是保持为单个压缩包,让云存储服务来处理传输。
教训: 数据工程不是机器学习的副任务——它本身就是游戏的核心。
像 PolyGlotFake 这样的数据集本身就设计得很复杂(多语言、多模态)。使用简单、可靠的流水线来处理它们会带来回报。
因为它们反映了真实世界的深度伪造挑战。让它们易于获取不仅是便利——更直接影响到研究者能够多快进行实验、迭代并真正开展研究。
这才是重点。
如果现在有一个人能够快速启动 Kaggle notebook,接入数据集,并在几分钟内开始实验,而不是花费数天时间搭建环境——那么整个过程就值得了。
我会再做一次吗?
但至少现在我明白了——之前的做法太繁琐了。
所以,是的,… 就这样收尾吧!
欢迎随时与我联系。 :)
感谢阅读! 🙏🏻
用 💚 写成 Debajyati Dey
关注我
Debajyati Dey – 网页开发者、自由技术写手、业余深度学习爱好者,始终渴望尝试新技术并记录它们。
📧 合作请邮件联系。
祝编码愉快 🧑🏽💻👩🏽💻!祝您有美好的一天! 🚀