不,它并非完全浪费

发布: (2026年4月3日 GMT+8 19:21)
7 分钟阅读
原文: Dev.to

I’m happy to translate the article for you, but I need the full text of the post (the part you’d like translated) in order to do so. Could you please paste the content you want translated here? Once I have it, I’ll provide a Simplified‑Chinese version while keeping the source link and formatting exactly as you requested.

介绍

在本文中,我介绍了如何成功地将 24 GB PolyGlotFake 多模态深度伪造数据集 上传到 Kaggle,以便进行更简便的、非交互式的实验。

PolyGlotFake 数据集的原始 GitHub 仓库地址是:

https://github.com/PolyGlotFake/PolyGlotFake

PolyGlotFake 数据集概览

PolyGlotFake 是一个多语言、多模态的深度伪造数据集,旨在应对深度伪造检测的挑战。它包含在七种语言中使用先进的文本转语音、语音克隆和唇形同步技术进行音频和视觉组件操控的视频。

下载链接 (Google Drive):
https://drive.google.com/file/d/1aBWLii‑TbrpKNLSTwpmjqu98eKovWLxF/view?usp=drive_link

定量比较

数据集发布操作模态多语言真视频假视频视频总数操作方法技术标注属性标注
UADFV2018视频4949981
TIMI2018视频3206409602
FF++2019视频1 0004 0005 0004
DFD2019视频3603 0683 4315
DFDC2020音视频23 654104 500128 1548
DeeperForensics2020视频50 00010 00060 0001
Celeb‑DF2020视频5905 6396 2291
FFIW2020视频10 00010 00020 0001

在 GitHub 上查看完整表格。

仓库中的 README 包含相同的 Drive 链接用于下载数据集。

从失败尝试中得到的教训

当我第一次尝试将 “wild” 深度伪造数据集上传到 Kaggle 时,我把 tar 文件解压到嵌套的图像文件夹中,并尝试通过以下方式上传:

Google Drive → GCS bucket → Kaggle

这种方法失败了,因为:

  • 我的本地机器没有足够的存储空间来保存四个 4 TB 的 tar 文件(train‑real、train‑fake、test‑real、test‑fake)。
  • 上传成千上万的单个文件既慢又容易出错。

成功的 PolyGlotFake 工作流

1. 将 RAR 压缩包存放在 Google Drive

数据集以单个 RAR 压缩包的形式提供,非常适合大文件传输。

2. 创建 Colab 笔记本

# Authenticate Google Cloud
from google.colab import auth
auth.authenticate_user()

project_id = 'polyglotfake'
!gcloud config set project {project_id}
!gsutil ls

3. 从 Drive 下载 24 GB RAR 到 Colab

!gdown --id 1cUlwVi8Wu6MmDu8Mh2lXTIPJFz63KOtd

4. 使用 gcsfuse 挂载 GCS 存储桶

# Install gcsfuse
echo "deb http://packages.cloud.google.com/apt gcsfuse-bionic main" \
    > /etc/apt/sources.list.d/gcsfuse.list
curl https://packages.cloud.google.com/apt/doc/apt-key.gpg | apt-key add -
apt -qq update
apt -qq install gcsfuse

# Create a mount point
mkdir my_gcs_mount

5. 将 RAR 复制到存储桶

%cp /content/goblin/PolyGlotFake.rar /content/my_gcs_mount/polyglotfake/

此步骤耗时 > 3 小时。

6. 将存储桶设为公开

gcloud storage buckets add-iam-policy-binding gs://pgfake \
    --member=allUsers \
    --role=roles/storage.objectViewer

公开的 URL 可从 Google Cloud 控制台复制。

7. 上传至 Kaggle

  1. 访问 **https://www.kaggle.com/datasets/?new=true**。
  2. 选择 “Link” 作为来源。
  3. 粘贴公开的 GCS URL。

上传耗时约 ~ 2 小时。

结果: 数据集现已公开可用,链接为
https://www.kaggle.com/datasets/debajyatidey/polyglotfake

支持文件

  • 真实视频元数据(CSV) – 可在 Kaggle 数据集中获取。
  • 伪造视频元数据 – 文件过大,无法在此处显示。

可视化(Google Looker Studio)

图表描述
![按语言划分的年龄分布]按语言划分的年龄分布(各语言使用者的年龄分布)。
![按性别划分的年龄]按性别划分的受试者年龄分布。
![性别比例]所有真实视频的性别比例。
![深度伪造分布]展示深度伪造视频如何组织和分布的各种图表。

所有可视化均使用 Google Looker Studio 创建。

结束语

经过多次失败的尝试、管道中断以及存储限制后,这种方法终于成功了。关键在于不要把数据集拆成成千上万的文件,而是保持为单个压缩包,让云存储服务来处理传输。

教训: 数据工程不是机器学习的副任务——它本身就是游戏的核心。
像 PolyGlotFake 这样的数据集本身就设计得很复杂(多语言、多模态)。使用简单、可靠的流水线来处理它们会带来回报。

因为它们反映了真实世界的深度伪造挑战。让它们易于获取不仅是便利——更直接影响到研究者能够多快进行实验、迭代并真正开展研究。

这才是重点。

如果现在有一个人能够快速启动 Kaggle notebook,接入数据集,并在几分钟内开始实验,而不是花费数天时间搭建环境——那么整个过程就值得了。

我会再做一次吗?
但至少现在我明白了——之前的做法太繁琐了。

所以,是的,… 就这样收尾吧!

欢迎随时与我联系。 :)

感谢阅读! 🙏🏻
用 💚 写成 Debajyati Dey

关注我

Debajyati Dey – 网页开发者、自由技术写手、业余深度学习爱好者,始终渴望尝试新技术并记录它们。

📧 合作请邮件联系。

祝编码愉快 🧑🏽‍💻👩🏽‍💻!祝您有美好的一天! 🚀

0 浏览
Back to Blog

相关文章

阅读更多 »