AI/ML 基础设施在 AWS 上：生产就绪蓝图

发布: 8小时前 (2026年4月20日 GMT+8 08:21)

2 分钟阅读

Source: Dev.to

高吞吐量训练数据存储

# Create FSx for Lustre linked to S3 training data
aws fsx create-file-system \
  --file-system-type LUSTRE \
  --storage-capacity 1200 \
  --lustre-configuration ImportPath=s3://training-data-bucket

FSx for Lustre 提供 100+ GB/s 的吞吐量，相比 S3 的约 5 GB/s。一个在 S3 上需要 8 小时的作业，在 Lustre 上大约可以在 45 分钟内完成。

使用 Karpenter 的 GPU 节点供应

apiVersion: karpenter.sh/v1alpha5
kind: Provisioner
metadata:
  name: gpu-training
spec:
  requirements:
    - key: node.kubernetes.io/instance-type
      operator: In
      values: ["p4d.24xlarge", "p3.8xlarge", "g5.12xlarge"]
    - key: karpenter.sh/capacity-type
      operator: In
      values: ["spot", "on-demand"]
  limits:
    resources:
      nvidia.com/gpu: 32

Spot GPU 实例可以将成本降低 60–70 %。
Karpenter 会根据工作负载自动供应合适的 GPU 类型。

部署带自动伸缩的 SageMaker 模型

import sagemaker
from sagemaker.model import ModelPackage

model_package = ModelPackage(
    model_package_arn="arn:aws:sagemaker:us-east-1:123456:model-package/my-model/1",
    role=sagemaker_role,
    sagemaker_session=session
)

# Deploy with auto‑scaling
predictor = model_package.deploy(
    initial_instance_count=2,
    instance_type="ml.g5.xlarge",
    endpoint_name="production-inference"
)

在单个端点上托管多个模型

from sagemaker.multidatamodel import MultiDataModel

mme = MultiDataModel(
    name="multi-model-endpoint",
    model_data_prefix=f"s3://{bucket}/models/",
    model=model,
    sagemaker_session=session
)

在单个端点上运行 10+ 个模型 可以显著降低推理成本。

数据和模型漂移监控

from sagemaker.model_monitor import DataCaptureConfig

data_capture = DataCaptureConfig(
    enable_capture=True,
    sampling_percentage=20,
    destination_s3_uri=f"s3://{bucket}/capture"
)

启用数据捕获以监控：

数据漂移
模型漂移
特征重要性变化

附加资源

AI/ML 工具套件 – 超过 40 个 Terraform 模块、流水线模板和部署蓝图: AI/ML Toolkits
架构蓝图 – 生产就绪的机器学习架构模式: Architecture Blueprints
免费 AI/ML 课程 – 零费用学习基础知识: Free Courses

你的机器学习基础设施栈是什么？

AI/ML 基础设施在 AWS 上：生产就绪蓝图

高吞吐量训练数据存储

使用 Karpenter 的 GPU 节点供应

部署带自动伸缩的 SageMaker 模型

在单个端点上托管多个模型

数据和模型漂移监控

附加资源

相关文章

AI 本应减轻开发者倦怠，数据却显示相反。

地球日的活力

AI 能快速编写代码。但谁来检查它是否真的正确？

EcoLens 🌍 — 扫描任何物体，了解其碳足迹（为海地及资源受限环境打造）