gRPC 传输优化：一种基于扁平化和位集合的高效解决方案

发布: 1个月前 (2025年12月17日 GMT+8 11:17)

6 分钟阅读

原文: Dev.to

Source: Dev.to

请提供您希望翻译的完整文本（除代码块和 URL 之外），我将按照要求把内容翻译成简体中文并保留原有的 Markdown 格式。

背景与技术挑战

在为数据库中间件设计 API 时，我们经常需要返回多行查询结果。使用传统的 gRPC 定义会导致以下问题：

有效负载冗余（键重复）

一种朴素的 Protobuf 定义会把每一行映射为一个 map 或对象：

message Row {
  map data = 1;
}
message Response {
  repeated Row rows = 1;
}

问题：
对于返回 10 000 条记录且字段为 customer_id、created_at 和 status 的查询，字段名（键）会被传输 10 000 次，导致有效负载严重膨胀，带宽消耗不必要地增加。

Protobuf NULL 值的限制

Proto3 将标量类型视为不可为空：

string 字段若为 NULL 时，会序列化为一个空字符串 ""。
客户端无法区分“空值”和来自数据库的真正 NULL。

包装类型（例如 google.protobuf.StringValue）可以解决此问题，但它们会引入额外的嵌套和处理开销。

解决方案：类数据库的低层架构

AI 建议摆脱传统的“每行一个对象”思维，借鉴 列式存储 和 ODBC/JDBC 驱动 实现的思路。核心优化分为两部分：

扁平化

通过传输：

Header（元数据）： 字段定义（columns）只发送一次。
Body（数值）： 所有数据值放在一个一维数组（values）中。

这样即可消除每行键的重复传输，显著缩小负载。

位集（Bitmap）机制

在不使用额外包装消息的情况下处理 NULL 值：

引入一个二进制字段（bytes），记录每个值的空状态。
位集规则：
- 1 → 值为 NULL
- 0 → 值有效

空间效率： 每 8 个值只需 1 字节。对于 1 000 行 × 8 列，开销约为 1 KB。

实现要点

下面是服务器端压缩与客户端恢复的关键代码片段。

Protobuf 定义 (`proto/query.proto`)

message QueryResponse {
  repeated string values      = 3; // Flattened values
  repeated Column columns     = 4; // Field definitions
  bytes null_bitmap           = 7; // NULL marker bitstream
  int32 row_count             = 6;
}

服务器端 – 编码与压缩

服务器遍历结果集一次，构建扁平化的值列表以及位图。

// $result['rows'] is the 2‑D array returned by the database
$values       = [];
$packedBytes  = "";
$currentByte  = 0;
$bitIndex     = 0;

foreach ($result['rows'] as $row) {
    foreach ($row as $value) {
        if ($value === null) {
            $values[] = "";                     // Placeholder for empty string
            $currentByte |= (1  0) {
    $packedBytes .= chr($currentByte);
}

客户端 – 解码与恢复

客户端通过按列数切分扁平化数组，并结合位图将 NULL 还原。

$fetchedRows = [];
$columns     = $response->getColumns();
$colCount    = count($columns);
$values      = $response->getValues();      // Flattened array
$bitmap      = $response->getNullBitmap();  // Bitmap string
$rowCount    = $response->getRowCount();

for ($r = 0; $r > $bitPos) & 1;

        if ($isNull) {
            $row[] = null;                     // Restore NULL
        } else {
            $row[] = $values[$flatIndex];      // Restore actual value
        }
    }
    $fetchedRows[] = $row;
}

} else {
    $row[] = $values[$flatIndex];
}
}
$fetchedRows[] = $row;

要点

Flattening 删除重复的字段名，显著减小负载大小。
Bitset 提供一种紧凑、常数时间的方式来表示 NULL 状态（每个值 1 bit）。
组合使用这两种方法可生成轻量、高吞吐量的 gRPC 负载，适用于大结果集，同时仍能区分 NULL 与空字符串。

优化收益分析

采用此架构可获得以下具体收益：

极致传输效率

通过扁平化设计，负载大小随数据量线性增长，不受字段名长度影响。在大数据查询场景下，带宽节省极为显著。

精确类型恢复

客户端可以通过读取 null_bitmap 精准恢复数据库的 NULL 状态，解决了 gRPC 默认类型的局限性。

解析性能提升

对于 PHP 等语言，处理扁平的一维数组（索引数组）通常比处理庞大、复杂的嵌套对象拥有更好的 CPU 缓存命中率和更低的内存碎片化。

结论

此优化案例展示了在现代分布式系统中适度引入 low‑level system design thinking 的重要性。通过与 AI 的协作，我们超越了简单 API 设计的框架，利用 bitwise operations 和 data‑structure optimization 以极低的成本解决了 gRPC/Protobuf 在数据库‑应用场景中的固有限制。

gRPC 传输优化：一种基于扁平化和位集合的高效解决方案

背景与技术挑战

有效负载冗余（键重复）

Protobuf NULL 值的限制

解决方案：类数据库的低层架构

扁平化

位集（Bitmap）机制

实现要点

Protobuf 定义 (`proto/query.proto`)

服务器端 – 编码与压缩

客户端 – 解码与恢复

要点

优化收益分析

结论

相关文章

[AI 协作笔记] gRPC 传输优化：基于 Flattening 与 Bitset 的高效方案

用于提升性能和安全性的 Nuxt 脚本

2025年的 Web 开发：7 个真正产生影响的技巧

SwiftUI 渲染管线解析

背景与技术挑战

有效负载冗余（键重复）

Protobuf NULL 值的限制

解决方案：类数据库的低层架构

扁平化

位集（Bitmap）机制

实现要点

Protobuf 定义 (proto/query.proto)

服务器端 – 编码与压缩

客户端 – 解码与恢复

要点

优化收益分析

结论

相关文章

[AI 协作笔记] gRPC 传输优化：基于 Flattening 与 Bitset 的高效方案

用于提升性能和安全性的 Nuxt 脚本

2025年的 Web 开发：7 个真正产生影响的技巧

SwiftUI 渲染管线解析

Protobuf 定义 (`proto/query.proto`)