训练对比（Training Comparison）

本节从策略类型、训练与表现指标、配置与模态、RGB-Depth 融合方案等维度整理对比，便于选型与复现。各策略在 Kuavo 仿真任务上的具体数值需结合实际训练与评估结果填写。

1. 策略类型对比总表

策略	输入模态	输出形式	归一化方式	部署支持	典型用途
ACT	RGB（+ 可选 Depth）、状态	Action Chunk（一段动作序列）	mean/std	是	通用模仿学习，VAE 隐空间
Diffusion	RGB（+ 可选 Depth）、状态	Action Chunk（扩散去噪生成）	mean/std	是	多模态、高维动作分布
PI0	RGB（+ 可选 Depth）、状态、可选语言	动作序列（Transformer 解码）	quantile（或 mean/std）	是	大视觉语言模型 + 专家头，可弱语言/无语言
PI05	同 PI0	同 PI0（OpenPI 风格）	quantile（或 mean/std）	是	与 PI0 类似，不同底座与接口
Groot	多模态 VLA	动作 / 决策	见文档	文档/预留	多任务、具身推理
SmolVLA	轻量 VLA	动作	见文档	文档/预留	轻量化 VLA 部署

部署支持：当前仿真与真机脚本已接通 diffusion、act、pi0、pi05；Groot、SmolVLA 为预留。
归一化：PI0/PI05 使用 quantile 时需事先运行 augment_dataset_quantile_stats.py；ACT/Diffusion 使用 stats.json 中的 mean/std。

以下指标需在相同任务、相同数据与评估协议下对比才有意义；表中“—”表示暂无统一实测数据，可随实验补充。

策略	参数量级	典型 batch_size	显存占用（约）	收敛速度（相对）	推理速度（相对）
ACT	中	32–64	中	较快	快
Diffusion	中	16–32	中–高	中等	中等（去噪步数影响）
PI0	大（VLM+专家）	8–16	高	依赖预训练与数据	中等
PI05	大（同 PI0 量级）	8–16	高	同 PI0	中等
Groot	大	—	—	—	—
SmolVLA	小–中	—	低–中	—	快（设计目标）

PI0/PI05：需 policy.pretrained_path 预训练底座，显存与 batch 受 VLM 限制；可开 gradient_checkpointing 省显存。
Diffusion：去噪步数、chunk 长度等会直接影响训练与推理耗时。

建议在 sim_task1 / sim_task2 / sim_task3 等固定任务上，用相同 episode 数、相同评估脚本（如 sim_auto_test）跑多轮后填表。

配置	图像	状态	语言	说明
仅 RGB	多视角 RGB	是	可选（可置空）	当前默认；与部署一致
RGB + Depth	RGB + 深度图	是	可选	需在策略与部署中同时开启 depth

训练时在 lerobot_train.py 中若删除 observation.depth_*，即变为仅 RGB；部署时 sim_auto_test 会按策略类型过滤 depth 键。
语言：有语言时需在 batch 中提供 task/语言键；无语言时部署侧注入空字符串等以满足 processor 契约，见训练流水线与快速开始。

策略	policy.type	典型 steps	典型 batch_size	备注
ACT	`act`	30k–50k	32–64	chunk_size 等见 config
Diffusion	`diffusion`	30k–50k	16–32	去噪步数、chunk 见 config
PI0	`pi0`	20k–40k	8–16	需 `policy.pretrained_path`，PI0 无 `freeze_vision_encoder` 等
PI05	`pi05`	20k–40k	8–16	需 `policy.pretrained_path`，可选 freeze/train_expert_only

若使用 RGB+Depth，PI0 系有两种常见融合方式，可在同任务上对比训练与验证表现。

特性	Sequence Concat（方案一）	Cross-Attention（方案二）
深度编码器	独立 ViT Backbone	PaliGemma Vision Tower（与 RGB 共享）
融合方式	序列拼接 `[RGB, Depth]`	双向 Cross-Attention
参数量	较多（多一个 ViT）	较少
计算开销	较低	较高
实现/配置	`depth_fusion_method=sequence_concat`	`depth_fusion_method=cross_attention`

更详细的训练命令、检查点与结果分析模板见项目根目录 TRAINING_COMPARISON_GUIDE.md；方案架构与选型见 RGB_DEPTH_FUSION_COMPARISON.md。