AAAI修改意见整理

实现细节说的不清楚

没有说清楚相比于数据并行和微批次梯度累计的优势

实验不清晰，图6显示了使用不同方法的网络和数据集的最大可实现批处理大小。这是如何决定的？如果只是通过检查PyTorch是否报告了内存不足的错误，如何控制内存碎片？此外，目前还不清楚这是否对性能有重大影响；通常，人们更愿意选择GPU计算性能饱和的最小批次大小（忽略分布式培训问题）。

图7改变了CIFAR-10输入的尺寸。然而，考虑的尺寸似乎不合理；为什么人们想把CIFAR-10图像的大小调整为200x200？

图8使用图6中实现的最大批处理大小，在ImageNet上报告每种方法的运行时间。然而，这种比较似乎不是特别有意义，因为批次大小不同。最好报告吞吐量。

图10的收敛分析只报告了训练损失，还应该报告验证结果(例如top1 和 top5 accuracy on ImageNet)

RTX3080和3090使用的是GDDR6X内存而不是HBM2

审稿意见1