审稿意见1
- Runtime Penalty: 我们的方法带来了较多时间开销
- Complex Implementation: 实现起来比较复杂,对于不熟悉内存的人难以使用
- No Use of Gradient Accumulation: 建议使用梯度累计,进一步提升可用内存
审稿意见2
- 实现细节说的不清楚
- 没有说清楚相比于数据并行和微批次梯度累计的优势
- 实验不清晰,图6显示了使用不同方法的网络和数据集的最大可实现批处理大小。这是如何决定的?如果只是通过检查PyTorch是否报告了内存不足的错误,如何控制内存碎片?此外,目前还不清楚这是否对性能有重大影响;通常,人们更愿意选择GPU计算性能饱和的最小批次大小(忽略分布式培训问题)。
- 图7改变了CIFAR-10输入的尺寸。然而,考虑的尺寸似乎不合理;为什么人们想把CIFAR-10图像的大小调整为200x200?
- 图8使用图6中实现的最大批处理大小,在ImageNet上报告每种方法的运行时间。然而,这种比较似乎不是特别有意义,因为批次大小不同。最好报告吞吐量。
- 图10的收敛分析只报告了训练损失,还应该报告验证结果(例如top1 和 top5 accuracy on ImageNet)
- RTX3080和3090使用的是GDDR6X内存而不是HBM2
- 本文链接: http://blogs.yovr.top/AAAI修改意见整理/
- 版权声明: 本博客所有文章除特别声明外,均默认采用 CC BY-NC-SA 4.0 许可协议。