Distributed Training in TensorFlow 2 with AI Platform:包含代码以演示使用AI平台在TensorFlow 2
带AI平台的Tensor分布式训练Flow-2 随附的博客文章:[待定] 该存储库提供代码以使用TensorFlow 2.4.1中的策略(单主机多个GPU)以分布式方式训练图像分类模型。 我们利用MLOps堆栈来做到这一点: Docker创建一个自定义映像,以便代码可重现。 training工作(由GCP进行),以管理使用多个GPU的自定义Docker映像的运行。 它还可以处理资源的自动配置和取消配置。 以这种方式进行培训(与在Jupyter Notebook环境中进行培训相反)的优点如下: 资源(GPU,CPU,内存等)由我们用来编排培训工作流的自定义服务完全管理。 在这种情况下,它就是AI平台。 资源由服务自动设置和取消设置。 它有助于防止任何不必要的费用。 其他食谱包括: 混合精度训练(仅在使用Tensor核心GPU(例如V100)时才有效)。 调整大小和扩展的T
下载地址
用户评论