pytorch使用Apex混合精度加速训练

Apex官网:https://nvidia.github.io/apex/amp.html
这篇博客讲的非常好
PyTorch必备神器 | 唯快不破：基于Apex的混合精度加速

1.安装

使用pip安装后会出错

TypeError: Class advice impossible in Python3. Use the @Implementer
class decorator instead.

解决方法：

$ pip uninstall apex
$ git clone https://www.github.com/nvidia/apex
$ cd apex
$ python setup.py install

2.使用

核心代码：

from apex import amp
model, optimizer = amp.initialize(model, optimizer, opt_level="O1") # “欧一”，不是“零一”
with amp.scale_loss(loss, optimizer) as scaled_loss:
		scaled_loss.backward()

例子：

原始训练代码：

import torch
ngpu=2
def traiin():
		model = torch.nn.Linear(D_in, D_out).cuda()
		model = torch.nn.DataParallel(model, device_ids=[i for i in range(ngpu)])
		optimizer = torch.optim.SGD(model.parameters(), lr=1e-3)
		for img, label in dataloader:
			out = model(img.half())
			loss = LOSS(out, label)
			loss.backward()
			optimizer.step()
			optimizer.zero_grad()

#此时采用全精度32位来训练

半精度训练：

import torch
ngpu=2
def traiin():
		model = torch.nn.Linear(D_in, D_out).cuda().half()
		model = torch.nn.DataParallel(model, device_ids=[i for i in range(ngpu)])
		optimizer = torch.optim.SGD(model.parameters(), lr=1e-3)
		for img, label in dataloader:
			out = model(img.half())
			loss = LOSS(out, label)
			loss.backward()
			optimizer.step()
			optimizer.zero_grad()
#此时采用半精度16位来训练

显存基本可以降低为原来的一半，但训练速度降低，可能原因是，CUDNN只支持float32加速，半精度后，将不能加速

混合精度训练：

import torch
ngpu=2
def train():
		model = torch.nn.Linear(D_in, D_out).cuda()
		optimizer = torch.optim.SGD(model.parameters(), lr=1e-3)
		#设置混合精度模式为O1（欧1，不是零1，后面会解释各个模式区别）
		model, optimizer = amp.initialize(model, optimizer, opt_level="O1")
		model = torch.nn.DataParallel(model, device_ids=[i for i in range(ngpu)])
		for img, label in dataloader:
			out = model(img)
			loss = LOSS(out, label)
			#将loss进行缩放，防止溢出
			with amp.scale_loss(loss, optimizer) as scaled_loss:
		    	scaled_loss.backward()
		
			optimizer.step()
			optimizer.zero_grad()
def save_model(self, epoch):
        if self.mixed_precision:
            import apex.amp as amp
            amp_state_dict = amp.state_dict()
        else:
            amp_state_dict = None
        checkpoint = {
            'epoch': epoch,
            'params': self.params,
            'model': self.model.module.state_dict() if self.ngpu > 1 else self.model.state_dict(),
            'optimizer': self.optimizer.state_dict(),
            'amp': amp_state_dict
        }
        torch.save(checkpoint, os.path.join(self.expdir,'model.pt'))

def load_model(self, checkpoint):
	  state_dict = torch.load(checkpoint)
	  self.model.load_state_dict(state_dict['model'])
	
	  if self.mixed_precision:
	      import apex.amp as amp
	      amp.load_state_dict(state_dict['amp'])

注意：
1.模型在amp.initialize前必须加载到GPU上。
2.amp.initialize前不能对模型进行任何分布式操作，如torch.nn.DataParallel必须放在之后。

opt_level	解释
O0	纯 FP32 训练，可以作为 accuracy 的 baseline
O1	混合精度训练（推荐使用），根据黑白名单自动决定使用 FP16（GEMM, 卷积）还是 FP32（Softmax）进行计算
O2	几乎FP16混合精度训练，不存在黑白名单，除了 Batch Norm，几乎FP16 计算
O3	纯 FP16 训练，很不稳定，但是可以作为 speed 的 baseline

参考：
PyTorch必备神器 | 唯快不破：基于Apex的混合精度加速 [CSDN]
Apex [官网]
Apex混合精度加速 [码农网]

NoSQL的特点以及与RDBMS的区别

1.什么是NoSQL NoSQL=Not Only SQL（不仅仅是SQL）；泛指非关系型数据库，随着web2.0互联网的诞生！传统的关系型数据库很难对付web2.0时代！尤其是处理超大规模的高并发的数据，会爆发出很多难以解决

Windows10+CUDA8.0+VS2015+cudnnv5.0环境下配置caffe框架

Windows10+CUDA8.0+VS2015+cudnn5环境下的caffe配置

elementui样式修改input篇

elementui修改input样式 input样式修改主要用到 .el-input__inner(类名)直接在里面改就好了，输入域的话用 .el-textarea__inner如： .el-input__

【超多代码、超多图解】Node.js一文全解析

oracle给存储过程写定时器,Oracle定时器调用存储过程

--创建协同提示存储过程 CREATE OR REPLACE PROCEDURE P_DC_WORK_COOPERATION_WARNING IS V_sql VARCHAR2(1000); BEGIN -- 1、删除数据

angular笔记

ng-model 指令 ng-model 指令绑定 HTML 元素到应用程序数据。 ng-model 指令也可以：为应用程序数据提供类型验证（number、email、required）。为应用程序数据

【UE4的垃圾回收】

UE4的垃圾回收

（转）学习 HTML5 Canvas 这一篇文章就够了

学习 HTML5 Canvas 这一篇文章就够了一、canvas 简介 <canvas> 是 HTML5 新增的，一个可以使用脚本(通常为 JavaScript)

matlab实现BP神经网络(完整DEMO)

本站原创文章，转载请说明来自《老饼讲解-BP神经网络》

leetcode-49-Group Anagrams

The problem is very tricky, first I use two rules: 1. If two words are anagrams then they have same length 2. If two words are anagrams