20189218 2018-2019-2 《密码与安全新技术专题》第5周作业( 四 ) _深度

本文结果存在一些不确定性，因为其中有根据经验估计的信息。即使是最先进的估算方法也可能导致误导性的实证结果。但是，本文的结果至少具有一定启发性，有进一步研究和讨论的价值。
Don't Decay theRate,the Batch Size
本文as apaper at ICLR 2018 。
作者信息：
为了较快获得比较好的学习结果，通常的做法是衰减学习率。本文展示了在训练和测试集上获得相同的学习曲线，却不在训练期间增加批量大小的一种方法。这个过程对于随机梯度下降（SGD），具有动量的SGD，动量和Adam是成功的。在相同数量的训练组之后，它达到相同的测试精度，但参数更新更少，从而获得更大的并行性和更短的训练时间。本文证明可以通过增加学习率ε和缩放批量大小Bα来进一步减少参数更新的数量。最后，可以增加动量系数m和标度Bα1/（1-m），尽管这会略微降低测试精度。至关重要的是，通过本文的技术能够重新利用现有的大批量训练培训计划，而无需进行超参数调整。本文的作者在30分钟内将上的-50训练到76.1％的验证准确度。
toforDeep
本文收入 ICML 2018 。
作者信息：
Zeng Bin Yang
深度神经网络已经被证明是非常强大的建模工具，用于有关复杂输入模式的许多监督学习任务。而且它们也可以轻易地适应训练集偏差和标签噪音。除了各种正则化器之外，示例重新加权算法是这些问题常见的解决方案，但它们需要仔细调整其他超参数，例如示例挖掘计划和正则化超参数。与过去的重新加权方法（通常由每个示例的成本值的函数组成）相反，在本文中提出了一种新颖的元学习算法，该算法学习基于其梯度方向为训练样本分配权重。为了确定示例权重，本文对当前的小批量示例权重（从零初始化）执行元梯度下降过程，以最小化干净无偏验证集上的损失。本文提出的方法可以在任何类型的深度网络上轻松实现，不需要任何额外的超参数调整，并且在类别不平衡和损坏的标签问题上实现了出众的性能。
Deep:thefor
本文收入 ICLR 2018 。
作者信息：
Song Han Huizi Mao Yu WangJ. Dally
大规模分布式训练需要大量的通信带宽用于梯度交换，这限制了多节点训练的可扩展性，并且需要昂贵的高带宽网络基础设施。随着移动设备（联合学习）的分布式训练发展，情况变得更糟，这种训练受到更高的延迟、更低的吞吐量和间歇性的不良连接的影响。本文发现分布式SGD中99.9％的梯度交换是冗余的，并提出深度梯度压缩（DGC）以大大降低通信带宽。为了在压缩过程中保持准确性，DGC采用了四种方法：动量校正，局部梯度限幅，动量因子屏蔽和预热训练。本文已将Deep应用于图像分类，语音识别和多个数据集的语言建模，包括，，Penn 和。在这些情况下，Deep实现了从270x到600x的梯度压缩比，而不会失去准确性，将-50的梯度大小从97MB减少到0.35MB，的梯度大小从488MB减少到0.74MB 。深度梯度压缩可在1Gbps以太网上实现大规模分布式培训，并促进移动设备上的分布式培训。
Joint - DeepforRe-
本文收入The IEEEonand(CVPR), 2018, pp. 2275-2284.
作者信息：
ZhuGong Wei Li
大多数现有的个人身份重新识别（重新识别）方法需要针对每个单个相机对从单独的大的成对标记的训练数据集中进行有监督的模型学习。这显着限制了它们在实际大规模部署中的可扩展性和可用性，因为这需要在许多摄像机视图中执行重新标识。为了解决这种可扩展性问题，本文开发了一种新颖的深度学习方法，用于将现有数据集的标记信息转移到新的未见（未标记）目标域，用于身份重新识别而无需在目标域中进行任何监督学习。具体来说，本文引入了可转移联合属性 - 身份深度学习（TJ-AIDL），用于同时学习可转移到任何新的（看不见的）目标域的属性 - 语义和身份差异特征表示空间，用于重新识别任务，而无需收集新的标签训练来自目标域的数据（即目标域中的无监督学习）。本文通过广泛的比较评估验证了这种新型TJ-AIDL模型在四种具有挑战性的基准测试（包括VIPeR，PRID，-1501和-ReID）上对各种最先进方法的无人监督人员身份识别的优越性。