首页 资讯 关注 科技 财经 汽车 房产 图片 视频 全国 福建

网络

旗下栏目: 教育 体育 网络 军事

告别深度学习炼丹术!谷歌大脑提出“权重无关”神经网络(2)

来源:网络整理 作者:采集侠 人气: 发布时间:2019-06-20
摘要:创建编码解决方案的网络架构是一个与神经结构搜索(NAS)所解决的问题完全不同的问题。NAS技术的目标是产生经过训练的架构,其性能优于人类设计的架构。从没有人声称这个解决方案是网络结构固有的。NAS创建的网络“可

创建编码解决方案的网络架构是一个与神经结构搜索(NAS)所解决的问题完全不同的问题。NAS技术的目标是产生经过训练的架构,其性能优于人类设计的架构。从没有人声称这个解决方案是网络结构固有的。NAS创建的网络“可训练”——但没有人认为这些网络在不训练权重的情况下就能解决任务。权重就是解决方案;所发现的结构仅仅是一个更好的承载权重的基底。

要生成自己编码解决方案的架构,就必须将权重的重要性降到最低。与其用最优权重来判断网络的性能,不如根据随机分布的权重来衡量网络的性能。用权重采样代替权重训练可以确保性能仅是网络拓扑结构的产品。

不幸的是,由于高维数,除了最简单的网络外,可靠第对权重空间进行采样是不可行的。虽然维数灾难(curse of dimensionality)阻碍了我们有效地采样高维权重空间,但是通过强制所有权重共享(weight-sharing),权重值的数量被减少到一个。系统地对单个权重值进行采样是直接且高效的,这使我们能够在少数试验中近似网络性能,然后可以使用这种近似来驱动搜索更好的架构。

微信图片_20190613140613.jpg

权重无关的神经网络搜索概述

在探索神经网络拓扑空间时,权值无关的神经网络搜索避免了权重训练,方法是在每次rollout时采样一个共享的权值。网络将通过多次rollout进行评估。在每次rollout,都会为单个共享权重分配一个值,并记录试验期间的累计奖励。然后根据网络的性能和复杂度对网络群体进行排序。然后,概率性地选择排名最高的网络,并随机变化以形成新的群体,然后重复这个过程。

搜索权重无关神经网络(weight agnostic neural networks, WANNs)的过程可以概况如下(见上图):

创建最小神经网络拓扑的初始群体(population)。

通过多个rollout评估每个网络,每个rollout分配一个不同的共享权重值。

根据网络的性能和复杂度对其进行排名。

通过改变排名最高的网络拓扑结构来创建新的population。

然后,算法从(2)开始重复,生成复杂度逐渐增加的与权重无关的拓扑结构,这些拓扑结构在连续的几代中表现得更好。

拓扑搜索(Topology Search)

用于神经网络拓扑搜索的运算符(operators)受到神经进化算法NEAT的启发。在NEAT中,拓扑和权重值同时优化,这里我们忽略了权重值,只应用拓扑搜索运算符。

微信图片_20190613140617.jpg

用于搜索网络拓扑空间的运算符

左:一个最小的网络拓扑结构,输入和输出仅部分连接。

中间:网络以三种方式进行改变:

(1)插入节点:通过拆分现有连接插入新节点。

(2)添加连接:通过连接两个以前未连接的节点来添加一个新连接。

(3)变更激活:重新分配隐藏节点的激活函数。

右:在[2, 2]范围内可能的激活函数(线性、阶跃、正弦、余弦、高斯、tanh、sigmoid、inverse、绝对值、ReLU)。

实验设置与结果

对连续控制权重无关神经网络(WANN)的评估在三个连续控制任务上进行。

第一个任务:CartPoleSwingUp,这是一个典型的控制问题,在给定的推车连杆系统下,杆必须从静止位置摆动到直立位置然后平衡,而推车不会越过轨道的边界。这个问题无法用线性控制器解决。每个时间步长上的奖励都是基于推车与轨道边缘的距离和杆的角度决定的。

第二个任务是BipedalWalker-v2 ,目的是引导一个双腿智能体跨越随机生成的地形。奖励是针对成功行进距离,以及电动机扭矩的成本确定。每条腿都由髋关节和膝关节控制,响应24个输入。与低维的CartPoleSwingUp任务相比,BipedalWalker-v2的可能连接数更多更复杂,WANN需要选择输入到输出的路线。

第三个任务CarRacing-v0是一个从像素环境中自上而下行驶的赛车问题。赛车由三个连续命令(点火,转向,制动)控制,任务目标是在一定时限内行驶过尽量长的随机生成的道路。我们将任务的像素解释元素交给经过预训练的变分自动编码器(VAE),后者将像素表示压缩为16个潜在维度,将这些信息作为网络的输入。这个任务测试了WANN学习抽象关联的能力,而不是编码输入之间的显式几何关系。

在实验中,我们比较了以下4种情况下100次试验的平均表现:

1.随机权重:从μ(-2,2)范围内抽取的单个权重。

2.随机共享权重:从μ(- 2,2)范围内中抽取的单个共享权重。

3.调整共享权重:在μ(-2,2)范围内表现最好的共享权重值。

4.调整权重:使用基于人口信息的强化调整的个体权重。

连续控制任务的随机抽样和训练权重的性能

微信图片_20190613140620.jpg

我们比较了过往研究中常用的标准前馈网络的最佳权重无关网络架构的平均性能(测试次数超过100次)。通过均匀分布采样的共享权重来测量其性能,从结果中可以观察到网络拓扑的固有偏差。通过调整此共享权重参数,可以测出其最佳性能。为了便于与基线架构进行比较,允许网络获得独特的权重参数,并对其进行调整。

结果如上表所示,作为基线的传统固定拓扑网络在经过大量调整后只产生有用行为,相比之下,WANN甚至可以使用随机共享权重。虽然WANN架构编码强烈偏向解决方案,但并不完全独立于权重值,当单个权重值随机分配时,模型就会失败。WANN通过编码输入和输出之间的关系来起作用,因此,虽然权重大小并不重要,但它们的一致性,特别是符号的一致性,是非常重要的。单个共享权重的另一个好处是,调整单个参数变得非常容易,无需使用基于梯度的方法。

表现最佳的共享权重值会产生令人满意的行为:连杆系统在几次摆动之后即获得平衡,智能体沿道路有效行进,赛车实现高速过弯。这些基本行为完全在网络架构内编码。虽然WANN能够在未经训练的情况下使用,但这并不能妨碍其在训练权重后达到类似的最佳性能。

微信图片_20190613140622.jpg

微信图片_20190613140625.jpg

责任编辑:采集侠

最火资讯

首页 | 资讯 | 关注 | 科技 | 财经 | 汽车 | 房产 | 图片 | 视频 | 全国 | 福建

Copyright © 2015 新闻资讯门户站 版权所有

电脑版 | 移动版