0%

集群

一、负载均衡

集群中的应用服务器(节点)通常被设计成无状态,用户可以请求任何一个节点。

负载均衡器会根据集群中每个节点的负载情况,将用户请求转发到合适的节点上。

负载均衡器可以用来实现高可用以及伸缩性:

阅读全文 »

前几天为了组会重新读了一下CS285中信任域的推理部分,重新做了一版PPT,但很遗憾最后没有时间讲,于是整理一下形成文章。

策略梯度回顾

幻灯片13

强化学习的过程为:智能体做出决策与环境交互,环境为智能体返回状态(观测)奖励,智能体通过交互不断形成数据,从经验中进行学习。策略梯度方法对策略进行建模,并通过目标函数对策略模型进行梯度更新。目标函数即我们希望最大化的值,在强化学习任务下,这个值即为轨迹回报的期望。期望即以概率为权重积分,策略就包含在轨迹概率中。也就是说对于策略不同参数值,由这个策略做决策得到的轨迹概率分布也不同,我们希望改变使得高回报的轨迹概率升高(上图中第一组公式)。

阅读全文 »

GRAPH GRAMMERS WITH NEIGHBOURHOOD-CONTROLLED EMBEDDING

邻居控制图嵌入,是一种图的序列嵌入,在用于以序列形式生成图的方法中便利且准确度高,因此可以更好地适配强化学习的序列决策过程。

阅读全文 »

bootstrapped DQN

MolDQN中用到了bootstrapped DQN,为了理解bootstrapped DQN的改进,从头梳理一下DQN的发展。

阅读全文 »

moldqn所说的与之前模型的不同,大多都针对gcpn

  • 基于价值函数,低方差、稳定、采样效率高

  • 不需要专家数据,从自己的经验学习

  • 多目标强化学习,用户自己定权重

阅读全文 »

GCPN中的GAN

GAN

Generative Adversarial Network

目标:训练高水平的判别器与生成器

整个过程可以用文物鉴定来理解,判别器对应着鉴定机构,生成器对应造假团伙,样本对应着各种“文物”。这些“文物”中存在着真品国宝与赝品,鉴定机构对这些”文物”也有两种判定:真品与赝品。其中所有国宝都是已经存在的古人的作品是相对静态的,而赝品则由造假团伙源源不断地制作是动态的。feedback: 在鉴定完成后,造假团伙会根据鉴定机构的结果改变策略来生成更以假乱真的作品,鉴定机构也会通过得知文物来自造假团伙来更新自己的判断依据。

阅读全文 »

GCPN源码分析

run_molecule.py

整个程序的入口,主要任务是确定调用时参数、连接各模块

  • train(args, seed, writer=none)

    • 创建环境:env = gym.make('molecule-v0') 这个环境也是源码中定义的,需要安装库gym_molecule,在gym-molecule文件夹内命令行输入pip install -e.进行安装,在代码开头需要import gym_molecule 来使用 molecule-v0 环境。

    • 定义得出策略方法:

      1
      2
      3
      #定义用于从观测中得出策略的函数#
      def policy_fn(name, ob_space, ac_space):
      return gcn_policy.GCNPolicy(name=name, ob_space=ob_space, ac_space=ac_space, atom_type_num=env.atom_type_num,args=args)

      policy_fn,输入name(用于tf scope命名),ob_space,ac_space ,直接返回一个策略类

    • 调用pposgd_simple_gcn.learn()开始训练

阅读全文 »

Part I

  • Astro, yeah

  • 欢迎来到Astroworld

    这首歌出自Travis Scott专辑AstroWorld,名字来自休斯顿的一座废弃主题乐园,他本人也来自休斯顿。

阅读全文 »