计算机网络 - 链路层

基本问题

1. 封装成帧

将网络层传下来的分组添加首部和尾部，用于标记帧的开始和结束。

阅读全文 »

集群

一、负载均衡

集群中的应用服务器（节点）通常被设计成无状态，用户可以请求任何一个节点。

负载均衡器会根据集群中每个节点的负载情况，将用户请求转发到合适的节点上。

负载均衡器可以用来实现高可用以及伸缩性：

阅读全文 »

从PG理解信任域(推导)

发表于 2021-12-23 更新于 2022-01-06 分类于学习

前几天为了组会重新读了一下CS285中信任域的推理部分，重新做了一版PPT，但很遗憾最后没有时间讲，于是整理一下形成文章。

策略梯度回顾

强化学习的过程为：智能体做出决策与环境交互，环境为智能体返回状态（观测）与奖励，智能体通过交互不断形成数据，从经验中进行学习。策略梯度方法对策略进行建模，并通过目标函数对策略模型进行梯度更新。目标函数即我们希望最大化的值，在强化学习任务下，这个值即为轨迹回报的期望。期望即以概率为权重积分，策略 $\pi$ 就包含在轨迹概率中。也就是说对于策略不同参数值，由这个策略做决策得到的轨迹概率分布 $p_\theta(\tau)$ 也不同，我们希望改变 $\theta$ 使得高回报的轨迹概率升高（上图中第一组公式）。

阅读全文 »

NCE阅读笔记

发表于 2021-12-06 更新于 2022-01-05 分类于学习

GRAPH GRAMMERS WITH NEIGHBOURHOOD-CONTROLLED EMBEDDING

邻居控制图嵌入，是一种图的序列嵌入，在用于以序列形式生成图的方法中便利且准确度高，因此可以更好地适配强化学习的序列决策过程。

阅读全文 »

DDQN学习笔记

发表于 2021-05-18 更新于 2022-01-05 分类于学习

bootstrapped DQN

MolDQN中用到了bootstrapped DQN，为了理解bootstrapped DQN的改进，从头梳理一下DQN的发展。

阅读全文 »

Moldqn论文阅读笔记

发表于 2021-04-28 更新于 2022-01-05 分类于学习

moldqn所说的与之前模型的不同，大多都针对gcpn

基于价值函数，低方差、稳定、采样效率高
不需要专家数据，从自己的经验学习
多目标强化学习，用户自己定权重

阅读全文 »

GCPN中的GAN

发表于 2021-03-15 更新于 2021-04-02 分类于学习

GCPN中的GAN

GAN

Generative Adversarial Network

目标：训练高水平的判别器与生成器

整个过程可以用文物鉴定来理解，判别器对应着鉴定机构，生成器对应造假团伙，样本对应着各种“文物”。这些“文物”中存在着真品国宝与赝品，鉴定机构对这些”文物”也有两种判定：真品与赝品。其中所有国宝都是已经存在的古人的作品是相对静态的，而赝品则由造假团伙源源不断地制作是动态的。feedback: 在鉴定完成后，造假团伙会根据鉴定机构的结果改变策略来生成更以假乱真的作品，鉴定机构也会通过得知文物来自造假团伙来更新自己的判断依据。

阅读全文 »

GCPN源码分析

发表于 2021-03-11 分类于学习

GCPN源码分析

run_molecule.py

整个程序的入口，主要任务是确定调用时参数、连接各模块

train(args, seed, writer=none)

创建环境：env = gym.make('molecule-v0') 这个环境也是源码中定义的，需要安装库gym_molecule，在gym-molecule文件夹内命令行输入pip install -e.进行安装，在代码开头需要import gym_molecule 来使用 molecule-v0 环境。

定义得出策略方法：

1
2
3

#定义用于从观测中得出策略的函数#
def policy_fn(name, ob_space, ac_space):
    return gcn_policy.GCNPolicy(name=name, ob_space=ob_space, ac_space=ac_space, atom_type_num=env.atom_type_num,args=args)

policy_fn，输入name（用于tf scope命名），ob_space，ac_space ，直接返回一个策略类