语言模型解码策略(language models decoding strategy)

前言

写这篇文章的主要目的是讲清楚语言模型生成句子的随机性从哪里来，它和1.解码策略有关，2.和初始种子有关。

解码策略

1. greedy search （贪婪搜索）

贪婪搜索的方法是对每一个时间点输出的概率分布，选择概率最大的token作为正确输出，拼接到上一句输入中形成一个新的输入，由于每次选择的是概率最大的token，因此在初始种子固定的情况下，每次生成的句子都是一样的

束搜索可以参考我之前写的 Beam Search与Prefix Beam Search的理解与python实现,其产生是由于贪婪搜索产生的最优解仅符合每一个时间点是最优的，但是在整体时间段内可能是次优的，因此通过beam search对每一个时间点的n个最优解去搜索，最终找到n条在受限搜索空间内的最优解，由于beam search选择的是每一个时间点的n个最优解，因此其和贪婪搜索一样，也是生成的固定输出

3. Top-K搜索

Top-K搜索是在每一个时间点，对输出的logits选择K个概率最大的位置，采用multinomial对这K个概率采样1个点，采样的位置认为是正确输出，由于概率大的值采样的可能性越大，因此在一定程度上满足了正确性，同时保留了选择概率小的值的可能性，增加了随机性，因此Top-K搜索更加富有创造性，输出的语句是不固定的

4. Top-p搜索（nucleus sampling）

Top-p搜索是设定一个概率阈值，选择K个位置其概率累加小于设定阈值，例如输出的概率分布为(0.5, 0.15, 0.3, 0.05)，设定阈值为0.9，则K=2，位置0和位置2的概率累加为0.8，概率其次大的值为0.15，累加上大于0.9不进行选择。因此Top-p是Top-K的一种变体，其通过设定阈值来选择K，因此Top-p更加的灵活，同样具有创造性

multer中间件上传文件

postgresql锁表如何处理

HDFS的读写入流程

一.HDFS的读取流程 1. 客户端请求Namenode,读数据 2. Namenode接受到客户端的请求后,会先判断该客户是否有写入的权限,没有则直接报错,有则继续判断该文件是否存在,没有则直接报错,有则返回给客户端,该文件的部分或者所有的block块的地址

Java基础_构造方法

Day_08 构造方法与this关键字一.构造方法 1.定义：构造方法是一种特殊的方法，它是一个与类同名且返回值类型为同名类类型的方法。对象的创建就是通过构造方法来完成，其功能主要是

win10下vs2013+CUDA8.0+cuDNN8.0的caffe编译过程

安装需要的资源链接：链接：http://pan.baidu.com/s/1c1P0vwW 密码：pimo 1、首先安装VS：推荐安装VS2013版本，我在最初使用VS2017时候到后

Qt5的ListView控件使用心得

1 使用前必须初始化（即使用预定义模型），这里利用QStringListModel进行初始化，Qt还支持其他不同Model对listview进行初始化。 QString str; QStringListMode

matlab拟合三维曲线方程,三维的离散点怎么进行三维曲线拟合

X=[83 83 83 113 113 83.5 113.5 113.5 113.5 114 114.5 115 117.5 117.5 100 71 100 100.5 101 101.5 101.5 102 102.5 103 103.5 104.5 104.5 105.5

linux perl脚本入门,windows\ Linux 下的perl快速上手

Windows: (1)首先，要搭建一个Perl运行的环境：这里用的是activeperl。在网上下载一个安装就 OK了，和常用的windows软件安装一样。这里我的安装路径是: 默认的C:\Perl (2)先检查你的perl是否已经在系

Rancher-RKE2-安装流程

一、什么是rke2？ 1.rke2是Rancher的下一代k8s发行版，二、与rke的不同 1.重要的是，RKE2 不像 RKE1 那样依赖 Docker。RKE1 利用 Docker 来部署和管理控制平面组件以及 K

SpringMVC框架的实现文件上传

上一篇：SpringMVC框架的返回值及响应数据

当先锋百科网

语言模型解码策略(language models decoding strategy)

前言

解码策略

1. greedy search （贪婪搜索）

2. beam search （束搜索）

3. Top-K搜索

4. Top-p搜索（nucleus sampling）