首页 1 2 3 4 5 6 7

Scaling Instruction-Finetuned Language Models

Paper name

Paper Reading Note

Paper URL: https://arxiv.org/pdf/2210.11416.pdf

TL;DR

2022 年谷歌出的文章，对指令微调的影响因素进行分析，提出了一些提升指令微调效果的方案。与该文章一起出品的数据集 Flanv2 也是业界公认的高质量微调数据集，对于各种公开榜单刷榜有重要意义

Introduction

背景

人工智能的一个重要目标是开发可以推广到看不见的任务的模型。在自然语言处理 (NLP) 中，预训练的语言模型朝着这个目标取得了重大进展，因为它们可以在给定自然语言描述的情况下执行任务，但这需要一些提示词工程（few-shot 示例）来进行协助
通过在表示为指令的任务集合上微调语言模型，已经取得了进一步的进展，这使得模型能够更好地响应指令，并减少对 few-shot 示例的需求

本文方案

本文提出了几种优化指令微调的方式
- 研究了缩放对指令微调的影响
  - 与微调指令的任务数量有关，任务数量越多效果越好
  - 与模型的大小有关，模型越大效果越好
- 研究了指令微调对推理任务的影响
  - 微调指令中增加思维链（CoT）数据能提升效果

本文贡献
- 使用 540B 参数模型训练 Flan-PaLM，将微调任务的数量增加到 1.8K，包括 CoT 数据。Flan-PaLM 优于 PaLM，在几个基准测试中实现了最优效果。比如 MMLU 实现了 75.2 的精度
- 与 PaLM 相比，Flan-PaLM 也提高了多语言能力，例如 one-shot TyDiQA 的绝对精度提升为 14.9%，代表性不足语言的算术推理的绝对提升为 8.1%
- 在人工评估员评估中，Flan-PaLM 在一组具有挑战性的开放式生成问题上大大优于 PaLM，这表明可用性有所提高
- 指令微调 Flan-T5 模型（80M 到 11B）。这些 checkpoints 具有很强的 zeroshot、few-shot 和 CoT 能力，优于之前的 T5 模型。

Methods

Flan Finetuning

将指令微调称为 Flan（Finetuning language models），加上 Flan 的模型指代微调后的模型，比如 Flan-PaLM。指令微调的流程可适配以下多种模型结构

微调数据

多个任务混合，如下图所示，包含 Muffin, T0-SF, NIV2, CoT 四个混合数据源，一共 1836 个微调任务，数据集就包含了 473 个
上图推理部分包含了 CoT 数据，用它来探索对 CoT 注释进行微调是否可以提高 unseen 场景下的推理任务的性能
- 从先前的工作中创建了一个包含九个数据集的新混合，人类评分者手动为训练语料库编写 CoT 注释，九个数据集主要包含算术推理、multi-hop 推理、自然语言推理任务，每个任务手动编写十个指令模板
模板设置
- 对于 Muffin、T0-SF 和 NIV2，我们为每个任务使用指示性模板，由各个数据源的创建者给出
- 对于 CoT，手动为九个数据集中的每个数据集编写了大约十个指令模板，包含/不包含 CoT 数据基于带/不带 few-shot 的样例数据如下

finetuning 流程

T5、PaLM、U-PaLM 的不同尺寸模型都进行训练，训练流程一致，除了少量超参数：学习率、batch size、dropout 和训练 step 数目
- 使用 Adafactor 优化器，恒定学习率
- 使用 packing 将多个训练示例组合成一个序列，使用序列结束标记将输入与目标分开
- masking 操作：用于防止 token 在 packing 的示例边界关注其他 token
- 对于每个模型，对所有后续评估评估都仅使用某个固定 checkpoint；最佳 checkpoint 是基于评测任务的定期评估（每个 2k 到 10k 步，具体取决于模型大小），并且在给定模型的所有消融实验中都使用相同的 checkpoint 步骤数
- 微调的计算资源消耗与预训练相比很小，例如只使用 0.2% 的预训练计算来指导微调 Flan-PaLM 540B（大约 512 v4 TPU 芯片 37 小时）

模型和任务规模的缩放效应

以下图片的纵坐标是在多个评测集上的结果平均后的结果，随着模型规模提升精度提升，另外随着微调任务提升精度也提升
从以上实验可以提取出的一些经验
- 增加模型规模稳定涨点，不管是微调前还是微调后的
- 指令微调对于大模型和小模型的提升幅度基本差不多。如果指令数据的任务足够多，看起来是小模型的绝对提升幅度大于大模型。但是这样评估也不一定科学，比如 8B 模型的绝对增益大于 540B 模型（8B 为 15.5%，5.4B 为 9.4%），但 540B 模型的错误率的相对减少更大（18.4% 540 B vs 16.6% 8B）
- 增加任务种类涨点，282 个任务后的涨点幅度变小，可能有两种解释
  - 282 个任务之后的任务不是特别多样化，没有提供具有新知识的模型
  - 多任务指令微调的大部分收益来自让模型更好表达预训练过程中模型已经知道的知识，超过 282 个任务后作用就不大了。作者认为这个解释是有道理的，因为预训练数据由 780B 个 token 组成，而指令微调仅使用 1.4B 个 token（预训练标记的 0.2%）

CoT 的影响

CoT 的影响分为两方面
- CoT 训练数据：从上节表格中，可以看出 CoT 的数据增加有明显涨点
- CoT prompt：对于大尺度模型（540B）在推理性任务（比如 BBH）上有涨点，知识性任务（MMLU）上不论大小模型都掉点
CoT 如何结合 self-consistency 对于大模型可以显著涨点；指令微调后的模型（Flan-PaLM）相比于预训练模型（PaLM）稳定涨点
同时使用 CoT 和 non-CoT 数据的精度最高；可以看出如果没有 CoT 数据引入，微调是掉点的（对于 CoT 评测任务），但是增加 CoT 数据后微调能涨点。这说明为了保持推理能力，对某些 CoT 示例进行微调至关重要
训练任务中有 CoT 的数据可以解锁 zero-shot 推理能力：对于预训练模型，使用 CoT prompt 无法涨点，但是对于微调后的模型，使用 CoT 能涨点。CoT 的方式为使用经典的 “let’s think step-by-step”

一些使用 CoT 的样例对比如下

Experiments

基于 Flanv2 数据集训练的模型都能稳定涨点
基于人工评测模型的开放域问答能力，微调后的模型效果更佳

Thoughts

本文一些重要结论汇总

指令微调对于大模型和小模型的提升幅度基本差不多。如果指令数据的任务足够多，小模型的绝对提升幅度大于大模型
增加模型规模稳定涨点
增加任务种类涨点，但增加任务种类在 282 个任务后的涨点幅度变小
微调的计算资源消耗与预训练相比很小，例如只使用 0.2% 的预训练计算来指导微调 Flan-PaLM 540B（大约 512 v4 TPU 芯片 37 小时）
指令微调后的模型（Flan-PaLM）相比于预训练模型（PaLM）稳定涨点
同时使用 CoT 和 non-CoT 数据的精度最高
训练任务中有 CoT 的数据可以解锁 zero-shot 推理能力

CoT + self-consistency 对于大模型（540B）刷榜很有效

文章实验充分且解释详尽，不愧是 yaofu 说要全文背诵的文章

在Python中定义Main函数

许多编程语言都有一个特殊的函数，当操作系统开始运行程序时会自动执行该函数。这个函数通常被命名为main()，并且依据语言标准具有特定的返回类型和参数。另一方面，Python解释器从文件顶部开始执行脚本，并且没有自动执行的特殊函数。尽管如此，为程序的执行定义一个起始点有助于理解

分析智能卡的ATR格式

一些例子 NXP 080 ========= 3b f8 T0 Y1 = 0xF(TA1, TB1, TC1, TD1), K = 8 13 TA1 F = 0x1(Fi = 372, Fmax = 5MHz), D = 0x3(Di

C语言：表达式

表达式就是表示如何计算值的公式，最简单的表达式就是变量和常量，复杂的表达式还包括运算符变量：程序运行时计算的值常量：不变的值运算符：用于构建表达式运算符一共分为以下几种 1）算数运算符：如，加减乘除

Educational Codeforces Round 129 F. Unique Occurrences(树上问题)

题目链接 Unique Occurrences

opencv练手项目：信用卡数字识别

整体思路：利用轮廓检测与模板匹配实现信用卡数字识别。总体分为3步：使用轮廓检测实现数字0-9模板的存取。检测到信用卡的数字部分区域并存储。将信用卡

解析和风天气API的json(objective-C实现)

暑假在家闲着没事干,心血来潮想做个天气预报APP玩玩,听说和风天气API很好,于是注册并试了下,结果它的JSON是这样的(拿我的家乡武义为例子)

Ubuntu的ip设置

/etc/network/interfaces打开后里面可设置DHCP或手动设置静态ip。前面auto eth0，让网卡开机自动挂载. 1. 以DHCP方式配置网卡

group() 数组java_js，ES6有方便拆分数组的方法吗？1,2,3,4,5,6拆1.3.5和2,4,6，类似java8的groupingBy？...

目前了解的解决办法 const oldList = [1, 2, 3, 4, 5, 6, 7] // 使用reduce函数接受一个初始值{ 0: [], 1: [], length: 2 }, // 初始值包含两个空数组，和一个数组长度(

vscode eslint代码保存自动格式化

1. 先安装eslint插件