首页 1 2 3 4 5 6 7

Instruction Mining:High-Quality Instruction Data Selection for Large Language Models

Instruction Mining:High-Quality Instruction Data Selection for Large Language Models

Introduction

本文提出了一种通过线性规则筛选高质量数据的方案（有种套娃的感觉），目前验证指令数据的质量的方法大多数采用GPT+Few Shot 或者微调+验证的方案，作者认为这种方法太贵了，提出了一种通过indicator过滤数据的方法，不用微调模型就可以相对评估指令数据的方案。
作者融合一些开源的指令数据集构成data pool，然后对比了随机sample和使用indicator过滤的方式，最终发现它有42.5的概率战胜随机采样。

Method

符号定义：数据质量Q，D数据，M模型，M撇微调后的模型，L表示损失，D-eval表示测试数据。
作者首先做了一个假设：

上面的公式表明指令数据的质量Q与微调后模型在验证集的损失成正比。

由于微调+推理不是那么高效，所以作者定义了一个·indicaor :=I，把这个评估的过程想成一个房价预测的过程，每个indicator就是影响房价的因素，如城市、人口，而在本文中表示指令的长度、奖励模型的分数等等。

假设它可以近似等于微调后的模型在测试集上面的Loss，也就是可以满足下面的公式。

然后作者通过这种近似继续推倒

其中beta是线性回归的系数，L0与theta为常数，I(D)为数据在每个Indicator上面的数值，可以直接获得，那么Y就是估计的数据质量，而真实值用eval 上面的loss近似替代。

然后作者通过最小二乘法得到下面的权重：

这样就可以在真实数据上筛选样本，然后下面是与真实数据上随机采样与筛选的结果对比：

参考

https://arxiv.org/pdf/2307.06290.pdf

算法leetcode｜61. 旋转链表（rust重拳出击）

文章目录 61. 旋

Ubuntu升级内核解决卡死卡顿问题

1.查看系统当前内核版本 uname -sr $ uname -sr Linux 4.13.0-39-generic 1 2 2.查看系统存在的所有内核版本 ~$ sudo d

计算总分和平均分

小明本学期共有5门课程，分别是英语、语文、数学、历史和音乐。5科的期中考试成绩分别是86分、74分、92分、77分、82分，期末考试成绩分别是81分、87分、90分、62分、88分。已知期中和期末考试成绩分别占总成绩的30%和70%。定义相应的变量存放各科成绩，并计算出小明5门课程的总分和平

软件测试--理论1

基础理论知识（1）软件测试=软件（软件工程+软件产品+软件质量）+测试（测试+缺陷）软件生命周期： 1.计划–项目计划、产品计划–项目经理–项目计划书 2.需求分析–市场调研（

pixi.js容器的toLocal与toGlobal的理解

pixi.js中的显示对象(Sprite,Graphics,Container)的其他属性都比较常见和常用，如position,anchor,rotation,alpha等等。但是toLocal和toGlobal不常用，却很有用。我把我的理解与应用记录一下。 pixi.

File “convert.py“, line 34, in ＜module＞from keras.layers.normalization import BatchNormalization

报错信息： PS D:\VOCdevkit

@umijs/plugin-openapi apiPrefix 配置问题

问题描述：在使用umi + openapi 创建项目的时候，每个restAPI 的前缀都是一样的/api/v1，就不想在每个定义的path 里面都写上同样的basePath, 看到@umijs/plugin-openapi 配置的时候有一个apiP

JS ES6 解构赋值

解构赋值 ES6 允许按照一定模式，从数组和对象中提取值，对变量进行赋值，这被称为解构。数组的解构赋值

orange's 文件系统

于渊同学，你真是越来越懒了。。讲到文件系统调试，你都说了这是个效果很high的调试方式，那为什么都不说下怎么使用，甚至连源码里都没有调用的示例，这真是。。。总之，关于Oranges 9.17节提到的文件系统调试方法，确实是个不错的主意，

解决：nginx: [emerg] open() "/usr/local/nginx/logs/access.log" failed (21: Is a directory)

Nginx启动后，执行。/nginx -s stop 关闭服务，报错： nginx: [emerg] open() "/usr/local/nginx/logs/access.log" failed (21: Is a directory) 网上好多解决办法