华盛顿大学 | 模型优化新方法！以任务向量为中心，编辑模型 ...

海秋紫 · 发表于 2022-12-20 09:07:54

首发: AINLPer 微信公众号（每日论文干货分享！！）
编辑: ShuYini
校稿: ShuYini
时间: 2022-12-15

引言

在开发机器学习系统时，提高模型在下游任务上的表现或减少在预训练中学习到的偏见，一种常见的方法是对预训练模型做人为干预引导。为此，本文提出了一种以任务向量为中心来引导神经网络产生预期结果的新范式。

Paper：https://arxiv.org/pdf/2212.04089.pdf
Code：https://github.com/mlfoundations/task_vectors
介绍

目前大部分的机器学习系统都是基于预训练模型进行调优。在实践中，我们经常希望在预训练后对模型进行编辑，以提高下游任务的性能，减少不需要的模型结果，并让模型与人类偏好一致。为此，本文提出了一种基于任务向量编辑神经网络的新范式，它编码了目标任务必备的所有信息。受权重插值方法的启发，本文利用微调模型的权重减去预训练权重来获得这样的向量，如下图(a)所示。

对任务向量执行简单的算术操作，我们可以用任务算术编辑各种模型。例如，对一个向量取负可以用来删除不希望的结果或遗忘，而添加任务向量可以导致更好的多任务模型，甚至可以提高单个任务的性能。最后，当任务形成类比关系时，可以组合任务向量来提高数据稀缺任务的性能。如上图(b-d)所示。
任务向量

对于一个训练任务，往往是用于微调的损失函数和数据集来完成。设θ_{pre}为预训练的模型的权值，θ^t_{ft}为任务t经过微调后的相应权值，则任务向量τ_t可以通过θ^t_{ft}与θ_{pre}之间的元素差得出，即τ_t=θ^t_{ft}−θ_{pre}。当任务从上下文中被清除时，省略标识符t，将任务向量简单地表示为τ。
任务向量可以应用于来自相同架构的任何模型参数θ，通过元素相加以及可选缩放项λ，这样得到的模型具有权重θ_{new} = θ + λτ。「本文我们关注任务向量上的三种算术表达式，如上图所示:减去任务向量、任务向量相加、组合任务向量」。所有操作都按元素应用于权重向量。
负任务向量

负任务向量是降低其在目标任务上的性能的有效方法，而不会严重损害其他地方的性能。遗忘或“忘却”有助于减轻预训练时学到的不良偏见；为了遵守法规或出于道德原因（例如阻止图像分类器识别面部或通过 OCR“读取”个人信息），完全忘记任务可能是可取的。当对任务向量τ求负时，应用得到的任务向量为τ_{new} =−τ对应于微调模型和预训练模型之间的外推,生成的模型在目标任务上更差，在控制任务上的性能几乎没有变化。下面展示了否定任务向量对编辑图像分类和文本生成模型的有效性。

任务向量相加

现在，我们将注意力转向添加任务向量，以构建同时精通多个任务的多任务模型，或者提高单个任务的性能。添加两个或两个以上的任务向量为：τ_{new} = {\textstyle \sum_{i}}τ_{i}。这种操作允许我们重复使用和转移来自模型内部或大量公开可用的微调模型的知识，而不需要额外的训练或访问训练数据。我们探索了各种图像分类和自然语言处理任务的加法。

组合任务向量

当任务A、B、C、D中，A到B形式类似于C到D，那么任务向量τ_{new}=τ_C +(τ_B−τ_A)可以提高任务D的性能,即使该任务几乎没有数据。对于所有操作，通过应用τ_{new}获得的模型权重由$θ_{new} = θ +λτ_{new}给出，其中缩放项λ是使用保留验证集确定的。

上表展示了使用此类任务类比可以提高 T5 模型在多个尺度上的准确性，将 Amazon 和 Yelp 二元情感分析作为目标任务。根据经验发现，为情感分析任务向量赋予更高的权重会导致更高的准确性，因此我们为这些实验使用了两个独立的比例系数——一个用于情感分析任务向量，一个用于两个语言建模任务向量。
推荐阅读

ACL2022 && 加利福尼亚大学 | 新意图发现(NID)/新意图挖掘最近邻对比学习方法(源码)

「麻省理工在Nature发表最新成果」！颠覆传统神经网络！19个神经元驾驶一辆车！

NeurIPS2022 | 基于 Transformer Attention的联邦强化学习（滑铁卢大学&&含源码）

NeurIPS2022 |GPT-3有Bug！基于Transformer的大型语言模型「鲁棒性」的定量分析

中文预训练模型！| 哈工大 && 科大讯飞提出多任务预训练模型LERT（含源码）

Salesforce | Transformer变体！用于时间序列预测的指数平滑Transformer（含源码）

这是一篇关于「情绪分析」和「情感检测」的综述（非常详细）

刚刚！ICLR2023 官方评审结果正式发布！另附：2017年--2023年 ICLR 论文下载

EMNLP2022 | “Meta AI 9篇接受论文”，其中7篇主会、2篇Findings

EMNLP2022|清华&阿里提出“更强，更快”的基于Bert的「中文」语言模型！！

EMNLP2022 | 基于挖掘的零样本学习(Zero-Shot)，无需Prompt模板设计(阿姆斯特丹）

NeurIPS 2022 | 模型轻量化部署！？根源分析异常值对Transformer的影响（含源码）

NeurIPS2022 | 基于Transformer的中文命名实体识别(NER)新模型

EMNLP2022 | 听说训练一个Bert模型所消耗的能量相当于一次跨美飞行？(NLP气候影响)

上一篇：克里米亚高官警告「侵犯克里米亚相当于呼吁轰炸华盛顿」 ...
下一篇：华盛顿大学西雅图

白金会员	积分	兔币	帖子
白金会员, 积分 3395, 距离下一级还需 1605 积分	3395	1850	1549
在线时间：0 小时	最后登录：2023-9-14

[问答] 华盛顿大学 | 模型优化新方法！以任务向量为中心，编辑模型 ...

日元暴跌！美市场人士担忧：日本政府或再次

6分钟闪崩大跌26%，A股惊现“杀猪盘”？“

文学大奖+下嫁“牛郎”，教授之女活在争议

蔚来公布从用户利益出发的全生命周期质量体

丢失36年的儿子被找回：当年的3岁小男孩，

《执行法官》第1集就是王炸，一个敢于“自

一加Ace 3 Pro正式发布，旗舰性能配置，游

力帆科技将收购高合汽车，业内人士：或将打

争5亿房产、传4P丑闻，百亿大佬又开打了

新的研究发现，近亲繁殖不是长毛象灭绝的原

TES沙特杯迎来地狱难度赛程！BLG大概率保送

《怦然4》男五段炼太下头！融入不了集体，

落地25万，现款“奔驰C200L”价格触底，想

马斯克的38岁前妻大婚，和娃娃脸男星喜结连

房地产双轨制，会让穷人买房更加困难

真打疼了？俄罗斯可能开放图们江出海口，中

网友偶遇李健夫妇，孟小蓓发福长胖不少，两

50岁王艳晒照：《还珠》26年，三个女主全翻

伊朗造出无人机航母，美海军破防了

日元暴跌！美市场人士担忧：日本政府或再次

董军就台海划红线不到48小时，美27家军火商

TES沙特杯迎来地狱难度赛程！BLG大概率保送

莫迪连任还没等到中国贺电，先收到了中方的

苹果迟迟不入局，折叠屏手机能否成为手机厂

《怦然4》男五段炼太下头！融入不了集体，

诸茅的黄昏

落地25万，现款“奔驰C200L”价格触底，想

马斯克的38岁前妻大婚，和娃娃脸男星喜结连

中国出口回暖

事关巴菲特！美股突发：数只股票大跌98%

财神驾到

绿林道的

一抹伤

哇哇的哭

冷香丸