设为首页|收藏本站|
开启左侧

[问答] 华盛顿大学 | 模型优化新方法!以任务向量为中心,编辑模型 ...

[复制链接]
39222 0
海秋紫 发表于 2022-12-20 09:07:54 | 只看该作者 打印 上一主题 下一主题
 
首发: AINLPer 微信公众号(每日论文干货分享!!)                                                              
编辑: ShuYini                                                           
校稿: ShuYini                                                            
时间: 2022-12-15
引言

在开发机器学习系统时,提高模型在下游任务上的表现或减少在预训练中学习到的偏见,一种常见的方法是对预训练模型做人为干预引导。为此,本文提出了一种以任务向量为中心来引导神经网络产生预期结果的新范式。

华盛顿大学 | 模型优化新方法!以任务向量为中心,编辑模型 ... 第1张图片
Paper:https://arxiv.org/pdf/2212.04089.pdf
Code:https://github.com/mlfoundations/task_vectors
介绍

目前大部分的机器学习系统都是基于预训练模型进行调优。在实践中,我们经常希望在预训练后对模型进行编辑,以提高下游任务的性能,减少不需要的模型结果,并让模型与人类偏好一致。为此,本文提出了一种基于任务向量编辑神经网络的新范式,它编码了目标任务必备的所有信息。受权重插值方法的启发,本文利用微调模型的权重减去预训练权重来获得这样的向量,如下图(a)所示。

华盛顿大学 | 模型优化新方法!以任务向量为中心,编辑模型 ... 第2张图片
  对任务向量执行简单的算术操作,我们可以用任务算术编辑各种模型。例如,对一个向量取负可以用来删除不希望的结果或遗忘,而添加任务向量可以导致更好的多任务模型,甚至可以提高单个任务的性能。最后,当任务形成类比关系时,可以组合任务向量来提高数据稀缺任务的性能。如上图(b-d)所示。
任务向量

对于一个训练任务,往往是用于微调的损失函数和数据集来完成。设θ_{pre}为预训练的模型的权值,θ^t_{ft}为任务t经过微调后的相应权值,则任务向量τ_t可以通过θ^t_{ft}与θ_{pre}之间的元素差得出,即τ_t=θ^t_{ft}−θ_{pre}。当任务从上下文中被清除时,省略标识符t,将任务向量简单地表示为τ。
任务向量可以应用于来自相同架构的任何模型参数θ,通过元素相加以及可选缩放项λ,这样得到的模型具有权重θ_{new} = θ + λτ。「本文我们关注任务向量上的三种算术表达式,如上图所示:减去任务向量、任务向量相加、组合任务向量」。所有操作都按元素应用于权重向量。
负任务向量

负任务向量是降低其在目标任务上的性能的有效方法,而不会严重损害其他地方的性能。遗忘或“忘却”有助于减轻预训练时学到的不良偏见; 为了遵守法规或出于道德原因(例如阻止图像分类器识别面部或通过 OCR“读取”个人信息),完全忘记任务可能是可取的。当对任务向量τ求负时,应用得到的任务向量为τ_{new} =−τ对应于微调模型和预训练模型之间的外推,生成的模型在目标任务上更差,在控制任务上的性能几乎没有变化。下面展示了否定任务向量对编辑图像分类和文本生成模型的有效性。

华盛顿大学 | 模型优化新方法!以任务向量为中心,编辑模型 ... 第3张图片

华盛顿大学 | 模型优化新方法!以任务向量为中心,编辑模型 ... 第4张图片
任务向量相加

现在,我们将注意力转向添加任务向量,以构建同时精通多个任务的多任务模型,或者提高单个任务的性能。添加两个或两个以上的任务向量为:τ_{new} = {\textstyle \sum_{i}}τ_{i}。这种操作允许我们重复使用和转移来自模型内部或大量公开可用的微调模型的知识,而不需要额外的训练或访问训练数据。我们探索了各种图像分类和自然语言处理任务的加法。

华盛顿大学 | 模型优化新方法!以任务向量为中心,编辑模型 ... 第5张图片

华盛顿大学 | 模型优化新方法!以任务向量为中心,编辑模型 ... 第6张图片
组合任务向量

当任务A、B、C、D中,A到B形式类似于C到D,那么任务向量τ_{new}=τ_C +(τ_B−τ_A)可以提高任务D的性能,即使该任务几乎没有数据。对于所有操作,通过应用τ_{new}获得的模型权重由$θ_{new} = θ +λτ_{new}给出,其中缩放项λ是使用保留验证集确定的。

华盛顿大学 | 模型优化新方法!以任务向量为中心,编辑模型 ... 第7张图片
  上表展示了使用此类任务类比可以提高 T5 模型在多个尺度上的准确性,将 Amazon 和 Yelp 二元情感分析作为目标任务。根据经验发现,为情感分析任务向量赋予更高的权重会导致更高的准确性,因此我们为这些实验使用了两个独立的比例系数——一个用于情感分析任务向量,一个用于两个语言建模任务向量。
推荐阅读

  • ACL2022 && 加利福尼亚大学 | 新意图发现(NID)/新意图挖掘 最近邻对比学习方法(源码)
  • 「麻省理工在Nature发表最新成果」!颠覆传统神经网络!19个神经元驾驶一辆车!
  • NeurIPS2022 | 基于 Transformer Attention的联邦强化学习(滑铁卢大学&&含源码)
  • NeurIPS2022 |GPT-3有Bug!基于Transformer的大型语言模型「鲁棒性」的定量分析
  • 中文预训练模型!| 哈工大 && 科大讯飞 提出多任务预训练模型LERT(含源码)
  • Salesforce | Transformer变体!用于时间序列预测的指数平滑Transformer(含源码)
  • 这是一篇关于「情绪分析」和「情感检测」的综述(非常详细)
  • 刚刚 !ICLR2023 官方评审结果正式发布!另附:2017年--2023年 ICLR 论文下载
  • EMNLP2022 | “Meta AI 9篇接受论文”,其中7篇主会、2篇Findings
  • EMNLP2022|清华&阿里提出“更强,更快”的基于Bert的「中文」语言模型!!
  • EMNLP2022 | 基于挖掘的零样本学习(Zero-Shot),无需Prompt模板设计(阿姆斯特丹)
  • NeurIPS 2022 | 模型轻量化部署!?根源分析异常值对Transformer的影响(含源码)
  • NeurIPS2022 | 基于Transformer的中文命名实体识别(NER)新模型
  • EMNLP2022 | 听说训练一个Bert模型所消耗的能量相当于一次跨美飞行?(NLP气候影响)


    上一篇:克里米亚高官警告「侵犯克里米亚相当于呼吁轰炸华盛顿」 ...
    下一篇:华盛顿大学西雅图
  • @



    1.西兔生活网 CTLIVES 内容全部来自网络;
    2.版权归原网站或原作者所有;
    3.内容与本站立场无关;
    4.若涉及侵权或有疑义,请点击“举报”按钮,其他联系方式或无法及时处理。
     
    您需要登录后才可以回帖 登录 | 立即注册

    本版积分规则

    排行榜
    活跃网友
    返回顶部快速回复上一主题下一主题返回列表APP下载手机访问
    Copyright © 2016-2028 CTLIVES.COM All Rights Reserved.  西兔生活网  小黑屋| GMT+8, 2024-6-28 16:46