【AI视野·今日NLP 自然语言处理论文速览第五十三期】Thu, 12 Oct 2023

AI视野·今日CS.NLP 自然语言处理论文速览
Thu, 12 Oct 2023
Totally 69 papers
👉上期速览✈更多精彩请移步主页

在这里插入图片描述

Daily Computation and Language Papers

To Build Our Future, We Must Know Our Past: Contextualizing Paradigm Shifts in Natural Language Processing
Authors Sireesh Gururaja, Amanda Bertsch, Clara Na, David Gray Widder, Emma Strubell
NLP 正处于一个颠覆性变革的时期，它正在影响我们的方法、资金来源和公众认知。在这项工作中，我们试图通过更好地了解我们的过去来了解如何塑造我们的未来。我们通过对 26 位不同资历、研究领域、机构和社会身份的 NLP 研究人员进行长期访谈，研究了塑造 NLP 作为一个领域的因素，包括文化、激励措施和基础设施。我们的受访者确定了该领域的周期性模式，以及史无前例的新转变，包括基准文化和软件基础设施的变化。我们通过对 ACL 选集中一段时间内的引用、作者身份和语言使用进行定量分析来补充这一讨论。最后，我们讨论了对 NLP 未来的共同愿景、担忧和希望。

InstructRetro: Instruction Tuning post Retrieval-Augmented Pretraining
Authors Boxin Wang, Wei Ping, Lawrence McAfee, Peng Xu, Bo Li, Mohammad Shoeybi, Bryan Catanzaro
通过利用外部数据库，预训练具有检索功能的自回归大型语言模型法学硕士展示了更好的困惑度和事实准确性。然而，现有的预训练检索增强LLM的大小仍然有限，例如Retro有7.5B参数，这限制了指令调整和零样本泛化的有效性。在这项工作中，我们介绍了 Retro 48B，这是最大的在指令调整之前进行检索预训练的 LLM。具体来说，我们继续使用 Retro 增强方法从 1.2 万亿个代币中检索，在另外 1000 亿个代币上预训练 43B GPT 模型。获得的基础模型Retro 48B在困惑度方面大大优于原始的43B GPT。在 Retro 上进行指令调整后，InstructRetro 在零样本问答 QA 任务上表现出比指令调整 GPT 的显着改进。具体来说，InstructRetro 在 8 项简短形式 QA 任务中的平均改进比 GPT 对应版本高 7 倍，在 4 项具有挑战性的长形式 QA 任务中比 GPT 平均改进 10 倍。令人惊讶的是，我们发现可以从 InstructRetro 架构中消除编码器并直接使用其解码器主干，同时获得可比较的结果。我们假设带有检索的预训练使其解码器擅长将上下文纳入 QA。

Found in the Middle: Permutation Self-Consistency Improves Listwise Ranking in Large Language Models
Authors Raphael Tang, Xinyu Zhang, Xueguang Ma, Jimmy Lin, Ferhan Ture
大型语言模型法学硕士在如何使用上下文方面表现出位置偏差，这尤其使列表排名变得复杂。为了解决这个问题，我们提出了排列自一致性，这是黑盒法学硕士排名列表输出的一种自一致性形式。我们的关键思想是在提示中边缘化不同的列表顺序，以产生位置偏差较小的独立于顺序的排名。首先，给定一些输入提示，我们反复打乱提示中的列表，并将其传递给 LLM，同时保持指令不变。接下来，我们通过计算距离所有排名最近的中心排名来聚合排名结果样本，从而在过程中边缘化即时顺序偏差。从理论上讲，我们证明了我们的方法的稳健性，表明在存在随机扰动的情况下收敛到真实排名。根据经验，在排序和段落重新排序的五个列表排序数据集上，我们的方法将 GPT 3.5 的传统推理分数提高了 7 18 分，将 LLaMA v2 70B 的分数提高了 8 16 分，超越了段落重新排序方面的现有技术水平。

Knowledge-enhanced Memory Model for Emotional Support Conversation
Authors Mengzhao Jia, Qianglong Chen, Liqiang Jing, Dawei Fu, Renyu Li
精神障碍的流行已成为一个重要问题，导致人们越来越关注情感支持对话作为心理健康支持的有效补充。现有的方法已经取得了令人信服的结果，然而，它们仍然面临三个挑战：1情绪的可变性、2响应的实用性和3复杂的策略建模。为了应对这些挑战，我们提出了一种新颖的知识增强记忆模型，用于情感支持对话现代。具体来说，我们首先设计一种知识丰富的对话上下文编码来感知对话不同时期的动态情绪变化，以进行连贯的用户状态建模，并从 ConceptNet 中选择上下文相关概念来生成实际响应。此后，我们实现了一种新颖的记忆增强策略建模模块来对策略类别背后的语义模式进行建模。

Well Begun is Half Done: Generator-agnostic Knowledge Pre-Selection for Knowledge-Grounded Dialogue
Authors Qin Lang, Zhang Yao, Liang Hongru, Wang jun, Yang Zhenglu
准确的知识选择对于基于知识的对话系统至关重要。为了更仔细地观察它，我们提供了一种新颖的视角来组织现有文献，即与生成、生成之后和生成之前相结合的知识选择。我们重点关注第三个正在探索的研究类别，它不仅可以提前准确地选择知识，而且具有减少后续响应生成模型（尤其是LLM）的学习、调整和解释负担的优点。我们提出了 GATE，一种与生成器无关的知识选择方法，通过在不同的知识结构和可变的知识需求中选择上下文相关的知识来为后续响应生成模型准备知识。

Audio-Visual Neural Syntax Acquisition
Authors Cheng I Jeff Lai, Freda Shi, Puyuan Peng, Yoon Kim, Kevin Gimpel, Shiyu Chang, Yung Sung Chuang, Saurabhchand Bhati, David Cox, David Harwath, Yang Zhang, Karen Livescu, James Glass
我们从视觉基础语音中研究短语结构归纳。其核心思想是首先将语音波形分割成词段序列，然后使用推断的段级连续表示来归纳短语结构。我们推出了视听神经语法学习器 AV NSL，它可以通过听音频和查看图像来学习短语结构，而无需接触文本。通过对配对图像和语音字幕进行训练，AV NSL 展现出推断有意义的短语结构的能力，这些结构与自然监督的文本解析器导出的英语和德语短语结构相当。

Evaluating Large Language Models at Evaluating Instruction Following
Authors Zhiyuan Zeng, Jiatong Yu, Tianyu Gao, Yu Meng, Tanya Goyal, Danqi Chen
随着大型语言模型法学硕士的研究不断加速，基于法学硕士的评估已成为人类评估的可扩展且具有成本效益的替代方案，用于比较不断增加的模型列表。本文研究了这些 LLM 评估器的功效，特别是使用它们来评估指令遵循情况，这是衡量生成的文本遵循给定指令的程度的指标。我们引入了一个具有挑战性的元评估基准，LLMBar，旨在测试 LLM 评估器辨别指令跟随输出的能力。作者手动策划了 419 对输出，其中一组遵循指令，而另一组则有所不同，但可能具有误导 LLM 评估者的欺骗性品质，例如更具吸引力的语气。与现有的元评估相反，我们发现不同的评估者（即 LLM 和提示的组合）在 LLMBar 上表现出不同的表现，甚至得分最高的评估者也有很大的改进空间。我们还提出了一套新颖的激励策略，进一步缩小法学硕士和人类评估者之间的差距。

The Past, Present and Better Future of Feedback Learning in Large Language Models for Subjective Human Preferences and Values
Authors Hannah Rose Kirk, Andrew M. Bean, Bertie Vidgen, Paul R ttger, Scott A. Hale
人类反馈越来越多地用于指导大型语言模型法学硕士的行为。然而，目前尚不清楚如何以高效、有效和公正的方式收集和整合反馈，特别是对于高度主观的人类偏好和价值观。在本文中，我们利用主要来自 ACL 和 arXiv 存储库的 95 篇论文，调查了从人类反馈中学习的现有方法。首先，我们总结了过去、LLM 之前将人类反馈集成到语言模型中的趋势。其次，我们概述了当前的技术和实践，以及使用反馈概念框架来定义价值观和偏好的动机以及反馈的收集方式和收集对象。

Democratizing LLMs: An Exploration of Cost-Performance Trade-offs in Self-Refined Open-Source Models
Authors Sumuk Shashidhar, Abhinav Chinta, Vaibhav Sahai, Zhenhailong Wang, Heng Ji
专有法学硕士的主导地位导致了访问受限并引发了信息隐私问题。高性能开源替代方案对于信息敏感和大容量应用程序至关重要，但性能往往落后。为了解决这一差距，我们提出了一种不受外部影响的迭代自我批评和自我完善的无目标变体。 2 一种新颖的排名指标性能、细化和推理成本评分 PerRFICS，用于在考虑细化性能和成本的情况下找到给定任务的最佳模型。我们的实验表明，从 7B 到 65B 不同大小的 SoTA 开源模型平均比其基准性能提高了 8.2。引人注目的是，即使是内存占用极小的模型（例如 Vicuna 7B），在 Vicuna 基准测试中，整体性能也提高了 11.74，在高创造力、开放式任务方面则提高了 25.39。 Vicuna 13B 更进一步，在优化后的性能优于 ChatGPT。这项工作对于资源有限和信息敏感的环境具有深远的影响，这些环境寻求利用法学硕士，而又不会产生过高的成本，也不影响性能和隐私。

QACHECK: A Demonstration System for Question-Guided Multi-Hop Fact-Checking
Authors Liangming Pan, Xinyuan Lu, Min Yen Kan, Preslav Nakov
由于缺乏直接证据来支持或反驳现实世界的主张，事实核查通常需要复杂的多步骤推理。然而，现有的事实检查系统在决策过程中往往缺乏透明度，这使得用户很难理解他们的推理过程。为了解决这个问题，我们提出了问题引导的多跳事实检查 QACHECK 系统，该系统通过提出一系列对于验证声明至关重要的问题来指导模型的推理过程。 QACHECK 有五个关键模块：声明验证器、问题生成器、问答模块、QA 验证器和推理器。用户可以将一个主张输入 QACHECK，然后 QACHECK 会预测其真实性并提供一份全面的报告，详细说明其推理过程，并以一系列问题、答案对为指导。 QACHECK 还提供支持每个问题的证据来源，促进透明、可解释且用户友好的事实检查流程。

Accurate Use of Label Dependency in Multi-Label Text Classification Through the Lens of Causality
Authors Caoyun Fan, Wenqing Chen, Jidong Tian, Yitian Li, Hao He, Yaohui Jin
多标签文本分类 MLTC 旨在为每个给定文本分配最相关的标签。现有方法表明标签依赖性有助于提高模型的性能。然而，标签依赖性的引入可能会导致模型遭受不必要的预测偏差。在本研究中，我们将这种偏差归因于模型对标签依赖关系的误用，即模型倾向于利用标签依赖关系中的相关快捷方式，而不是融合文本信息和标签依赖关系进行预测。在因果推理的推动下，我们提出了一个 CounterFactual 文本分类器 CFTC 来消除相关性偏差，并做出基于因果关系的预测。具体来说，我们的 CFTC 首先采用预测然后修改主干来提取嵌入标签依赖中的精确标签信息，然后借助人类因果图通过反事实去偏见技术阻止相关捷径。

Survey on Factuality in Large Language Models: Knowledge, Retrieval and Domain-Specificity
Authors Cunxiang Wang, Xiaoze Liu, Yuanhao Yue, Xiangru Tang, Tianhang Zhang, Cheng Jiayang, Yunzhi Yao, Wenyang Gao, Xuming Hu, Zehan Qi, Yidong Wang, Linyi Yang, Jindong Wang, Xing Xie, Zheng Zhang, Yue Zhang
这项调查解决了大型语言模型法学硕士的事实性这一关键问题。随着法学硕士在不同领域找到应用，其输出的可靠性和准确性变得至关重要。我们将事实性问题定义为法学硕士产生与既定事实不一致的内容的可能性。我们首先深入研究这些不准确的影响，强调法学硕士输出中的事实错误所带来的潜在后果和挑战。随后，我们分析了法学硕士存储和处理事实的机制，寻找事实错误的主要原因。然后我们的讨论转向评估法学硕士事实性的方法，强调关键指标、基准和研究。我们进一步探索提高法学硕士真实性的策略，包括针对特定领域量身定制的方法。我们重点关注两种主要的法学硕士配置独立法学硕士和利用外部数据的检索增强法学硕士，我们详细介绍了它们独特的挑战和潜在的增强功能。

KwaiYiiMath: Technical Report
Authors Jiayi Fu, Lei Lin, Xiaoyang Gao, Pengli Liu, Zhengzong Chen, Zhirui Yang, Shengnan Zhang, Xue Zheng, Yan Li, Yuliang Liu, Xucheng Ye, Yiqiao Liao, Chao Liao, Bin Chen, Chengru Song, Junchen Wan, Zijia Lin, Fuzheng Zhang, Zhongyuan Wang, Di Zhang, Kun Gai
大型语言模型的最新进展 LLM 在处理各种自然语言处理 NLP 下游任务方面表现出了卓越的能力，甚至在需要多步骤推理的数学任务上也是如此。在本报告中，我们介绍了 KwaiYiiMath，它通过应用监督微调 SFT 和人类反馈强化学习 RLHF 来增强 KwaiYiiBase1 的数学推理能力，包括英语和中文数学任务。同时，我们还构建了一个名为 KMath 的小型中国小学数学测试集，由 188 个示例组成，以评估模型生成的问题解决过程的正确性。

Cognate Transformer for Automated Phonological Reconstruction and Cognate Reflex Prediction
Authors V.S.D.S. Mahesh Akavarapu, Arnab Bhattacharya
音系重构是历史语言学的核心问题之一，其中祖先语言的原词是根据观察到的子代语言的同源词确定的。历史语言学的计算方法试图通过学习可用语言数据的模型来自动化任务。从计算生物学中汲取的一些思想和技术已成功应用于计算历史语言学领域。遵循这些思路，我们采用 MSA Transformer（一种蛋白质语言模型）来解决自动语音重建问题。 MSA Transformer 将多个序列比对作为输入进行训练，因此适合应用于比对的同源词。因此，我们将我们的模型命名为 Cognate Transformer。我们还将该模型应用于另一个相关任务，即同源反射预测，其中子语言中的反射词是基于其他子语言中的同源词来预测的。

Adapting the adapters for code-switching in multilingual ASR
Authors Atharva Kulkarni, Ajinkya Kulkarni, Miguel Couceiro, Hanan Aldarmaki
最近，大型预训练多语言语音模型已显示出将自动语音识别 ASR 扩展到许多低资源语言的潜力。其中一些模型在其公式中采用了语言适配器，这有助于提高单语言性能并避免在资源丰富的语言上进行多语言建模的一些缺点。然而，这种表述限制了这些模型在代码交换语音上的可用性，其中两种语言在同一个话语中混合在一起。在这项工作中，我们提出了通过在网络中每个语言适应点吸收来自两种语言适配器的信息来有效地微调代码交换语音的此类模型的方法。我们还将代码交换建模为一系列潜在的二进制序列，可用于在帧级别引导来自每个语言适配器的信息流。

DASpeech: Directed Acyclic Transformer for Fast and High-quality Speech-to-Speech Translation
Authors Qingkai Fang, Yan Zhou, Yang Feng
直接语音到语音翻译 S2ST 使用单一模型将语音从一种语言翻译成另一种语言。然而，由于语言和声学多样性的存在，目标语音遵循复杂的多模态分布，这对 S2ST 模型实现高质量翻译和快速解码速度提出了挑战。在本文中，我们提出了 DASpeech，一种非自回归直接 S2ST 模型，它实现了快速且高质量的 S2ST。为了更好地捕获目标语音的复杂分布，DASpeech 采用两通道架构将生成过程分解为两个步骤，其中语言解码器首先生成目标文本，然后声学解码器根据隐藏状态生成目标语音语言解码器的。具体来说，我们使用DA Transformer的解码器作为语言解码器，并使用FastSpeech 2作为声学解码器。 DA Transformer 使用有向无环图 DAG 对翻译进行建模。为了在训练期间考虑 DAG 中的所有潜在路径，我们通过动态编程计算每个目标标记的预期隐藏状态，并将它们输入声学解码器以预测目标梅尔声谱图。在推理过程中，我们选择最可能的路径并将该路径上的隐藏状态作为声学解码器的输入。 CVSS Fr En 基准测试表明，DASpeech 可以实现与最先进的 S2ST 模型 Translatotron 2 相当甚至更好的性能，同时与自回归基线相比保持高达 18.53 倍的加速。与之前的非自回归S2ST模型相比，DASpeech不依赖知识蒸馏和迭代解码，在翻译质量和解码速度上均实现了显着提升。

Target-oriented Proactive Dialogue Systems with Personalization: Problem Formulation and Dataset Curation
Authors Jian Wang, Yi Cheng, Dongding Lin, Chak Tou Leong, Wenjie Li
面向目标的对话系统旨在主动引导对话朝着预定义的目标或实现特定的系统目标，是对话式人工智能中令人兴奋的领域。在这项工作中，通过制定对话行为、主题对作为对话目标，我们在目标完成过程中考虑个性化，探索了个性化目标导向对话的新问题。然而，对高质量数据集的需求仍然迫切，而从头开始构建一个数据集需要巨大的人力。为了解决这个问题，我们提出了一个使用角色扮演方法的自动数据集管理框架。基于该框架，我们构建了一个大规模个性化目标导向对话数据集TopDial，其中包含约18K多轮对话。

Linguistic laws in biology
Authors Stuart Semple, Ramon Ferrer i Cancho, Morgan L. Gustison
语言规律是人类语言的常见统计模式，定量语言学家已经研究了近一个世纪。最近，来自多个学科的生物学家开始探索这些规律在语言之外的普遍性，寻找与生物组织多个层面的语言规律一致的模式，从分子基因组、基因和蛋白质到有机动物行为，再到生态种群和生态系统。我们为生物学中的语言规律研究提出了一个新的概念框架，包括和整合不同层次的分析，从描述到预测再到理论构建。

Fast-ELECTRA for Efficient Pre-training
Authors Chengyu Dong, Liyuan Liu, Hao Cheng, Jingbo Shang, Jianfeng Gao, Xiaodong Liu
ELECTRA 通过检测已被辅助模型替换的序列中的标记来预训练语言模型。尽管 ELECTRA 显着提高了效率，但其潜力受到辅助模型带来的训练成本的限制。值得注意的是，该模型与主模型联合训练，仅用于辅助主模型的训练，训练后被丢弃。这导致大量的培训费用白白花费。为了缓解这个问题，我们提出了 Fast ELECTRA，它利用现有的语言模型作为辅助模型。为了构建主模型的学习课程，我们通过遵循递减时间表的温度缩放来平滑其输出分布。我们的方法可以与最先进的 ELECTRA 风格预训练方法的性能相媲美，同时显着消除辅助模型联合训练带来的计算和内存成本。

Investigating the Effect of Language Models in Sequence Discriminative Training for Neural Transducers
Authors Zijian Yang, Wei Zhou, Ralf Schl ter, Hermann Ney
在这项工作中，我们研究了在基于音素的神经传感器的序列判别训练中使用的具有不同上下文长度和标签单元音素与单词的语言模型 LM 的效果。检验了无格方法和 N 最佳列表方法。对于具有音素级 LM 的无格方法，我们提出了一种近似上下文历史的方法，以使用具有完全上下文依赖性的 LM。这种近似可以扩展到任意上下文长度，并允许在无格方法中使用字级语言模型。此外，还对无格方法和基于 N 最佳列表的方法进行了系统比较。 Librispeech 上的实验结果表明，在训练中使用单词级 LM 优于音素级 LM。此外，我们发现用于概率计算的 LM 的上下文大小对性能的影响有限。

How Do Large Language Models Capture the Ever-changing World Knowledge? A Review of Recent Advances
Authors Zihan Zhang, Meng Fang, Ling Chen, Mohammad Reza Namazi Rad, Jun Wang
尽管大型语言模型法学硕士在解决各种任务方面令人印象深刻，但它们在部署后很快就会过时。保持其最新状态是当前时代的一个紧迫问题。本文全面回顾了法学硕士与不断变化的世界知识相结合而无需从头开始重新培训的最新进展。我们对研究工作进行系统分类，并提供深入的比较和讨论。我们还讨论了现有的挑战并强调了促进该领域研究的未来方向。

An Empirical Study of Instruction-tuning Large Language Models in Chinese
Authors Qingyi Si, Tong Wang, Zheng Lin, Xu Zhang, Yanan Cao, Weiping Wang
ChatGPT的成功验证了大型语言模型LLM在通用人工智能AGI中的潜力。随后，LLM的发布引发了开源社区对指令调优的兴趣，这被认为加速了ChatGPT的复制过程。然而，针对世界上使用最多的语言的中文法学硕士的教学调整研究仍处于早期阶段。因此，本文对中文法学硕士的指令调整进行了深入的实证研究，这可以作为一本食谱，为有效定制能够更好地响应中文指令的法学硕士提供有价值的发现。具体来说，我们系统地探讨了LLM基础、参数有效方法、指令数据类型的影响，这是指令调优的三个最重要的元素。此外，我们还进行实验来研究其他因素的影响，例如思想链数据和人类价值一致性。我们希望本次实证研究能够为ChatGPT的开放中文版做出一点微薄的贡献。本文将发布堪比ChatGLM的强大中文LLM。

On the Impact of Cross-Domain Data on German Language Models
Authors Amin Dada, Aokun Chen, Cheng Peng, Kaleb E Smith, Ahmad Idrissi Yaghir, Constantin Marc Seibold, Jianning Li, Lars Heiliger, Christoph M. Friedrich, Daniel Truhn, Jan Egger, Jiang Bian, Jens Kleesiek, Yonghui Wu
传统上，大型语言模型要么是在一般网络爬行或特定领域数据上进行训练的。然而，最近生成大型语言模型的成功揭示了跨域数据集的好处。为了检验优先考虑数据多样性而非质量的重要性，我们提出了一个包含来自五个领域的文本的德国数据集，以及另一个旨在包含高质量数据的数据集。通过在两个数据集上训练一系列参数范围在 122M 到 750M 之间的模型，我们对多个下游任务进行了全面的基准测试。我们的研究结果表明，在跨域数据集上训练的模型优于仅在质量数据上训练的模型，比之前的最佳技术水平提高了 4.45。

Parrot: Enhancing Multi-Turn Chat Models by Learning to Ask Questions
Authors Yuchong Sun, Che Liu, Jinwen Huang, Ruihua Song, Fuzheng Zhang, Di Zhang, Zhongyuan Wang, Kun Gai
最近，基于大型语言模型 LLM 的聊天模型取得了令人印象深刻的进展，但是，开源聊天模型（例如 Alpaca 和 Vicuna）与领先的聊天模型（例如 ChatGPT 和 GPT 4）之间的多轮对话存在明显的滞后。通过一系列分析，我们将滞后归因于缺乏足够的高质量多轮指令调优数据。社区可用的指令调整数据要么是单轮对话，要么是具有某些问题的多轮对话，例如非人类指令、不太详细的响应或罕见的主题转移。在本文中，我们通过引入 Parrot 来应对这些挑战，Parrot 是一种高度可扩展的解决方案，旨在自动生成高质量的指令调整数据，然后用于增强多轮对话中聊天模型的有效性。具体来说，我们首先训练 Parrot Ask 模型，该模型旨在模拟真实用户生成指令。然后，我们利用 Parrot Ask 与 ChatGPT 进行各种主题的多轮对话，从而生成 40K 高质量多轮对话的集合 Parrot 40K 。这些数据随后用于训练聊天模型，我们将其命名为 Parrot Chat。我们证明，从 Parrot Ask 收集的对话在关键指标（包括主题多样性、轮数以及与人类对话的相似性）方面明显优于现有的多轮指令遵循数据集。仅通过 40K 训练示例，Parrot Chat 在一系列指令遵循基准测试中就实现了与其他 13B 开源模型相比的强劲性能，尤其是在多轮能力评估方面表现出色。

RobustGEC: Robust Grammatical Error Correction Against Subtle Context Perturbation
Authors Yue Zhang, Leyang Cui, Enbo Zhao, Wei Bi, Shuming Shi
语法错误纠正 GEC 系统在协助人们完成日常写作任务方面发挥着至关重要的作用。然而，用户有时可能会遇到 GEC 系统最初运行良好，但当输入稍作修改时却无法纠正错误。为了确保理想的用户体验，可靠的 GEC 系统应该能够在遇到不相关的上下文扰动时提供一致且准确的建议，我们将其称为上下文鲁棒性。在本文中，我们介绍了 RobustGEC，这是一个旨在评估 GEC 系统的上下文鲁棒性的基准。 RobustGEC 包含 5,000 个 GEC 案例，每个案例都有一个原始的错误正确句子对和由人类注释者精心设计的五个变体。利用 RobustGEC，我们发现最先进的 GEC 系统仍然缺乏足够的鲁棒性来应对环境扰动。

Beyond Factuality: A Comprehensive Evaluation of Large Language Models as Knowledge Generators
Authors Liang Chen, Yang Deng, Yatao Bian, Zeyu Qin, Bingzhe Wu, Tat Seng Chua, Kam Fai Wong
当被提示生成世界知识时，大型语言模型法学硕士在下游知识密集型任务中的表现优于信息检索技术。然而，社区对使用这些未经审查的知识的真实性和潜在影响存在很多担忧。有鉴于此，我们引入了 CONNER，一个综合知识评估框架，旨在从真实性、相关性、连贯性、信息性、有用性和有效性六个重要角度系统地、自动地评估生成的知识。我们对三种不同类型的法学硕士在两个广泛研究的知识密集型任务（即开放领域问答和知识基础对话）上生成的知识进行了广泛的实证分析。令人惊讶的是，我们的研究表明，生成的知识的真实性即使较低，也不会显着阻碍下游任务。相反，产出的相关性和连贯性比小的事实错误更重要。此外，我们展示了如何使用 CONNER 通过设计两种策略“提示工程”和“知识选择”来改进知识密集型任务。

BioT5: Enriching Cross-modal Integration in Biology with Chemical Knowledge and Natural Language Associations
Authors Qizhi Pei, Wei Zhang, Jinhua Zhu, Kehan Wu, Kaiyuan Gao, Lijun Wu, Yingce Xia, Rui Yan
生物学研究的最新进展利用分子、蛋白质和自然语言的整合来增强药物发现。然而，当前的模型存在一些局限性，例如无效的分子 SMILES 的生成、上下文信息的利用不足以及结构化和非结构化知识的平等对待。为了解决这些问题，我们提出了 mathbf BioT5，这是一个全面的预训练框架，可以丰富生物学与化学知识和自然语言关联的跨模式整合。 mathbf BioT5 利用 SELFIES 进行 100 个强大的分子表示，并从非结构化生物文献中生物实体的周围环境中提取知识。此外，mathbf BioT5 区分结构化和非结构化知识，从而更有效地利用信息。经过微调，BioT5 在广泛的任务中表现出了卓越的性能，展示了其捕获生物实体的潜在关系和属性的强大能力。

Ethical Reasoning over Moral Alignment: A Case and Framework for In-Context Ethical Policies in LLMs
Authors Abhinav Rao, Aditi Khandelwal, Kumar Tanmay, Utkarsh Agarwal, Monojit Choudhury
在这篇立场文件中，我们认为，我们不应该在道德上使法学硕士遵循特定的道德原则，而应该向他们注入通用的道德推理能力，以便他们能够在全球范围内处理价值多元化。当提供道德政策时，法学硕士应该能够做出在道德上与该政策一致的决策。我们开发了一个框架，将道德困境与不同抽象层次上的规范伦理学不同形式主义的道德原则相结合。

Exploring the Landscape of Large Language Models In Medical Question Answering: Observations and Open Questions
Authors Karolina Korgul, Andrew M. Bean, Felix Krones, Robert McCraith, Adam Mahdi
大语言模型法学硕士通过在标准化考试中取得及格分数，在医学问答领域展现了前景，并被建议作为支持医疗保健工作者的工具。将法学硕士部署到如此高风险的环境中需要清楚地了解这些模型的局限性。随着新法学硕士的快速开发和发布，识别跨模型存在的模式尤其有价值，因此可能会继续出现在新版本中。在本文中，我们评估了众多受欢迎的法学硕士的医学问题知识，以便更好地了解他们作为一个群体的属性。

Adaptive Gating in Mixture-of-Experts based Language Models
Authors Jiamin Li, Qiang Su, Yitao Yang, Yimin Jiang, Cong Wang, Hong Xu
大型语言模型，例如 OpenAI 的 ChatGPT，在各种 NLP 任务中表现出了卓越的语言理解能力。稀疏激活的专家混合体 MoE 已成为一种有前途的解决方案，可在保持计算操作数量恒定的情况下扩展模型。现有的MoE模型采用固定的门控网络，其中每个令牌由相同数量的专家计算。然而，这种方法与我们的直觉相矛盾，即每个序列中的标记在语言复杂性方面有所不同，因此需要不同的计算成本。先前的研究很少讨论每个代币的计算量和模型性能之间的权衡。本文介绍了 MoE 中的自适应门控，这是一种灵活的训练策略，允许基于专家概率分布由可变数量的专家处理令牌。所提出的框架保留了稀疏性，同时提高了训练效率。此外，利用课程学习进一步减少培训时间。对各种 NLP 任务的大量实验表明，自适应门控最多可减少 22.5 倍的训练时间，同时保持推理质量。

PHALM: Building a Knowledge Graph from Scratch by Prompting Humans and a Language Model
Authors Tatsuya Ide, Eiki Murata, Daisuke Kawahara, Takato Yamazaki, Shengzhe Li, Kenta Shinzato, Toshinori Sato
尽管预训练 Transformer 在自然语言理解方面取得了显着进展，但神经语言模型通常不能很好地处理常识知识。对于常识感知模型，人们已经尝试过获取知识，从自动获取到众包。然而，以低成本获得高质量的知识库是很困难的，尤其是从头开始。在本文中，我们提出了 PHALM，这是一种通过众包和大型语言模型 LLM 来从头开始构建知识图谱的方法。我们使用这种方法构建了日语事件知识图并训练了日语常识生成模型。实验结果揭示了所构建的图和训练模型生成的推论的可接受性。我们还报告了人类和法学硕士在提示方面的差异。

"A Tale of Two Movements": Identifying and Comparing Perspectives in #BlackLivesMatter and #BlueLivesMatter Movements-related Tweets using Weakly Supervised Graph-based Structured Prediction
Authors Shamik Roy, Dan Goldwasser
社交媒体通过促进在线社会运动的形成，已成为社会变革的主要驱动力。自动理解推动运动的观点和反对运动的声音是一项具有挑战性的任务，因为注释数据很难获得。我们提出了一种基于弱监督图的方法，该方法显式地对 BackLivesMatter 相关推文中的观点进行建模。我们提出的方法利用数据的社会语言表示。我们通过将文本分解为结构化元素并将其与作者的社交网络连接起来，将文本转换为图表，然后对这些元素进行结构化预测以识别观点。我们的方法使用一小部分标记示例的种子集。我们尝试使用大型语言模型来生成人工训练示例，将它们与手动注释进行比较，发现它实现了可比的性能。我们使用人工注释的测试集进行定量和定性分析。

QFT: Quantized Full-parameter Tuning of LLMs with Affordable Resources
Authors Zhikai Li, Xiaoxuan Liu, Banghua Zhu, Zhen Dong, Qingyi Gu, Kurt Keutzer
大型语言模型法学硕士在广泛的自然语言处理任务中展示了显着的影响。在下游数据集上微调这些预先训练的模型可以进一步显着提高性能，但由于其非凡的资源需求，这个过程一直具有挑战性。为此，现有的努力主要集中在参数高效的微调上，不幸的是，它未能充分利用全参数微调的强大潜力。在这项工作中，我们提出了 QFT，一种用于 LLM 的新型量化全参数调优框架，可以在不损害性能的情况下实现内存高效的微调。我们的框架融合了两个新颖的想法：i 我们采用高效的 Lion 优化器，它只跟踪动量并为每个参数提供一致的更新幅度，这是鲁棒量化的固有优势；ii 我们量化所有模型状态并将它们存储为整数值，并提出量化权重的梯度流和参数更新方案。

Empowering Psychotherapy with Large Language Models: Cognitive Distortion Detection through Diagnosis of Thought Prompting
Authors Zhiyu Chen, Yujie Lu, William Yang Wang
由于专业人员的严重稀缺和可及性的限制，精神疾病仍然是我们这个时代最关键的公共卫生问题之一。心理治疗需要高水平的专业知识，对患者的认知模型进行深入、复杂的推理和分析。在大语言模型时代，我们相信现在是开发人工智能辅助计算心理治疗的最佳时机。我们研究了认知扭曲检测任务，并提出了思想 DoT 提示诊断。 DoT通过三个阶段的主观评估对患者的言语进行诊断，分离事实和思想对比推理，引出支持和反驳思想的推理过程，并进行图式分析，总结认知图式。通过这三个阶段生成的诊断原理对于协助专业人员至关重要。

Comparing Styles across Languages
Authors Shreya Havaldar, Matthew Pressimone, Eric Wong, Lyle Ungar
了解不同语言的风格差异有利于训练人类和计算机生成适合文化的文本。我们引入了一个解释框架来从多语言语言模型中提取风格差异并比较不同语言的风格。我们的框架 1 生成任何语言的综合风格词汇，2 将 LM 中的特征重要性整合到可比较的词汇类别中。我们应用这个框架来比较礼貌，创建第一个整体多语言礼貌数据集，并探索四种语言之间礼貌的差异。

The Temporal Structure of Language Processing in the Human Brain Corresponds to The Layered Hierarchy of Deep Language Models
Authors Ariel Goldstein, Eric Ham, Mariano Schain, Samuel Nastase, Zaid Zada, Avigail Dabush, Bobbi Aubrey, Harshvardhan Gazula, Amir Feder, Werner K Doyle, Sasha Devore, Patricia Dugan, Daniel Friedman, Roi Reichart, Michael Brenner, Avinatan Hassidim, Orrin Devinsky, Adeen Flinker, Omer Levy, Uri Hasson
深度语言模型 DLM 为理解人脑自然语言处理机制提供了一种新颖的计算范式。与传统的心理语言学模型不同，DLM 使用连续数值向量的分层序列来表示单词和上下文，从而允许大量新兴应用，例如类人文本生成。在本文中，我们通过证明 DLM 层深度与各层最能预测人脑的时间之间的强相关性，证明 DLM 的分层结构可用于对大脑中语言理解的时间动态进行建模。我们暂时解析各个层的能力得益于我们使用皮层电图 ECoG 数据，该数据的时间分辨率比 fMRI 等非侵入性方法高得多。使用 ECoG，我们记录参与者聆听 30 分钟叙述的神经活动，同时还将相同的叙述输入高性能 DLM GPT2 XL。然后，我们从 DLM 的不同层中提取上下文嵌入，并使用线性编码模型来预测神经活动。我们首先关注额下回 IFG 或布罗卡区，然后扩展我们的模型以跟踪沿着从听觉到句法和语义区域的语言处理层次结构增加的时间接受窗口。

Sparse Universal Transformer
Authors Shawn Tan, Yikang Shen, Zhenfang Chen, Aaron Courville, Chuang Gan
Universal Transformer UT 是 Transformer 的一个变体，它在各层之间共享参数。经验证据表明，在正式语言任务中，UT 比 Vanilla Transformers VT 具有更好的组合泛化能力。参数共享还使其比 VT 具有更好的参数效率。尽管有许多优点，但缩放 UT 参数比缩放 VT 需要更多的计算和内存密集度。本文提出了稀疏通用变换器 SUT，它利用稀疏专家混合 SMoE 和一种新的基于断棍的动态停止机制来降低 UT 的计算复杂度，同时保留其参数效率和泛化能力。实验表明，SUT 在 WMT 14 上仅使用一半的计算和参数，并且在形式语言任务逻辑推理和 CFQ 上获得了强泛化结果，从而实现了与强基线模型相同的性能。

Argumentative Stance Prediction: An Exploratory Study on Multimodality and Few-Shot Learning
Authors Arushi Sharma, Abhibha Gupta, Maneesh Bilalpur
为了将争论立场预测推进为多模态问题，多模态争论挖掘中的第一个共享任务在枪支管制和堕胎等关键社会主题中进行了立场预测。我们的探索性研究试图评估图像在推文中进行立场预测的必要性，并将开箱即用的基于文本的大语言模型 LLM 在少数镜头设置中与微调的单模态和多模态模型进行比较。我们的工作表明，基于微调文本的语言模型的集合（0.817 F1 分数）优于多模态 0.677 F1 分数和使用最新技术的 LLM 0.550 F1 分数的基于文本的少量镜头预测。

Jaeger: A Concatenation-Based Multi-Transformer VQA Model
Authors Jieting Long, Zewei Shi, Penghao Jiang, Yidong Gan
基于文档的视觉问答在语言意义消歧和细粒度多模态检索之间提出了一项具有挑战性的任务。尽管由于使用大语言和开放世界先验模型（引用 1），基于文档的问答取得了令人鼓舞的进展，但仍然存在一些挑战，包括响应时间延长、推理持续时间延长以及匹配不精确。为了克服这些挑战，我们提出了 Jaegar，一种基于串联的多变压器 VQA 模型。为了导出问题特征，我们利用 RoBERTa large cite 2 和 GPT2 xl cite 3 的卓越功能作为特征提取器。随后，我们将两个模型的输出进行串联过程。此操作允许模型同时考虑来自不同来源的信息，从而增强其表示能力。通过利用预先训练的模型进行特征提取，我们的方法有可能通过串联来增强这些模型的性能。连接后，我们对输出特征进行降维，降低模型的计算效率和推理时间。实证结果表明，我们提出的模型在 PDF VQA 数据集的任务 C 上实现了具有竞争力的性能。

Diversity of Thought Improves Reasoning Abilities of Large Language Models
Authors Ranjita Naik, Varun Chandrasekaran, Mert Yuksekgonul, Hamid Palangi, Besmira Nushi
据记录，大型语言模型法学硕士在需要复杂推理的环境中陷入困境。尽管如此，指示模型将问题分解为更小的推理步骤 Wei et al., 2022，或者通过修改解码步骤来集成各个代（Wang et al., 2023）可以提高性能。当前的方法假设输入提示是固定的，并期望解码策略引入集成所需的多样性。在这项工作中，我们放宽了这一假设，并讨论了如何创建和利用输入提示的变化作为思想多样性的一种手段来提高模型性能。我们提出了一种方法，通过征求法学硕士的反馈来构思适合问题的方法，从而自动提高即时多样性。然后，我们将不同的提示集成到我们的方法 DIV SE DIVerse 推理路径 Self Ensemble 中，跨多个推理调用。我们还提出了一种具有成本效益的替代方案，其中在单个推理调用中使用不同的提示，我们称之为 IDIV SE In call DIVerse 推理路径 Self Ensemble 。在固定的生成预算下，DIV SE 和 IDIV SE 在多个推理基准上优于之前讨论的使用 GPT 3.5 和 GPT 4 的基线，而无需修改解码过程。此外，DIV SE 在最近的规划基准 Valmeekam 等人（2023）上取得了最先进的性能，在最具挑战性的 4 5 Blocksworld 任务中比之前报告的最高准确度至少高出了 29.6 个百分点。

Crossing the Threshold: Idiomatic Machine Translation through Retrieval Augmentation and Loss Weighting
Authors Emmy Liu, Aditi Chaudhary, Graham Neubig
习语在日常语言中很常见，但常常给译者带来挑战，因为它们的含义并不来自其各个部分的含义。尽管取得了重大进展，机器翻译系统仍然难以翻译惯用语。我们对惯用翻译和相关问题进行了简单的描述。这使我们能够进行综合实验，揭示基于变压器的机器翻译模型正确默认为惯用翻译的临界点。为了扩展多语言资源，我们编译了包含法语、芬兰语和日语惯用表达的 4k 自然句子的数据集。为了改进自然习语的翻译，我们引入了两种简单而有效的技术：策略性地增加潜在惯用句子的训练损失的权重，以及使用检索增强模型。

DKEC: Domain Knowledge Enhanced Multi-Label Classification for Electronic Health Records
Authors Xueren Ge, Ronald Dean Williams, John A. Stankovic, Homa Alemzadeh
医学领域的多标签文本分类 MLTC 任务通常面临长尾标签分布，其中稀有类的训练样本少于频繁类。尽管以前的工作已经探索了不同的模型架构和分层标签结构来寻找重要特征，但大多数都忽略了纳入医学指南中的领域知识。在本文中，我们提出了 DKEC，用于医学诊断预测的领域知识增强分类器，具有两项创新：1 一种标签明智的关注机制，它结合了异构图和领域本体来捕获医疗实体之间的语义关系；2 一种简单而有效的分组明智训练基于标签相似性的方法来增加稀有类别的样本。我们在两个真实世界的医疗数据集（RAA 数据集）、来自紧急医疗服务 EMS 事件的 4,417 份患者护理报告的集合以及来自 MIMIC III 数据集的 53,898 份报告的子集上评估 DKEC。实验结果表明，我们的方法优于现有技术，特别是对于少数镜头尾类。

NEWTON: Are Large Language Models Capable of Physical Reasoning?
Authors Yi Ru Wang, Jiafei Duan, Dieter Fox, Siddhartha Srinivasa
大型语言模型法学硕士通过其情境化表示，已被经验证明可以封装句法、语义、词义和常识知识。然而，对他们的物理推理能力的探索有限，特别是在理解日常物体的关键属性方面。为了解决这一差距，我们引入了 NEWTON，这是一个用于评估法学硕士物理推理技能的存储库和基准。此外，为了实现该基准的特定领域适应，我们提供了一个管道，使研究人员能够生成该基准的变体，该变体已根据与其应用程序相关的对象和属性进行了定制。 NEWTON 存储库包含 2800 个对象属性对的集合，为生成无限规模评估模板提供了基础。 NEWTON 基准测试由 16 万个 QA 问题组成，这些问题使用 NEWTON 存储库来调查跨基础、显式和隐式推理任务的几种主流语言模型的物理推理能力。通过广泛的实证分析，我们的结果突出了法学硕士的物理推理能力。我们发现像 GPT 4 这样的 LLM 在基于场景的任务中表现出强大的推理能力，但与人类相比，在对象属性推理方面表现出较低的一致性 50 vs. 84 。此外，NEWTON 平台展示了其评估和增强语言模型的潜力，为将其集成到物理基础设置（例如机器人操作）中铺平了道路。

Answer Candidate Type Selection: Text-to-Text Language Model for Closed Book Question Answering Meets Knowledge Graphs
Authors Mikhail Salnikov, Maria Lysyuk, Pavel Braslavski, Anton Razzhigaev, Valentin Malykh, Alexander Panchenko
预先训练的文本到文本语言模型 LM（例如 T5 或 BART）在知识图问答 KGQA 任务中产生了有希望的结果。然而，模型的容量有限，并且对于不太受欢迎的实体的问题质量会下降。在本文中，我们提出了一种在预先训练的文本到文本 QA 系统之上工作的新颖方法来解决这个问题。

Catastrophic Jailbreak of Open-source LLMs via Exploiting Generation
Authors Yangsibo Huang, Samyak Gupta, Mengzhou Xia, Kai Li, Danqi Chen
开源大型语言模型法学硕士的快速进步正在显着推动人工智能的发展。在模型发布之前，我们已经做出了广泛的努力，使它们的行为符合人类价值观，主要目标是确保它们的有益性和无害性。然而，即使是精心调整的模型也可能被恶意操纵，导致意外行为，即所谓的越狱。这些越狱通常由特定的文本输入触发，通常称为对抗性提示。在这项工作中，我们提出了生成利用攻击，这是一种极其简单的方法，仅通过操纵解码方法的变化来破坏模型对齐。通过利用不同的生成策略，包括不同的解码超参数和采样方法，我们将包括 LLaMA2、Vicuna、Falcon 和 MPT 系列在内的 11 种语言模型的错位率从 0 提高到 95 以上，性能比最先进的攻击高出 30 倍较低的计算成本。最后，我们提出了一种有效的对齐方法，探索不同的生成策略，可以合理地降低我们攻击下的错位率。总而言之，我们的研究强调了开源法学硕士当前安全评估和调整程序的重大失败，强烈主张在发布此类模型之前进行更全面的红队合作和更好的调整。

Violation of Expectation via Metacognitive Prompting Reduces Theory of Mind Prediction Error in Large Language Models
Authors Courtland Leer, Vincent Trost, Vineeth Voruganti
最近的研究表明，大型语言模型法学硕士在心智理论 ToM 任务方面表现出令人信服的熟练程度。这种将不可观察的心理状态归因于他人的能力对于人类社会认知至关重要，并且在人类个体和人工智能之间的委托代理关系中可能同样重要。在本文中，我们探讨了如何实现发展心理学中研究的一种称为“违反预期 VoE”的机制，以通过利用新兴的 ToM 可供性来减少 LLM 对用户的预测错误。我们引入了一个 textit 元认知提示框架，以在人工智能导师的背景下应用 VoE。通过存储和检索在违反 LLM 对用户的期望的情况下得出的事实，我们发现 LLM 能够以与人类学习理论相呼应的方式了解用户。

Why bother with geometry? On the relevance of linear decompositions of Transformer embeddings
Authors Timothee Mickus, Ra l V zquez
最近的一项工作表明，Transformer 嵌入可以线性分解为明确定义的因子总和，而这些因子总和又可以与特定的网络输入或组件相关。然而，仍然缺乏研究这些数学重新表述是否具有经验意义的工作。在目前的工作中，我们使用两种这样的嵌入分解方法来研究机器翻译解码器的表示。我们的结果表明，虽然分解得出的指标与模型性能有效相关，但不同运行之间的变化表明对这个问题有更细致的看法。

Document-Level Supervision for Multi-Aspect Sentiment Analysis Without Fine-grained Labels
Authors Kasturi Bhattacharjee, Rashmi Gangadharaiah
基于方面的情感分析 ABSA 是一个广泛研究的主题，最常通过对有观点的文本的人工注释的监督进行训练。这些细粒度注释包括识别用户表达其情感的方面，以及基于其关联的极性方面的情感。这种细粒度的注释可能很昂贵，并且在现实世界中通常不可行。然而，在很多情况下，用户生成的文本包含总体情绪，例如用户评论中的 1 5 分或用户生成的反馈，这些都可以用于此任务。在本文中，我们提出了一种基于 VAE 的主题建模方法，该方法使用文档级监督执行 ABSA，并且不需要方面或情感的细粒度标签。我们的方法允许检测文档中的多个方面，从而可以推理通过多个方面表达的情感如何组合在一起形成可观察的整体文档级情感。

Sparse Finetuning for Inference Acceleration of Large Language Models
Authors Eldar Kurtic, Denis Kuznedelev, Elias Frantar, Michael Goin, Dan Alistarh
我们考虑大型语言模型 LLM 的精确稀疏微调问题，即在专门任务上微调预训练的 LLM，同时引入其权重的稀疏性。在准确性方面，我们观察到基于标准损失的微调可能无法恢复准确性，尤其是在高稀疏性的情况下。为了解决这个问题，我们对蒸馏类型损失进行了详细研究，确定了一种基于 L2 的蒸馏方法，我们称之为 SquareHead，即使在更高的稀疏度下，也能在所有模型类型中实现准确的恢复。在实际效率方面，我们表明，对于 CPU 和 GPU 运行时，稀疏 LLM 可以通过利用稀疏性来加速执行。虽然标准方法是利用稀疏性来减少计算量，但我们观察到，在内存受限的 LLM 的情况下，也可以利用稀疏性来减少内存带宽。我们展示了端到端结果，显示 T5 语言翻译、Whisper 语音翻译和用于文本生成的开放 GPT 类型 MPT 因稀疏性而加速，同时恢复准确性。对于 MPT 文本生成，我们首次证明稀疏微调可以达到 75 稀疏度而不会降低精度，为 CPU 和 GPU 推理提供显着的端到端加速，并强调稀疏度也与量化方法兼容。

Improving Contrastive Learning of Sentence Embeddings with Focal-InfoNCE
Authors Pengyue Hou, Xingyu Li
SimCSE 最近的成功极大地推进了最先进的句子表示。然而，SimCSE 的原始公式并没有充分发挥硬负样本在对比学习中的潜力。本研究引入了一种无监督对比学习框架，将 SimCSE 与硬负挖掘相结合，旨在提高句子嵌入的质量。所提出的焦点 InfoNCE 函数在对比目标中引入了自定步调调制项，减轻了与简单负片相关的损失，并鼓励模型专注于硬负片。

DiPmark: A Stealthy, Efficient and Resilient Watermark for Large Language Models
Authors Yihan Wu, Zhengmian Hu, Hongyang Zhang, Heng Huang
水印技术提供了一种通过将隐蔽信息嵌入到数据中来保护数据的有前途的方法。该领域的一个重要挑战在于在水印过程中保留原始数据的分布。我们的研究扩展并完善了现有的水印框架，强调了保存 DiP 水印的分发的重要性。与当前策略相反，我们提出的 DiPmark 在水印隐形期间保留了原始令牌分布，无需访问语言模型 API 或权重即可检测到，并且对令牌的适度变化具有鲁棒性。这是通过结合新颖的重新加权策略以及分配唯一 textit i.i.d 的哈希函数来实现的。基于上下文的密码。

MatFormer: Nested Transformer for Elastic Inference
Authors Devvrit, Sneha Kudugunta, Aditya Kusupati, Tim Dettmers, Kaifeng Chen, Inderjit Dhillon, Yulia Tsvetkov, Hannaneh Hajishirzi, Sham Kakade, Ali Farhadi, Prateek Jain
Transformer 模型部署在各种环境中，从多加速器集群到独立移动电话。这些场景中不同的推理约束要求从业者将 PaLM 2、Llama、ViTs 等基础模型训练为一系列不同规模的模型。由于训练成本高昂，只有少数几个模型大小得到训练和支持，限制了对相关权衡的更细粒度的控制，包括延迟、成本和准确性。这项工作引入了 MatFormer，这是一种嵌套 Transformer 架构，旨在在各种部署约束中提供弹性。 MatFormer 模型的每个前馈网络 FFN 块都与一些嵌套的较小 FFN 块联合优化。该训练过程允许跨层混合匹配模型粒度，即经过训练的通用 MatFormer 模型可以提取数百个精确的较小模型，而这些模型从未明确优化过。我们凭经验证明了 MatFormer 在不同模型类、解码器、编码器、模态语言视觉以及扩展到 2.6B 参数方面的有效性。我们发现仅 2.6B 解码器 MatFormer 语言模型 MatLM 允许我们提取跨度从 1.5B 到 2.6B 的较小模型，每个模型都表现出与独立训练的对应模型相当的验证损失和一次性下游评估。此外，我们观察到从基于 ViT MatViT 编码器的通用 MatFormer 中提取的较小编码器保留了自适应大规模检索的度量空间结构。

Ferret: Refer and Ground Anything Anywhere at Any Granularity
Authors Haoxuan You, Haotian Zhang, Zhe Gan, Xianzhi Du, Bowen Zhang, Zirui Wang, Liangliang Cao, Shih Fu Chang, Yinfei Yang
我们引入了 Ferret，一种新的多模态大语言模型 MLLM，能够理解图像中任何形状或粒度的空间指代，并准确地建立开放词汇描述。为了统一 LLM 范式中的引用和基础，Ferret 采用了一种新颖且强大的混合区域表示，将离散坐标和连续特征联合集成来表示图像中的区域。为了提取多功能区域的连续特征，我们提出了一种空间感知视觉采样器，擅长处理不同形状的不同稀疏性。因此，Ferret 可以接受不同的区域输入，例如点、边界框和自由形状。为了增强 Ferret 的所需功能，我们策划了 GRIT，这是一个全面的参考和地面指令调整数据集，其中包括 110 万个样本，其中包含丰富的分层空间知识，并具有 95K 硬负数据以提高模型的鲁棒性。由此产生的模型不仅在经典的参考和基础任务中实现了卓越的性能，而且在基于区域和本地化要求的多模态聊天中大大优于现有的 MLLM。我们的评估还表明，描述图像细节的能力显着提高，物体幻觉也显着减轻。

LLM4Vis: Explainable Visualization Recommendation using ChatGPT
Authors Lei Wang, Songheng Zhang, Yun Wang, Ee Peng Lim, Yong Wang
数据可视化是探索和交流各个领域见解的强大工具。为了自动化数据集的可视化选择，提出了一项称为可视化推荐的任务。为此目的，开发了各种基于机器学习的方法，但它们通常需要大量数据集可视化对的语料库进行训练，并且缺乏对其结果的自然解释。为了解决这一研究空白，我们提出了 LLM4Vis，这是一种基于 ChatGPT 的新型提示方法，可以使用很少的演示示例来执行可视化推荐并返回类似人类的解释。我们的方法涉及特征描述、演示示例选择、解释生成、演示示例构建和推理步骤。为了获得具有高质量解释的演示示例，我们提出了一种新的解释生成引导，通过考虑上一代和基于模板的提示来迭代地细化生成的解释。对 VizML 数据集的评估表明，LLM4Vis 在少量样本和零样本设置中均优于或类似于随机森林、决策树和 MLP 等监督学习模型。定性评估还显示了 LLM4Vis 生成的解释的有效性。

Rethinking the BERT-like Pretraining for DNA Sequences
Authors Chaoqi Liang, Weiqiang Bai, Lifeng Qiao, Yuchen Ren, Jianle Sun, Peng Ye, Hongliang Yan, Xinzhu Ma, Wangmeng Zuo, Wanli Ouyang
随着自然语言处理大规模预训练的成功，将其应用于生命科学领域的趋势日益明显。特别是，基于 DNA 序列的预训练方法因其捕获基因通用信息的潜力而受到越来越多的关注。然而，现有的DNA序列预训练方法很大程度上依赖于直接采用NLP的BERT预训练，缺乏全面的理解和专门定制的方法。为了解决这一研究空白，我们首先进行了一系列探索性实验，并获得了一些富有洞察力的观察结果1在下游任务的微调阶段，当使用K mer重叠标记化而不是K mer非重叠标记化时，重叠和非重叠预训练权重2 在预训练过程中，使用 K mer 重叠标记化可以快速产生清晰的 K mer 嵌入并将损失降低到非常低的水平，而使用 K mer 非重叠标记化会导致不太明显的嵌入并持续降低损失。 3 使用重叠标记化会导致预训练模型中间层的自注意力倾向于过度关注某些标记，反映出这些层没有得到充分优化。总之，重叠标记化可以有利于下游任务的微调，但会导致快速收敛的预训练不足。为了释放预训练的潜力，我们引入了一种称为 RandomMask 的新方法，它通过不断扩展其掩码边界来逐渐增加 BERT 类似预训练的任务难度，迫使模型学习更多知识。

SNOiC: Soft Labeling and Noisy Mixup based Open Intent Classification Model
Authors Aditi Kanwar 1 , Aditi Seetha 1 , Satyendra Singh Chouhan 1 , Rajdeep Niyogi 2 1 MNIT Jaipur, 302017, INDIA, 2 IIT Roorkee, 247667, INDIA
本文提出了一种基于软标签和噪声混合的开放意图分类模型 SNOiC。之前的大多数工作都使用基于阈值的方法来识别开放意图，这很容易过度拟合并可能产生有偏差的预测。此外，开放意图类需要更多可用数据，这给这些现有模型带来了另一个限制。 SNOiC 结合了软标签和噪声混合策略来减少偏差并为开放意图类生成伪数据。在四个基准数据集上的实验结果表明，SNOiC 模型在识别开放意图方面的最低和最高性能分别为 68.72 和 94.71。此外，与最先进的模型相比，SNOiC 模型将识别开放意图的性能提高了 0.93（最小值）和 12.76（最大值）。通过分析所提出模型中使用的各种参数，进一步确定了模型的有效性。

Typing to Listen at the Cocktail Party: Text-Guided Target Speaker Extraction
Authors Xiang Hao, Jibin Wu, Jianwei Yu, Chenglin Xu, Kay Chen Tan
人类拥有一种非凡的能力，可以在复杂的声学环境（通常称为鸡尾酒会场景）中选择性地关注感兴趣的声源。为了在机器中复制这种非凡的听觉注意能力，目标说话人提取 TSE 模型被开发出来。这些模型利用目标说话者预先注册的线索来提取感兴趣的声源。然而，由于潜在的变化甚至缺乏预先注册的线索，这些模型的有效性在现实场景中受到阻碍。为了解决这一局限性，本研究研究了自然语言的集成，以增强现有 TSE 模型的灵活性和可控性。具体来说，我们提出了一种名为LLM TSE的模型，其中大型语言模型LLM从用户键入的文本输入中提取有用的语义线索，它可以补充预先注册的线索或独立工作以控制TSE过程。我们的实验结果表明，当仅呈现基于文本的提示时，并且与预先注册的声音提示相结合时，会设置新的技术水平。

An Analysis on Large Language Models in Healthcare: A Case Study of BioBERT
Authors Shyni Sharaf, V. S. Anoop
本文对大型语言模型（尤其是 BioBERT）在医疗保健领域的应用进行了全面的调查。它首先彻底检查了医疗保健领域之前的自然语言处理 NLP 方法，揭示了这些方法面临的局限性和挑战。接下来，本研究探索了将 BioBERT 纳入医疗保健应用的路径，强调其适合解决与生物医学文本挖掘相关的任务的特定要求。该分析概述了微调 BioBERT 以满足医疗保健领域独特需求的系统方法。这种方法包括各种组件，包括从广泛的医疗保健来源收集数据、识别医疗实体和对其进行分类等任务的数据注释，以及应用专门的预处理技术来处理生物医学文本中发现的复杂性。此外，本文还涵盖了与模型评估相关的方面，重点关注医疗保健基准和功能，例如生物医学中的自然语言处理、问答、临床文档分类和医疗实体识别。它探索了提高模型可解释性的技术，并验证了其与现有的以医疗保健为重点的语言模型相比的性能。该论文彻底审查了伦理考虑，特别是患者隐私和数据安全。它强调了将 BioBERT 纳入医疗保健环境的好处，包括增强的临床决策支持和更高效的信息检索。

Online Speculative Decoding
Authors Xiaoxuan Liu, Lanxiang Hu, Peter Bailis, Ion Stoica, Zhijie Deng, Alvin Cheung, Hao Zhang
推测性解码是一种关键技术，通过使用较小的草稿模型来预测目标模型的输出，从而加速大型语言模型 LLM 的推理。然而，由于草稿模型的预测准确性较低，尤其是在面对不同的文本输入以及草稿模型和目标模型之间存在显着的能力差距时，其功效可能会受到限制。我们引入在线推测解码 OSD 来应对这一挑战。主要思想是利用 LLM 服务集群中丰富的超额计算能力，根据观察到的用户查询数据不断更新多个草稿模型。鉴于 LLM 推理受内存限制，典型的 LLM 服务集群中的剩余计算能力可以重新用于草案模型的在线再训练，从而使训练成本保持中性。由于 LLM 服务的查询分布相对简单，因此对查询分布的再训练使草稿模型能够更准确地预测目标模型的输出，特别是来自查询分布的数据。随着草稿模型在线发展，它会实时与查询分布保持一致，从而减轻分布变化。我们开发了一个基于在线知识蒸馏的在线推测解码原型，并使用几个流行的法学硕士的合成和真实查询数据对其进行评估。

Psychoacoustic Challenges Of Speech Enhancement On VoIP Platforms
Authors Joseph Konan, Ojas Bhargave, Shikhar Agnihotri, Shuo Han, Yunyang Zeng, Ankit Shah, Bhiksha Raj
在 VoIP 互联网协议语音电信领域内，声学变换带来的复杂性值得严格分析。这项研究植根于对专有的发送方降噪效果的探索，仔细评估了 Google Meets 和 Zoom 等平台。该研究利用了 Deep Noise Suppression DNS 2020 数据集，确保针对各种去噪设置和接收器接口进行结构化检查。通过瓦哈卡分解引入了一种方法论上的新颖性，瓦哈卡分解传统上是一种计量经济学工具，在本文中被重新用于分析 VoIP 系统内的声学语音扰动。为了进一步确定这些转变的影响，利用心理声学指标，特别是 PESQ 和 STOI，来提供对言语改变的全面理解。总的来说，获得的见解强调了 VoIP 对声学动态影响的复杂情况。除了主要发现之外，还报告了多种指标，扩大了研究范围。

AE-smnsMLC: Multi-Label Classification with Semantic Matching and Negative Label Sampling for Product Attribute Value Extraction
Authors Zhongfen Deng, Wei Te Chen, Lei Chen, Philip S. Yu
产品属性值提取对于电子商务中的许多现实应用（例如产品搜索和推荐）起着重要作用。以前的方法将其视为序列标记任务，需要对产品文本中值的位置进行更多注释。这限制了它们在现实世界场景中的应用，在现实场景中，每个产品仅对属性值进行弱注释，而没有其位置。此外，这些方法仅使用产品文本，即产品标题和描述，没有考虑给定产品的多个属性值与其文本之间的语义联系，这有助于属性值提取。在本文中，我们将该任务重新表述为多标签分类任务，可应用于现实场景，其中仅属性值的注释可用于训练模型，即属性值的位置信息的注释不可用。我们提出了一种具有语义匹配和负标签采样的分类模型，用于属性值提取。语义匹配旨在捕获给定产品的属性值与其文本之间的语义交互。负标签采样旨在增强模型区分属于同一属性的相似值的能力。

Auditing and Robustifying COVID-19 Misinformation Datasets via Anticontent Sampling
Authors Clay H. Yoo, Ashiqur R. KhudaBukhsh
本文做出了两个关键贡献。首先，它认为，在小数据上训练的高度专业化的稀有内容分类器通常对在野外观察到的被称为反内容的负面类别的丰富性和主题多样性的暴露有限。因此，在测试集上观察到的这些分类器的强大性能可能无法转化为现实世界的设置。在 COVID 19 错误信息检测的背景下，我们对多个数据集进行了野外审计，并证明使用多个最近引用的数据集训练的模型在野外评估时很容易受到反内容的影响。

Large Language Models can Learn Rules
Authors Zhaocheng Zhu, Yuan Xue, Xinyun Chen, Denny Zhou, Jian Tang, Dale Schuurmans, Hanjun Dai
当提示一些示例和中间步骤时，大型语言模型法学硕士在各种推理任务中表现出了令人印象深刻的性能。然而，当隐性知识错误或与任务不一致时，法学硕士中依赖隐性知识的提示方法常常会产生错误的答案。为了解决这个问题，我们提出了 Hypotheses to Theories HtT，这是一个学习 LLM 推理规则库的框架。 HtT 包含两个阶段，归纳阶段和演绎阶段。在入门阶段，法学硕士首先被要求生成并验证一组训练示例的规则。收集经常出现并导致正确答案的规则以形成规则库。在推导阶段，LLM会被提示利用学到的规则库进行推理来回答试题。对数值推理和关系推理问题的实验表明，HtT 改进了现有的提示方法，准确率绝对增益为 11 27。

Automatic Macro Mining from Interaction Traces at Scale
Authors Forrest Huang, Gang Li, Tao Li, Yang Li
宏是我们日常智能手机活动的构建块任务，例如登录或预订航班。有效提取宏对于理解移动交互和实现任务自动化非常重要。然而，这些宏很难大规模提取，因为它们可能由多个步骤组成，但隐藏在应用程序的编程组件中。在本文中，我们介绍了一种基于大型语言模型法学硕士的新颖方法，可以从随机和用户策划的移动交互跟踪中自动提取语义上有意义的宏。我们的方法生成的宏会自动用自然语言描述标记，并且是完全可执行的。为了检查提取的质量，我们进行了多项研究，包括用户评估、与人工策划任务的比较分析以及这些宏的自动执行。

A Comparative Study of Transformer-based Neural Text Representation Techniques on Bug Triaging
Authors Atish Kumar Dipongkor, Kevin Moran
通常，管理错误报告的第一步是将错误分类给最适合理解、本地化和修复目标错误的适当开发人员。此外，将给定的错误分配给软件项目的特定部分可以帮助加快修复过程。然而，尽管这些活动很重要，但它们却相当具有挑战性，手动分类过程可能需要花费数天时间。过去的研究尝试利用错误报告的有限文本数据来训练文本分类模型，使该过程自动化并取得不同程度的成功。然而，先前工作中使用的文本表示和机器学习模型受到其表达能力的限制，通常无法捕获可能有助于分类过程的微妙文本模式。最近，基于 Transformer 的大型预训练神经文本表示技术（例如 BERT）在一些自然语言处理任务中取得了更好的性能。

Chinese Abs From Machine Translation

Papers from arxiv.org

更多精彩请移步主页

pic from pexels.com