【文档智能 LLM】LayoutLLM:一种多模态文档布局模型和大模型结合的框架

news/2024/7/20 19:02:19 标签: 大模型, 多模态, 大语言模型, 文档智能

前言

传统的文档理解任务,通常的做法是先经过预训练,然后微调相应的下游任务及数据集,如文档图像分类和信息提取等,通过结合图像、文本和布局结构的预训练知识来增强文档理解。LayoutLLM是一种结合了大模型和视觉文档理解技术的单模型方法,通过多模态指令数据集的微调来提高对图像文档的理解和分析能力。

LayoutLMv3

在此之前,先简单介绍下LayoutLLM的编码器LayoutLMv3。

概述:文本的布局信息使用了片段级别,一段文本共用一组坐标。视觉借鉴了ViT的方法替换CNN,减少了参数以及省去了很多的预处理步骤。使用了两种新的损失MIM和WPA进行预训练。

paper:LayoutLMv3: Pre-training for Document AI with Unified Text and Image Masking

link:https://arxiv.org/abs/2204.08387

code:https://github.com/microsoft/unilm/tree/master/layoutlmv3

模型结构

  • 文本嵌入:RoBerta backbone
  • 视觉嵌入:与layoutLMv2相同,与之前的单词级别的边界框不同,此处使用了片段级别的嵌入,即:块边界框。
  • 布局嵌入:不再使用CNN网络,采用类似ViT思想的backbone,将图片切分成一个个的patches。

预训练任务

  • Masked Language Modeling (MLM):使用span掩码策略,mask掉30%的文本token,maks的span长度服从泊松分布(λ=3)
  • Masked Image Modeling (MIM):
    • 用分块掩码策略随机掩盖掉40%的图像token,用交叉熵损失驱动其重建被掩盖的图像区域;
    • 图像token的标签来自一个图像tokenizer,通过图像vocab将密集图像的像素转化成离散token,相比于低级高噪声的细节部分,更促进学习高级特征;
  • Word-Patch Alignment (WPA):学习文本单词和图像patches之间的细粒度对齐。WPA的目的是预测文本单词的相应图像补丁是否被屏蔽。具体地说,当对应的图像标记也被取消屏蔽时,为未屏蔽的文本标记分配一个对齐的标签[aligned]。否则,将指定一个未对齐的标签[unaligned]。

LayoutLLM

模型架构

LayoutLLM主要由两部分组成:编码器(Encoder)和解码器(Decoder)。

  1. 编码器:负责对文档图像进行编码,处理视觉和布局信息。这里使用的是预训练的VrDU模型,特别是LayoutLMv3,它能够捕捉文档的布局结构和文本信息,并生成相应的特征。简单来说就是将OCR文本和视觉信息从文档图像中编码,生成一个最大序列长度为512的一维序列,以便输入到Llama模型中。
  2. 解码器:基于大型语言模型(LLMs),如Llama,它负责解释任务指令,并使用其语言理解能力来分析文档的文本内容,最终输出结果。

VrDU Prompts

结合大模型,通过对不同的下游任务设定提示词。LayoutLLM能够理解不同类型的VrDU任务,并结合文档的特征来生成适当的响应。这种方法使得单一模型能够灵活地处理多种任务,而不需要为每个任务单独训练模型。

prompt格式

prompt格式和Alpaca模型的格式保持一致:

The previous information is about document images.
Below is an instruction that describes a task. Write a
response that appropriately completes the request.
### Instruction: {instruction}
### Response
不同下游任务的prompt示例
  • 文档分类

    “执行文档分类。分类标签是...”。
    
  • 文档信息提取

    “执行文档信息提取。分类标签是... 输出格式是一组提取词及其标签,用逗号分隔。如果存在多个提取目标,使用\n作为分隔符并分割输出。”。
    

    这个提示指导模型识别文档中的语义实体,并按照指定的格式输出提取的信息和标签。

  • 文档问答

    “执行文档问答。问题是...”。
    

评价

总结

本文介绍了一种传统布局模型结合大模型做文档理解的方法:LayoutLLM。这个框架通过结合VrDU编码器来捕捉文档图像的特征,以及使用LLM作为解码器来处理任务指令,有效地提高了对文档图像的理解和分析能力。

参考文献

【1】LayoutLMv3: Pre-training for Document AI with Unified Text and Image Masking,https://arxiv.org/abs/2204.08387

【2】LayoutLLM: Large Language Model Instruction Tuning for Visually Rich Document Understanding,https://arxiv.org/abs/2403.14252


http://www.niftyadmin.cn/n/5447874.html

相关文章

Nginx常见面试题以及答案

一、场景问题 Nginx 是一款高性能的 HTTP 和反向代理服务器,也经常用于负载均衡。以下是一些常见的 Nginx 面试题和答案: 1、什么是 Nginx?它的主要优势是什么? 答: Nginx 是一个开源的高性能 HTTP 服务器和反向代理服务器。它…

十分钟掌握redis精髓指令

编译安装 git clone https://gitee.com/mirrors/redis.git cd redis make make test make install # 默认安装在 /usr/local/bin # redis-server 是服务端程序 # redis-cli 是客户端程序启动 mkdir redis-data # 把redis文件夹下 redis.conf 拷贝到 redis-data # 修改 redis.…

【Qt】使用Qt实现Web服务器(七):动态模板引擎

1、示例 2、源码 2.1 模板配置参数 配置文件中关于模板配置参数如下 path为存放模板的目录suffix为模板文件后缀[templates] path=templates suffix=.tpl encoding=UTF-8 cacheSize=1000000

【CSS】实现文字描边

通过 -webkit-text-stroke 即可实现文字描边&#xff0c;这个复合属性接收两个参数&#xff0c;分别为描边宽度&#xff0c;以及描边颜色。 需要注意的是&#xff0c;-webkit-text-stroke是一个非标准属性&#xff0c;兼容性会出现问题。 <!DOCTYPE html> <html lang…

轻松引流几百精准粉丝,抖音自动爆粉秘籍揭秘

对于做互联网的朋友们来说&#xff0c;引流是一个必不可少的环节。 掌握一种优秀的引流方法至关重要&#xff0c;这也可以视为我们的生计之源。 今天&#xff0c;我将向大家介绍一款全自动的引流工具——抖音全自动引流脚本软件。 这款软件的效果非常显著&#xff0c;它可以替…

web学习笔记(三十六)

目录 1.解构 1.1对象解构 1.2字符串解构 1.3函数解构 1.4总结 2.模板字符串 3.实例方法&#xff1a;startsWith() 和 endsWith() 4.箭头函数 4.1箭头函数的格式 4.2箭头函数可以省略的部分 4.3箭头函数总结 5. 剩余参数rest参数 1.解构 1.1对象解构 在解构对象…

Reactor 模式全解:实现非阻塞 I/O 多路复用

Reactor网络模式是什么&#xff1f; Reactor网络模式时目前网络最常用的网络模式。如果你使用Netty&#xff0c;那么你在使用Reactor;如果你使用Twisted,那么你子啊使用Reactor;如果你使用netpoll&#xff0c;那么你在使用Reactor。 这里先给出答案&#xff1a;Reactor I/O多…

长链接与短链接的理解

HTTP的长连接与短连接的区别 HTTP协议的长连接和短连接&#xff0c;实质上是TCP协议的长连接和短连接。 短连接 在HTTP/1.0中默认使用短链接,也就是说&#xff0c;浏览器和服务器每进行一次HTTP操作&#xff0c;就建立一次连接&#xff0c;但任务结束就中断连接。如果客户端访…