标题:LayoutLMv2: Multi-modal Pre-training for Visually-rich Document Understanding
链接:
论文概要:相比于v1更好的融入了视觉信息,以及视觉、文档和布局信息的对齐,引入空间自注意力编码,提出两种新的损失TIA和TIM,在下游任务取得新的SOTA结果。
预训练数据集:IIT-CDIP,同v1
评估数据集:FUNSD、CORD 、SROIE、Kleister-NDA 、RVL-CDIP、DocVQA
模型规模:base版本(200M)和large版本(426M)
模型架构
除左上角和右下角的(x,y)坐标外,额外增加宽w和高h嵌入;
布局嵌入与v1中四个坐标相加不同,这里拼接六个位置嵌入为一个输入,每个位置嵌入维度为隐层维度/6;
图像经backbone得到长度为49的序列,将其视为把原图切分成49个块,视觉部分的布局嵌入使用每个块的布局信息;
对于[CLS], [SEP]和[PAD],布局信息使用(0,0,0,0,0,0)表示;
正常的自注意力将输入视为q、k、v,q和k点积后得到每个v的权重;
本文为了将显式的引入一维和二维的相对位置信息,在q和k点积计算完权重后,将位置信息作为偏差项加上,即
这些偏差项不同的注意力头之间是不同的,但在所有的层中都是相同的;
预训练策略
训练细节
标题:LayoutXLM: Multimodal Pre-training for Multilingual Visually-rich Document Understanding
链接:
论文概要:LayoutLMv2的多语言版本,在模型方面只针对多语言的不同做了些小的改动,主要说明预训练数据集和验证数据集的制作细节。
预训练数据集:IIT-CDIP和大量互联网上公开可用的电子版PDF文件
评估数据集:XFUND;为了评估模型,本文提出一个人工标注的多语言表单理解数据集XFUND,包含中文、日语、西班牙语、法语、意大利语、德语、葡萄牙语七种语言,每个都标注了键值对;
模型规模:base版本(345M)和large版本(625M),嵌入层大了
模型架构:同v2,只是用多语言进行预训练;
预训练数据集
XFUND表单评估数据集
训练细节
微调细节
标题:LayoutLMv3: Pre-training for Document AI with Unified Text and Image Masking
链接:
论文概要:相比于之前版本,文本的布局信息使用了片段级别,一段文本共用一组坐标。视觉借鉴了ViT的方法,丢掉了CNN,减少了参数以及省去了很多的预处理步骤。使用了两种新的损失MIM和WPA,在下游任务取得新的SOTA结果。
预训练数据集:IIT-CDIP,同v1
评估数据集:FUNSD、CORD 、DocVQA 、RVL-CDIP、PubLayNet
模型规模:base版本(133M)和large版本(368M)
模型架构
预训练策略
训练细节:为了节省缓存,能用的trick都用了
因篇幅问题不能全部显示,请点此查看更多更全内容
Copyright © 2019- pqdy.cn 版权所有 赣ICP备2024042791号-6
违法及侵权请联系:TEL:199 1889 7713 E-MAIL:2724546146@qq.com
本站由北京市万商天勤律师事务所王兴未律师提供法律服务