数据准备 说明:UIE是基于Prompt的通用信息抽取框架,本文为个人学习UIE代码的笔记,学的过程中简单翻译了一下数据准备部分readme(顺序按实际处理过程有所调整),自己添加的说明都在引用格式里。 论文:Unified Structure Generation for Universal Information Extraction。 源代码:https://github.com/uni
技巧: 六月三十号补充,uie处理3000字的政策文件要占用12G左右的内存,uie处理一万字的文件时运行巅峰要占用28G左右内存,各位部署时,注意out of memory的错误,对应万字的超长文本目前只有加内存的解决方案。 六月二十七号补充,uie的schema定义时尽量一个schema的长度低于7个字,不然有很大概率,模型识别的效果很差,如图:“执行标准”有一个比较好的抽取效果,“文件执