自定义模板OCR识别场景
1. 简介
1.1 场景简介
自定义模板 OCR 识别是指,使用 OCR 技术来识别图像或扫描文档中的文字,并且可以根据用户的需求和特定的模板结构来提取所需的信息。提高文档处理的效率和准确性,减少人工操作的成本和错误率。
1.2 应用场景
适用于不同场景下的 OCR 识别。如实验数据录入、提取财务信息、处理简历和员工档案等等场景。
1.3 预期效果
以 OCR 识别细胞档案表为例,效果如下所示:
2. 自定义模板配置
模板详细配置可参考百度大脑 AI 开放平台上的 iOCR 自定义模板文字识别。
2.1 创建模板
1)在「开放能力 >> 文字识别」处,点击「 iOCR 自定义模板文字识别」。进入文字识别详情页后,点击「立即使用」;
2)在「模板管理 >> 自定义模板」处,点击「创建模板」并上传模板图片。
2.2 编辑模板
1)框选参照字段
模板图片上传成功后,在编辑模板页面中,点击「第 1 步:框选参照字段」并选择模板图片中的参照字段。如框选单位为参照字段,操作如下:
2)框选识别区
点击「第 2 步:框选识别区」,选择模板图片中需要识别的部分,并在右侧修改对应的字段名。
注:字段名称需用【word+数字】的形式,便于简道云前端事件配置中返回结果的定位。
3)发布模板
模板编辑完成后,点击右上角「发布」按钮,发布模板。
2.3 获取模板ID
发布成功后,可在「模板管理 >> 自定义模板」处,查看并保存模板 ID。
2.4 设置分类器
1)切换导航栏至「分类器管理」中,点击「创建分类器」,输入分类器名称和功能描述后,点击「确定」。
2)在分类器编辑页面中,添加好训练模板、填写分类关键词并上传好训练集后,点击「开始训练」。
3)待训练状态为「训练完成」后,点击「发布」即可使用分类器。
2.5 获取分类器ID
在分类器管理页面,查看并保存「分类器ID」。
3. 插件安装及配置
3.1 安装插件
1)直接安装
- 您可点击右方链接直接安装插件:百度 AI 大脑插件安装。
- 安装成功后,可参考本文【3.2 配置插件】和【3.3 启用插件】,前往「开放平台 >> 插件管理」处启用插件。
2)插件市场处安装
在简道云「插件市场」处,安装「百度 AI 大脑」插件。插件市场处安装方法可参见文档:插件市场中【2.3 插件安装】。
3.2 配置插件
安装完成后,在「插件管理」处,点击插件右侧的「设置」按钮,将 百度 AI 大脑插件【2.5 获取 APIKey 和SecretKey】中获取到的「 APIKey」和「 SecretKey」配置进去。
3.3 启用插件
在插件管理中,打开右侧百度 AI 大脑插件开关,启用插件。
4. 表单搭建
插件使用可先安装:百度 AI 大脑插件模板。本文将按照示例表单进行讲解。
新建「细胞档案识别」,字段设置如下所示:
字段说明 | 字段名称 | 字段类型 |
识别内容信息 | 细胞档案图片 | 图片 |
细胞基本信息 | 是否开始识别 | 按钮 |
用户ID | 单行文本 | |
部门名称 | ||
细胞类型 | ||
样品ID | ||
实验类型 | ||
稀释比例 | ||
仪器ID | ||
测量时间 | ||
细胞结果信息 | 细胞活率 | |
总细胞浓度 | ||
活细胞浓度 | ||
死细胞浓度 | ||
总细胞个数 | ||
活细胞个数 | ||
死细胞个数 | ||
平均直径 | ||
平均圆度 | ||
结团率 |
5. 前端事件配置
5.1 添加按钮执行动作
点击「是否开始识别」按钮字段,在「字段属性 >> 执行动作」处,点击「添加执行动作」:
5.2 设置事件名称和说明
添加好前端事件后,首先设置前端事件的基础信息,即事件名称和事件说明,用于区分前端事件:
5.3 设置执行动作
1)设置执行动作如下:
- 选择插件:选择「百度 AI 大脑-文字识别 >> 自定义模板识别」插件;
- 识别内容:设置为字段值,即「细胞档案图片」字段;
- 模板 id:设置为自定义,即 【2.3 获取模板 ID】中获得的模板 id ;
- 分类器 id:设置为自定义,即【2.5 获取分类器 ID】中获得的分类器 id。
注:
1)模板 id 和分类器 id 仅需设置一个。
2)若模板 id 和分类器 id 都设置成功,由于模板 id 的优先级大于分类器 id,故仅生效模板 id。
2)在设置字段存储关系处,点击「添加」按钮,根据自定义模板的识别字段数量选择添加识别结果的数量,并分别回填至对应的表单字段中。全部设置完成后点击「保存」。
注:识别结果序号与【2.2 编辑模板】中框选识别区处设置的字段名一一对应。如识别结果 1 对应字段名称 word 1的识别结果。
5.4 效果演示
效果参见本文【1.3 预期效果】。
6. 注意事项
若需要识别表格中的内容,则操作步骤如下:
1)在百度大脑 AI 平台编辑模板时,选择「插入表格」,并设置需要插入的表格列数量。插入成功后,调整插入的表格列与模板图片中的表格识别区重合,并设置表格名为 table。如下所示:
注:表格名为固定值,只能设置为 table。
2)模板图片中需要识别的表格识别区内容选择完成后,在右侧修改对应的表格列字段名。列字段名称需用【ta ble_word+数字】的形式,便于简道云前端事件配置中返回结果的定位。
如,第一列的列字段名称为 table_word1;第二列的列字段名称为 table_word2。如下所示:
3)在「简道云前端事件 >> 字段存储关系」处,点击「添加」按钮,进行如下所示操作:
- 根据模板的表格列识别字段数量选择添加「表格.表格列」的数量,并分别回填至对应的表单字段中;
- 设置子字段值填充方式为「先清空子表单再填充」。
全部设置完成后点击「保存」。
注:表格.表格列序号与编辑模板中表格识别区处设置的表格列字段名一一对应。如表格.表格列 1 对应表格列字段名称 table_word 1的识别结果。