PaddleOCR-VL 开发场景代码 OCR 微调模型

本模型基于 PaddleOCR-VL-1.6 微调，面向开发场景 OCR，重点识别 IDE 截图、终端输出、Traceback、配置文件、Git diff、文档代码块、API 表格、小字号和暗色主题等开发相关图片中的可见文字。

推荐提示词：

<image>OCR:

模型信息

训练数据仍在持续清洗和补充中，本文档不写死训练集规模。数据主要覆盖：

当前 benchmark v4 使用 100 题冻结测试集，按 8 类开发 OCR 场景加权汇总。测试集不参与训练和训练期调参。

阶段性 v4 结果：

模型	提示词	final_score_v4	平均 LLM	平均 NED	严格可用率	完成率	安全分
PaddleOCR-VL-1.6 微调 v5-v2params	`<image>OCR:`	57.85	71.55	0.1321	44.00%	95.00%	76.00%

该分数是阶段性回归结果，最终比赛评审以官方规则和提交材料为准。

模型在以下场景仍可能出错：

模型输出应只作为 OCR 转写结果使用，不能视为代码语义理解或代码正确性保证。

本模型为 PaddleOCR 全球衍生模型挑战赛构建，基础能力来自 PaddleOCR-VL 系列模型。

Safetensors

Model size

1.0B params

Tensor type

BF16

Base model

Finetuned

Finetuned

Finetuned

(3)

this model