PaddleOCR-VL 开发场景代码 OCR 微调模型

本模型基于 PaddleOCR-VL-1.6 微调,面向开发场景 OCR,重点识别 IDE 截图、终端输出、Traceback、配置文件、Git diff、文档代码块、API 表格、小字号和暗色主题等开发相关图片中的可见文字。

推荐提示词:

<image>OCR:

模型信息

  • 基础模型:PaddleOCR-VL-1.6
  • 微调方式:LoRA 微调后导出合并模型
  • 任务类型:开发场景代码 OCR / image-to-text
  • 当前版本:v5-v2params 提交候选版本

推荐推理参数

max_tokens=4096
repetition_penalty=1.10
temperature=0

模型目标是只输出图片中可见文字,尽量保留代码符号、大小写、缩进、换行、结构和阅读顺序。它不是代码修复或代码生成模型,不应补全图片中不可见的内容。

数据与评估

训练数据仍在持续清洗和补充中,本文档不写死训练集规模。数据主要覆盖:

  • IDE / 编辑器代码截图
  • 终端、Shell、PowerShell 命令和输出
  • Traceback、报错日志和诊断信息
  • YAML / JSON / TOML / INI 配置文件
  • Git diff、patch 和 PR 页面
  • Markdown / 文档代码块
  • API 表格、参数表和字段说明
  • 小字号、压缩、暗色主题、拍屏等困难样本

当前 benchmark v4 使用 100 题冻结测试集,按 8 类开发 OCR 场景加权汇总。测试集不参与训练和训练期调参。

阶段性 v4 结果:

模型 提示词 final_score_v4 平均 LLM 平均 NED 严格可用率 完成率 安全分
PaddleOCR-VL-1.6 微调 v5-v2params <image>OCR: 57.85 71.55 0.1321 44.00% 95.00% 76.00%

该分数是阶段性回归结果,最终比赛评审以官方规则和提交材料为准。

局限性

模型在以下场景仍可能出错:

  • 极小或模糊文本
  • 复杂 API 表格
  • 深层嵌套配置文件
  • 长 Traceback 输出
  • 多区域混排截图
  • 罕见符号、代码标点和缩进敏感内容

模型输出应只作为 OCR 转写结果使用,不能视为代码语义理解或代码正确性保证。

致谢

本模型为 PaddleOCR 全球衍生模型挑战赛构建,基础能力来自 PaddleOCR-VL 系列模型。

Downloads last month
-
Safetensors
Model size
1.0B params
Tensor type
BF16
·
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support

Model tree for snnh/paddleocr_vl_code_ocr

Finetuned
(3)
this model