PaddleOCR-VL 开发场景代码 OCR 微调模型
本模型基于 PaddleOCR-VL-1.6 微调,面向开发场景 OCR,重点识别 IDE 截图、终端输出、Traceback、配置文件、Git diff、文档代码块、API 表格、小字号和暗色主题等开发相关图片中的可见文字。
推荐提示词:
<image>OCR:
模型信息
- 基础模型:PaddleOCR-VL-1.6
- 微调方式:LoRA 微调后导出合并模型
- 任务类型:开发场景代码 OCR / image-to-text
- 当前版本:v5-v2params 提交候选版本
推荐推理参数
max_tokens=4096
repetition_penalty=1.10
temperature=0
模型目标是只输出图片中可见文字,尽量保留代码符号、大小写、缩进、换行、结构和阅读顺序。它不是代码修复或代码生成模型,不应补全图片中不可见的内容。
数据与评估
训练数据仍在持续清洗和补充中,本文档不写死训练集规模。数据主要覆盖:
- IDE / 编辑器代码截图
- 终端、Shell、PowerShell 命令和输出
- Traceback、报错日志和诊断信息
- YAML / JSON / TOML / INI 配置文件
- Git diff、patch 和 PR 页面
- Markdown / 文档代码块
- API 表格、参数表和字段说明
- 小字号、压缩、暗色主题、拍屏等困难样本
当前 benchmark v4 使用 100 题冻结测试集,按 8 类开发 OCR 场景加权汇总。测试集不参与训练和训练期调参。
阶段性 v4 结果:
| 模型 | 提示词 | final_score_v4 | 平均 LLM | 平均 NED | 严格可用率 | 完成率 | 安全分 |
|---|---|---|---|---|---|---|---|
| PaddleOCR-VL-1.6 微调 v5-v2params | <image>OCR: |
57.85 | 71.55 | 0.1321 | 44.00% | 95.00% | 76.00% |
该分数是阶段性回归结果,最终比赛评审以官方规则和提交材料为准。
局限性
模型在以下场景仍可能出错:
- 极小或模糊文本
- 复杂 API 表格
- 深层嵌套配置文件
- 长 Traceback 输出
- 多区域混排截图
- 罕见符号、代码标点和缩进敏感内容
模型输出应只作为 OCR 转写结果使用,不能视为代码语义理解或代码正确性保证。
致谢
本模型为 PaddleOCR 全球衍生模型挑战赛构建,基础能力来自 PaddleOCR-VL 系列模型。
- Downloads last month
- -
Model tree for snnh/paddleocr_vl_code_ocr
Base model
baidu/ERNIE-4.5-0.3B-Paddle Finetuned
PaddlePaddle/PaddleOCR-VL-1.5 Finetuned
PaddlePaddle/PaddleOCR-VL-1.6