百度发布新一代文字识别AI模型PP-OCRv5,仅0.07B,部分测试超GPT-4o
百度于9月10日发布新一代轻量级OCR模型PP-OCRv5,专为解决大型视觉语言模型在文本识别中的局限性而设计。该模型参数量仅0.07B,在CPU和边缘设备上表现出色,移动版本在英特尔CPU上每秒可处理超370个字符。PP-OCRv5在OCR基准测试中表现优于Gemini 2.5 Pro、Qwen2.5-VL和GPT-4o等通用模型,支持超过40种语言,具备精确的文本定位能力。其模块化结构由图像预处理、文本检测、方向分类和识别四部分组成,适用于结构化数据提取与多语言识别场景。来源:https://tech.ifeng.com/c/8mcjKV2Ppo5
页:
[1]