一种新的计算机视觉基础模型Florence

OneFlow深度学习框架

企业官方账号

2021-11-26 18:14:27

#一种新的计算机视觉基础模型Florence# 现有的视觉基础模型如CLIP、ALIGN和#悟道2.0# 侧重将图像和文本表示映射到跨模态共享表示，但最新一篇由23位研究人员完成的论文中提出了一个新的#计算机视觉# 基础模型Florence，将表示扩展到粗略（场景) 到精细（目标），从静态（图像）到动态（视频），从RGB到多种模式（标题、深度）。通过结合来自Web规模图像文本数据的通用视觉语言表示，#Florence# 模型可以轻松适应分类、检索等各种计算机视觉任务。Florence在许多类型的迁移学习中表现出出色的性能，目前在44个具有代表性的基准测试中达到最新SOTA。论文：https://arxiv.org/pdf/2111.11432.pdf

...全文

1114 回复打赏收藏转发到动态举报

写回复

回复

切换为时间正序

请发表友善的回复…

发表回复

内容概要：本文介绍了 Florence-VL，一种新的多模态大语言模型（MLLM）。Florence-VL 利用生成型视觉基础模型 Florence-2 提供丰富的视觉表示，并提出了“深度-广度融合”（DBFusion）架构，有效地将多种视觉特征集成到预训练的语言模型中。该模型经过图像详细字幕数据和高质量指令调优数据的训练，在多个多模态和视觉中心基准上显著优于现有模型，尤其是在 OCR 和图表任务方面。适合人群：对计算机视觉、自然语言处理和多模态大语言模型感兴趣的科研人员和技术开发者。使用场景及目标：适用于需要强大视觉和语言理解能力的任务，如视觉问答、物体检测、图像生成、文本读取和图表解释等。Florence-VL 能够提供更加丰富和精确的跨模态表示，提高下游任务的表现。其他说明：Florence-VL 开源了模型和完整的训练方法，为未来的研究提供了便利。

Florence 经典cv foundation模型，又hao ,论文详解

本文详细介绍了OmniParser在UI纯视觉检测和理解中所采用的技术模型。OmniParser的整体方案分为图片OCR、图片icon检测和图片元素理解三个环节，分别使用了PaddleOCR、YOLOv8n和Florence-2-base-ft模型。PaddleOCR用于识别图片中的文字区域和坐标，YOLOv8n用于检测图片中的目标区域和坐标，而Florence-2-base-ft则用于对检测到的元素进行理解。文章还详细介绍了这些模型的基本使用方法和特点，包括PaddleOCR的安装和配置、YOLOv8n的图标检测能力以及Florence-2的多模态学习能力。最后，文章指出OmniParser通过集成这些先进模型实现了从屏幕截图到结构化数据的高效转换，但也提到实际测试效果可能因模型参数量较小而有所折扣。

Delphi 13.1控件之TMS Sparkle v3.34.0.0 (07 Feb 2026) for Delphi XE2-13 Florence Full Source.rar

OneFlow深度学习框架

222

社区成员

261

社区内容

发帖

与我相关

我的任务

学习其他企业社区

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

社区公告

暂无公告

试试用AI创作助手写篇文章吧

+ 用AI写文章