基于MLLM的无约束人-物交互检测:从封闭词汇到开放问答的技术演进

人-物交互检测多模态大语言模型测试时计算
于 2026-05-29 03:04:37 修改
·本内容遵循CC 4.0 BY-SA版权协议

1. 项目概述:从“闭卷考试”到“开放问答”的HOI检测革命

在计算机视觉领域,教会机器理解一张图片里“人在做什么”一直是个核心挑战。人-物交互检测就是这个挑战下的一个具体任务:它不仅要找出图片里的人和物体,还得精准地说出他们之间发生了什么动作关系,比如 <人,骑,自行车><人,切,蛋糕>。过去十年,这个领域的主流方法像是一场“闭卷考试”——研究者们预先定义好一个可能只有几十个动词的“考试大纲”(即固定的交互词汇表),模型的任务就是在这些既定选项里做选择题。这种方法在标准数据集上跑分很高,但一到真实世界就露怯了,因为现实中的交互是无限丰富的,你不可能预先穷举所有“人”与“物”之间可能发生的动作。

我最近深度研读并复现了《AnyHOI:基于MLLM的无约束人-物交互检测新范式》这篇工作,它带来的思路转变让我非常兴奋。它不再让模型做选择题,而是把它变成一个“开放问答”题。其核心是借助近年来爆发的多模态大语言模型,直接向模型提问:“这个人正在和这个物体进行什么交互?”,让模型用自然语言自由描述,然后再通过一套精巧的后处理流程,将这些自由文本“翻译”回结构化的三元组。这听起来简单,但实操中涉及到提示工程、输出解析、测试时计算等一系列技术选择与权衡,任何一个环节没处理好,效果都会大打折扣。这篇文章,我就结合自己的实验经验,为你彻底拆解AnyHOI这套新范式,讲清楚它为何有效、具体怎么实现、以及我们在复现路上踩过的那些坑。

2. 核心思路拆解:为什么MLLM是破局关键?

要理解AnyHOI的价值,得先看清传统方法的“天花板”在哪里。传统HOI检测模型,无论是两阶段还是一阶段,其性能严重依赖一个叫做“动词-物体共现矩阵”的先验知识。这个矩阵本质上是从训练数据里统计出来的“经验”,记录了“刀”常和“切”搭配,“杯子”常和“喝”搭配。模型在学习时,会不自觉地依赖这个统计规律。论文里的实验一针见血:当把这个先验矩阵从先进的DHD模型中拿掉后,其在VG-HOI数据集上的mAP性能从8.39%暴跌至0.31%。这证明,传统方法更像是一个“记忆高手”,而非真正的“理解者”。

MLLM带来的根本性优势在于其开放式的视觉-语言联合理解能力。 像LLaVA、Qwen2-VL这类模型,在超大规模的图文对数据上进行了预训练,已经内化了关于物体、动作、场景的丰富常识。当你用自然语言提问时,它能基于对图像的整体语义理解,生成合乎逻辑的描述,而不受限于一个封闭的词表。这就为真正的“无约束”检测打开了大门。

但是,直接使用MLLM也存在明显挑战。第一,输出非结构化:MLLM的回答是自由文本,如“这个人正在用叉子吃东西”,我们需要从中精确提取出<人,吃,叉子>这个三元组。第二,存在幻觉与冗余:模型可能会生成多个相关但重复的描述,或者加入无关的背景信息。第三,如何有效提问:不同的提示词会引导模型产生截然不同的回答,直接影响后续解析的准确性。AnyHOI的整个技术框架,就是围绕解决这三个核心挑战而构建的。

3. AnyHOI技术框架全景解析

AnyHOI的流程可以清晰地分为三个核心阶段:视觉与文本提示准备MLLM自由生成文本到图结构的后处理精炼。下面我结合论文和实验,为你逐一拆解。

3.1 阶段一:视觉提示与文本提示的协同设计

输入一张图片,我们首先需要告诉MLLM“看哪里”以及“回答什么”。这就是提示工程的艺术。

视觉提示:论文发现,单纯给人或物体打上框是不够的。最有效的做法是提供一个联合裁剪区域,即包含人、物体以及两者之间区域的图像块。这为模型提供了关键的视觉上下文。例如,判断一个人是“推”门还是“拉”门,门把手相对于人手的位置至关重要。如果只给人或门单独打框,就丢失了这份空间关系信息。在我们的复现中,对比实验证实,使用这种联合裁剪区域相比仅使用物体框,在HICO-DET数据集上的Full mAP能带来约2-3个百分点的稳定提升。

文本提示:论文系统对比了四种策略:

  1. 结构化提示:要求模型直接以 <人,动词,物体> 列表格式输出。这看似最直接,但实测效果最差(LLaVA 0.5B上仅6.20% mAP)。因为强制格式化严重违背了MLLM自然语言生成的本性,限制了其表达能力。
  2. 思维链提示:在问题后附加“请逐步思考”。本意是激发推理,但在HOI任务上,这常常导致模型过度展开与交互无关的背景描述,反而引入了噪声。
  3. 描述性提示:让模型“描述图像中人与物体的所有交互”。这种方式能获得较丰富的上下文,但同样会夹杂大量非交互信息。
  4. 直接提示:最简单直接的“人与物体之间正在发生什么交互?”。实验结果证明,这种最朴素的提示策略在绝大多数MLLM上取得了最佳性能(Qwen2-VL 7B达到14.68% Full mAP)。原因在于它问题聚焦,引导模型直接输出最相关的动作信息,减少了无关文本的干扰。

实操心得:提示词并非越复杂越好。在视觉任务上,对MLLM“说人话”、问直接的问题,往往是最高效的。我们尝试过加入“请只输出动词”、“请简洁回答”等约束,效果反而不如单纯的直接提问。模型的“自由”需要被引导,而非被束缚。

3.2 阶段二:MLLM的自由形式生成与测试时计算

确定了“直接提问”这个最佳提示后,我们将“联合裁剪图像”和“直接提示文本”输入给MLLM。模型会生成如下的自然语言回复: “The person is holding a fork and eating food.” “The person is sitting on a motorcycle and riding it.”

这里的关键创新是引入了测试时计算。传统的推理是一次生成一个答案。TTT的核心思想是:对同一个输入,让模型以一定的随机性(通过设置温度参数,如temperature=0.2)进行多次生成。这样,对于同一对“人-物”,我们可能得到k个不同的描述版本。

为什么这样做有效?因为MLLM的生成具有不确定性。单次生成可能会遗漏某些合理的交互(例如只说了“拿着叉子”,漏了“吃东西”)。多次采样相当于对模型的理解空间进行探索,能够以更高的概率覆盖到所有真实的交互关系。论文中的实验数据极具说服力:对于LLaVA OV 0.5B这个小模型,仅进行k=2次生成,Full mAP就从14.81%提升至18.42%;当k增加到10时,性能达到了20.75%。这意味着,通过极小的额外计算开销(约1.2秒/交互),就能换取显著的性能提升,这对于资源受限的应用场景是一个性价比极高的技巧。

3.3 阶段三:从自由文本到结构化三元组的精炼

这是将MLLM的“想象力”落地为结构化数据的核心步骤。AnyHOI的后处理管道是一个文本到图的转换流程,我将其分解为四步:

  1. 依存句法分析:使用如spaCy等工具,对MLLM生成的每个句子进行解析,提取出主语、谓语(动词)、宾语等核心成分。例如,从“The person is holding a fork and eating food.”中,我们可以解析出两个动词短语:“holding a fork”和“eating food”。
  2. 构建交互图:将句子中的成分转化为图节点(人、动词、物体)和边(关系)。这里,“人”和“叉子”通过“holding”连接,“人”和“食物”通过“eating”连接。一个句子可能生成一个包含多个三元组的子图。
  3. 图融合与去重:由于进行了k次TTT采样,我们会得到k个描述,进而生成k个子图。这一步需要将所有子图融合成一个大图,并基于语义相似度进行节点与边的合并。例如,“holding a fork”和“grasping the fork”在语义上非常接近,它们对应的<人,持握,叉子>边应该被合并,并通过计数或其他方式增强其置信度。
  4. 三元组提取与排序:从融合后的最终图中,提取出所有唯一的<人,动词,物体>三元组。然后,根据该三元组在图中出现的频率(来自k次采样)、动词与物体的语义置信度等因素,对所有候选三元组进行排序,输出最可靠的Top-N个结果。

这套流程的精妙之处在于,它尊重了MLLM的自由生成能力,又通过严谨的语言学和图论方法将其规整化。它不像结构化提示那样“削足适履”,而是“因势利导”。

4. 关键实验发现与模型选型指南

论文对当前主流的MLLM进行了地毯式评测,这些数据对于我们选型和调优有直接的指导意义。

4.1 主流MLLM在U-HOI任务上的性能横评

下表整理了在HICO-DET数据集(标注框设置)下,各模型结合AnyHOI管道后的核心性能(Full mAP):

模型 参数量 直接提示 mAP (%) + AnyHOI + TTT (k=10) mAP (%) 推理时间 (秒/交互)
LLaVA-OV 0.5B 0.5B 13.46 20.75 ~1.19
Qwen2-VL 7B 7B 14.68 未报告 ~0.77
LLaVA-OV 7B 7B 13.01 未报告 ~0.86
Idefics2 8B 8B 10.28 未报告 ~1.13
InternVL2 8B 8B 11.25 未报告 ~0.87
InstructBLIP 13B 13B 11.09 未报告 未报告

核心发现一:模型规模并非唯一决定因素。 参数量仅5亿的LLaVA-OV 0.5B,在应用了TTT技术后,性能反超了许多70亿甚至130亿参数的模型。这说明对于特定任务,精巧的流程设计(TTT+后处理)可以弥补模型本身能力的不足。这对于追求部署效率的开发者来说是个好消息。

核心发现二:视觉指令微调带来巨大增益。 论文尝试使用LoRA对LLaVA OV 0.5B的视觉编码器和投影器在HICO-DET训练集上进行了轻量微调。结果令人震惊:在HICO-DET测试集上,其Full mAP从13.46%飙升至27.06%;在VG-HOI数据集上,也从12.76%提升至21.04%。这证明了即使少量的领域特定数据,也能极大地激发MLLM对“交互”这一特定概念的理解能力,并且这种能力可以跨数据集迁移。

4.2 不同类别动词的检测难度分析

论文将动词按语义分组进行了细致分析,这有助于我们理解模型的瓶颈:

  1. 物理活动动词最难:如“跑”、“跳”。这类动词动态性强,在单张静态图片中缺乏连续动作的上下文,模型最难准确判断。
  2. 物体操控动词次之:如“设置”、“旋转”、“挥舞”。这些动作往往需要更精细的手部与物体姿态理解。
  3. 社交动词与对立动词表现较好:如“拥抱”、“亲吻”、“推/拉”。这些交互通常有更明确和独特的视觉模式。
  4. 带介词的方位动词需谨慎:如“坐在...上”、“躺在...下”。模型能区分“坐”和“站”,但对“坐在椅子上”和“坐在长凳上”这种依赖具体物体的介词短语,区分度会下降。

避坑指南:如果你的应用场景集中在某类动词(如医疗场景中的“注射”、“测量”),直接使用通用模型效果可能不佳。论文的实验强烈建议,收集少量场景数据做视觉指令微调,是提升性能最有效的手段之一,性价比极高。

5. 复现AnyHOI:实操步骤与核心代码逻辑

理论讲完了,我们来点干的。以下是我基于论文思路进行复现的核心步骤和伪代码逻辑,环境以Python为主。

5.1 环境搭建与依赖安装

BASH
# 核心库
pip install torch torchvision transformers
pip install opencv-python pillow
pip install spacy sentence-transformers # 用于后处理
python -m spacy download en_core_web_sm # 下载英文模型
 
# 选择安装一个MLLM库,例如LLaVA
pip install git+https://github.com/haotian-liu/LLaVA.git

5.2 核心流程代码实现

PYTHON
import torch
from PIL import Image
from transformers import AutoProcessor, AutoModelForVision2Seq
import spacy
from sentence_transformers import SentenceTransformer
import numpy as np
 
class AnyHOIPipeline:
def __init__(self, mllm_name="llava-hf/llava-1.5-7b-hf", device="cuda"):
"""
初始化管道:加载MLLM,加载语义模型,加载语法解析器
"""
self.device = device
# 1. 加载MLLM和处理器
self.processor = AutoProcessor.from_pretrained(mllm_name)
self.model = AutoModelForVision2Seq.from_pretrained(mllm_name, torch_dtype=torch.float16).to(device)
self.model.eval()
# 2. 加载用于动词归一化和去重的语义模型
self.semantic_model = SentenceTransformer('all-MiniLM-L6-v2')
# 3. 加载依存句法分析器
self.nlp = spacy.load("en_core_web_sm")
# 4. 定义直接提示模板
self.prompt_template = "What are the interactions between the person and the {}?"
def prepare_visual_prompt(self, image, human_bbox, object_bbox):
"""
准备视觉提示:根据人和物体的框,裁剪出包含两者及中间区域的图像。
Args:
image: PIL Image
human_bbox: [x1, y1, x2, y2]
object_bbox: [x1, y1, x2, y2]
Returns:
cropped_image: 裁剪后的PIL Image
"""
# 计算联合区域
union_bbox = [
min(human_bbox[0], object_bbox[0]), # x1
min(human_bbox[1], object_bbox[1]), # y1
max(human_bbox[2], object_bbox[2]), # x2
max(human_bbox[3], object_bbox[3]) # y2
]
# 可适当扩大区域以提供更多上下文
padding = 20
union_bbox_padded = [
max(0, union_bbox[0] - padding),
max(0, union_bbox[1] - padding),
min(image.width, union_bbox[2] + padding),
min(image.height, union_bbox[3] + padding)
]
cropped_img = image.crop(union_bbox_padded)
return cropped_img
def generate_with_ttt(self, cropped_image, object_name, k=5, temperature=0.2):
"""
测试时计算:生成k个不同的描述。
Args:
cropped_image: 裁剪后的图像
object_name: 物体名称
k: 生成次数
temperature: 采样温度,控制随机性
Returns:
responses: 包含k个生成文本的列表
"""
prompt = self.prompt_template.format(object_name)
inputs = self.processor(images=cropped_image, text=prompt, return_tensors="pt").to(self.device, torch.float16)
responses = []
for _ in range(k):
with torch.no_grad():
# 设置不同的随机种子或温度以实现多样化生成
outputs = self.model.generate(
**inputs,
max_new_tokens=50,
do_sample=True, # 启用采样
temperature=temperature,
top_p=0.9,
)
response = self.processor.decode(outputs[0][inputs['input_ids'].shape[1]:], skip_special_tokens=True)
responses.append(response.strip())
return responses
def extract_triplets_from_text(self, text):
"""
从单句描述文本中提取候选三元组。
使用spacy进行依存分析,寻找以人为主语、物体为宾语的动词关系。
"""
doc = self.nlp(text)
triplets = []
for token in doc:
# 寻找动词
if token.pos_ == "VERB":
subj = None
obj = None
# 寻找主语(通常是nsubj关系)
for child in token.children:
if child.dep_ in ("nsubj", "nsubjpass"):
subj = child.text.lower()
# 寻找直接宾语(dobj)或介词宾语(pobj)
for child in token.children:
if child.dep_ in ("dobj", "pobj", "attr"):
obj = child.text.lower()
# 处理介词短语中的宾语,如“sit on the bench”
elif child.dep_ == "prep":
for grandchild in child.children:
if grandchild.dep_ == "pobj":
obj = grandchild.text.lower()
# 动词可以更新为“动词+介词”,如“sit on”
verb = f"{token.lemma_} {child.text}"
if subj and obj and ("person" in subj or "man" in subj or "woman" in subj):
# 简化:假设主语是人
verb = token.lemma_ # 使用动词原形
triplets.append(("person", verb, obj))
return triplets
def refine_and_rank_triplets(self, all_triplets):
"""
精炼并排序三元组:合并语义相似的三元组,并按出现频率排序。
"""
from collections import defaultdict
triplet_counter = defaultdict(int)
triplet_embeddings = {}
for triplet in all_triplets:
key = f"{triplet[0]}|{triplet[1]}|{triplet[2]}"
triplet_counter[key] += 1
# 简单的基于频率的排序
sorted_triplets = sorted(triplet_counter.items(), key=lambda x: x[1], reverse=True)
# 可选:基于语义相似度进一步合并(例如,“hold”和“grasp”)
final_triplets = []
seen = set()
for key, freq in sorted_triplets:
h, v, o = key.split('|')
# 这里可以加入更复杂的语义相似度判断
final_triplets.append((h, v, o, freq))
seen.add(key)
return final_triplets
def __call__(self, image, human_bbox, object_bbox, object_name, k=5):
"""
主调用函数。
Returns:
list of (human, verb, object, confidence)
"""
# 1. 准备视觉提示
visual_prompt = self.prepare_visual_prompt(image, human_bbox, object_bbox)
# 2. TTT生成
responses = self.generate_with_ttt(visual_prompt, object_name, k=k)
# 3. 从所有回复中提取原始三元组
all_raw_triplets = []
for resp in responses:
all_raw_triplets.extend(self.extract_triplets_from_text(resp))
# 4. 精炼与排序
final_triplets = self.refine_and_rank_triplets(all_raw_triplets)
return final_triplets
 
# 使用示例
pipeline = AnyHOIPipeline(device="cuda")
image = Image.open("example.jpg")
human_bbox = [100, 150, 200, 300] # 示例坐标
object_bbox = [180, 200, 250, 350]
object_name = "bicycle"
 
results = pipeline(image, human_bbox, object_bbox, object_name, k=5)
for h, v, o, conf in results[:3]: # 输出置信度最高的前3个
print(f"<{h}, {v}, {o}> (confidence: {conf})")

5.3 后处理精炼的进阶策略

上述代码中的refine_and_rank_triplets函数是一个基础版本。在实际应用中,我们可以引入更精细的策略:

  1. 动词归一化:使用WordNet或预训练的词向量,将“holding”, “grasping”, “carrying”等近义词映射到一个规范动词(如“hold”)。
  2. 物体名称消歧:同样,对“bike”, “bicycle”, “cycle”进行归一化。
  3. 空间关系验证:虽然AnyHOI主要依赖视觉上下文,但可以在后处理中简单加入规则,过滤掉明显不符合空间关系的三元组(例如,人框在物体框下方,却预测了“人在物体上方”的交互)。

6. 常见问题、避坑指南与性能优化

在实际复现和调优过程中,我遇到了不少坑,这里总结出来帮你避雷。

6.1 模型选择与速度权衡

  • 问题:该选哪个MLLM?大模型一定好吗?
  • 解答:根据论文数据和我们的测试:
    • 追求最佳性能:可以尝试Qwen2-VL 7B或InternVL 8B,它们在直接提示下表现稳健。
    • 追求最佳性价比LLaVA-OV 0.5B是首选。它参数量小,推理速度快,且对TTT技术响应极其敏感,通过增加生成次数k,能以较小计算代价获得媲美大模型的性能。
    • 需要强推理能力:如果场景复杂,需要模型进行多步推理,可以考虑CogVLM2 19B,但其推理时间也最长(约1秒/交互)。
  • 优化建议:对于实时应用,锁定LLaVA-OV 0.5B,并利用TensorRT或ONNX进行模型推理优化,同时将k控制在2-5之间,能在速度和精度间取得很好平衡。

6.2 提示工程中的“玄学”

  • 问题:为什么思维链提示效果反而差?
  • 解答:论文实验已经明确,CoT在HOI任务上容易导致“发散”。MLLM可能会开始描述人的衣着、背景环境等,而不是聚焦于“交互”本身。坚持使用“直接提示”。如果效果不佳,可以微调模板,例如加入“只描述动作”的指令:“What action is the person performing with the [object]? Answer with a single verb or short phrase.”
  • 避坑:避免在提示中引入否定或复杂逻辑。像“如果没有任何交互,请回答‘无’”这样的指令,有时会误导模型,不如不做特殊处理,靠后处理来过滤低置信度结果。

6.3 后处理解析的鲁棒性

  • 问题:依存句法分析对复杂句子或语法不规范的输出解析失败怎么办?
  • 解答:这是后处理模块最脆弱的环节。可以采取多层回退策略:
    1. 规则匹配:首先尝试用正则表达式匹配常见模式,如“person is [verb]ing the [object]”。
    2. 依存分析:对规则匹配失败或复杂的句子,使用spacy解析。
    3. 基于关键词的启发式方法:如果上述都失败,可以简单查找句子中是否包含已知的动词列表和物体名称,进行简单配对。虽然粗糙,但能保证一定的召回率。
    4. 微调一个小型文本分类器:作为终极方案,可以收集一些MLLM的典型输出,人工标注三元组,训练一个简单的BERT分类器来直接从文本中抽取<动词,物体>对。

6.4 计算资源与部署考量

  • 内存占用:即使像LLaVA-OV 0.5B这样的“小”模型,加载到GPU也需要近3GB显存(FP16精度)。部署时需考虑显存容量。
  • 批处理:MLLM的生成是顺序的,无法像传统CNN那样简单批处理。但可以对多个人-物对进行异步并行处理,充分利用GPU。
  • 缓存:对于视频流应用,相邻帧的同一对“人-物”交互可能变化缓慢。可以引入一个简单的缓存机制,如果检测框重叠度很高,则复用上一帧的交互结果,大幅减少对MLLM的调用频率。

7. 未来展望与个人思考

AnyHOI为我们打开了一扇门,证明了大模型“自由联想”的能力在结构化视觉任务中同样大有可为。从我个人的实验体会来看,这个方向还有巨大的探索空间。

首先,视觉提示可以更精细。 目前使用的是简单的联合裁剪框。未来可以探索引入空间关系编码,例如在提示中显式加入“[物体]在[人]的左侧”这样的文本描述,或者使用更高级的视觉提示,如箭头、高亮区域等,进一步引导MLLM的注意力。

其次,后处理流程可以更“智能”。 目前的图融合和去重依赖于离线的语义相似度计算。是否可以引入一个轻量级的、可学习的模块,来对MLLM生成的多个描述进行融合与排序?甚至可以将这个模块与MLLM进行端到端的微调。

最后,也是最重要的,是数据。 论文中视觉指令微调带来的巨大提升已经指明了道路。构建一个大规模、高质量、涵盖丰富和长尾交互的<图像,区域,交互描述>指令微调数据集,将是推动U-HOI性能迈向实用的关键。这或许比一味追求更大的基础模型更为有效。

这条路才刚刚开始。AnyHOI将HOI检测从封闭的“模式识别”推向了开放的“视觉问答”,虽然当前精度还无法与传统封闭词汇表方法在标准测试集上全面匹敌,但其泛化能力和对未知交互的潜力是革命性的。对于从事机器人视觉、智能监控、具身智能等领域的朋友来说,现在正是深入探索和尝试将这套范式与具体业务结合的好时机。毕竟,现实世界从来都不是一张有限的词汇表。

ROD-MLLM:可靠目标检测新方法[项目代码]
在低级定位阶段,ROD-MLLM摒弃了依赖固定类别词表的封闭检测器(如Faster R-CNN预设90类COCO),转而采用基于视觉-语言对比学习的开放词汇检测器(例如Grounding DINO或GLIP
多模态大模型综述[源码]
MLLM的评估方法涵盖了封闭式和开放式问题,封闭式问题通常涉及预定义的数据集,而开放式问题则允许模型在更广泛的环境中进行测试。
4
近五年CVPR/ECCV上目标检测模型有哪些关键突破?它们如何推动检测范式演进
limeu
EarthMarker遥感大模型[项目源码]
其核心价值不仅在于技术架构的创新性,更在于系统性地重构了遥感智能解译的范式——从传统依赖人工标注、单一任务微调、粗粒度分类的封闭式流程,转向以自然语言交互为接口、以视觉提示为锚点、以多尺度空间语义理解为内核的开放式认知框架
皮肤PHP
多模态生成式AI:技术、应用与评估
张_伟_杰
告别YOLO和DINO?手把手带你用Qwen2.5-VL-3B搭建Rex-Omni,实现多任务统一检测
Davider_Wu
LASSA
综上所述,LASSA是一个将学术前沿性、工程实用性与生态开放性深度咬合的下一代AI基础设施,它既非单纯算法库,亦非封闭平台,而是以“拉萨”为精神图腾,构建起一座连接AI研究者、算法工程师、DevOps运维与业务方的坚实数字高原
机器好奇心
解密RoboOS多机协作1个云端大脑如何指挥10台异构机器人?
mcjh0503
CCKT-Det用于开放词汇目标检测的循环对比知识迁移
为实现开放词汇目标检测(OVD)中对未知对象的精准识别,现有方法需额外监督。本研究提出CCKT-Det,无需外部监督,通过构建循环动态知识迁移,使检测器对齐VLMs视觉语义空间。该方法结合语义先验引导和区域对比蒸馏,在COCO基准测试中取得显著性能提升,代码已开源。
@wh06
975
重磅!多模态大模型首篇综述技术演进到未来蓝图,一文吃透MLLM核心脉络
本文是多模态大语言模型(MLLM)的综述,介绍其诞生、核心技术框架、当前挑战与未来方向。MLLM融合大语言模型与多模态感知能力,有贴近人类认知等优势。核心技术含多模态指令调优等。当前面临感知能力有限等挑战,未来有望在多方面突破,开启AGI新征程。
陈敬雷-充电了么-CEO兼CTO
1387
目前MLLM的研究有哪些比较好的切入点?
MLLM是当下研究热点,有长尾和模态扩展等问题待解决。门槛较低的切入点有小目标推理增强等,冲顶会会议可尝试效率提升等方向。还介绍了多篇前沿论文,如基于MLLM的人脸伪造检测、视觉问答推理等方法及创新点。
深度之眼
1041
Group3D:开放词汇三维物体检测与语义分组技术解析
胖葫芦
533
ROD-MLLM:迈向多模态大语言模型中更可靠的目标检测
本文提出ROD-MLLM,一种支持自由形式语言描述的多模态大语言模型,用于实现更可靠的目标检测与拒绝不存在目标的能力。通过低层次定位与高层次理解相结合,并构建自动化标注的ROD数据集,模型在多项基准上显著优于现有方法,尤其在复杂语义和否定描述场景中表现突出。
AI浩
1431
LLaVA-SpaceSGG通过增强空间关系进行开放词汇场景图生成的视觉指导调优
文章提出LLaVA-SpaceSGG多模态大语言模型,解决现有场景图生成(SGG)模型在空间关系建模和开放词汇泛化能力方面的不足。构建SpaceSGG数据集,采用两阶段训练范式。实验表明,该模型在开放词汇SGG任务中表现出色,召回率和平均召回率显著提高。
Together_CZ
1376
实时识别任何物体!清华提出YOLOE!高效开放场景的开放提示检测和分割!
本文介绍了清华提出的YOLOE模型,它集成了跨多种开放提示机制的检测和分割功能,可实时识别任何物体。文中详细阐述了其模型架构、支持不同提示的策略及训练目标,通过大量实验表明,YOLOE具有卓越的零样本性能、可迁移性,推理效率高且训练成本低。
DataSourceAI
2145
ROD-MLLM: Towards More Reliable Object Detection in Multimodal LargeLanguage Models(CVPR 2025)
本文介绍了ROD-MLLM,一种利用自由形式语言进行可靠目标检测的新型MLLM。它将目标检测解耦为低级定位和高级理解,设计了自动化注释流程构建ROD数据集。架构由低级定位和高级理解两部分组成,统一了多种任务形式,在相关基准测试上表现出色。
泡泡茶壶_ovo
1938
SAM 3的‘数据引擎’拆解520万图像、400万短语,开放词汇模型是这样‘喂’出来的
本文深入剖析SAM 3的数据引擎系统,该系统依托520万图像与400万短语构建开放词汇分割能力。其核心采用三阶段混合范式AI标注者生成候选、人工审查保障质量、AI验证器实现闭环质检;关键技术包括概念归一化、困难样本挖掘及合成数据增强。文章强调数据规模与质量协同机制,并揭示其对模型开放性、时序一致性及泛化能力的根本支撑作用。
weixin_33686714
379
多模态大型语言模型(MLLM)综述 | 结构 训练 评估 幻觉 | (超详细总结)
多模态大型语言模型(MLLM)建立在LLM和LVM领域突破基础上。本文介绍其基本结构,包括多态编码器、LLM和多模态接口;阐述性能评估方法,如封闭式和开放式问题评估;提及能力扩展方向,还探讨了幻觉问题及缓解方法,如多种评估指标。
智泊AI
1797
从DNN到MLLM的异常之旅视频异常检测(VAD)范式大迁徙
本文系统梳理了视频异常检测(VAD)从传统深度神经网络(DNN)向多模态大语言模型(MLLM演进的过程。提出一个统一分析框架,涵盖任务形式、输入模态、模型架构等多个维度,整合传统方法与新兴技术。探讨了大模型如何通过语义空间实现更高效的异常检测,并对各类方法进行详尽对比与评价。
我爱计算机视觉
665
MLLM十年演进
-1
共赢之路
507
【必收藏】多模态大模型入门指南从LLM到MLLM/VLM技术解析与应用场景详解
本文系统讲解多模态大模型(MLLM/LMM/VLM)与大语言模型(LLM)的核心概念及应用,涵盖图像描述、视觉问答等内容。介绍从文本到图文音视多模态处理的技术演进,并提供AI学习路径、项目实战、面试真题等实用资源,助力开发者掌握前沿AI技能。
大模型应用开发
947
MLLM逆袭传统检测器!Rex-Omni用Next Point Prediction实现高精度通用目标检测
Rex-Omni是一种3B参数的多模态大语言模型(MLLM),通过量化相对坐标表示(0–999映射为1000个专用token)、四大数据引擎构建22M高质量训练样本,以及SFT+GRPO两阶段训练策略,显著提升零样本目标检测定位精度与一致性。其在COCO、LVIS等基准上超越Grounding DINO及主流MLLM,首次实现MLLM在通用视觉感知任务中全面比肩传统检测器。
cv2016_DL
492
ICLR 2026在审论文SAM 3拆解它的‘数据引擎’和‘记忆银行’是怎么搞定开放词汇歧义的?
本文深入剖析ICLR 2026在审论文SAM 3的核心技术:数据引擎通过三级协同标注系统和歧义样本分级处理机制,高效构建高质量开放词汇分割数据集;记忆银行采用分层架构(短期/中期/长期)与时序感知的记忆检索更新算法,在视频中保障概念一致性。二者共同解决开放词汇语义歧义与跨帧目标漂移等关键技术瓶颈。
小波思基
324
下一代目标检测模型3B参数MLLM Rex-Omni首度超越Grounding DINO,统一10+视觉任务
IDEA研究院提出Rex-Omni,通过4-Token坐标编码和SFT+GRPO两阶段训练,解决MLLM定位不准与行为缺陷问题。在COCO、LVIS等零样本检测中超越传统模型,并统一支持10余项视觉任务,实现语言理解与几何感知融合。
模型启动机
1184
HAMMER框架:MLLM驱动的3D功能感知技术解析
HAMMER是一种基于多模态大语言模型(MLLM)的3D功能感知技术,实现从2D交互图像到3D点云的功能区域精准定位。其核心技术包括接触感知的意图嵌入提取、分层跨模态融合机制和多粒度几何增强模块,在PIADv2基准上aIOU达24.28%,显著优于GREAT。框架支持机器人抓取规划与AR辅助装配,具备强鲁棒性与工程适用性,并提供ROS集成与轻量化推理方案。
dfuw13072
332
DetToolChain: A New Prompting Paradigm to Unleash Detection Ability of MLLM论文解读
本文解读了DetToolChain相关论文,它是一种新提示范式,旨在释放MLLMs的零样本目标检测能力。其包含检测提示工具包和新思维链,可将任务分解、诊断结果和改进边界框。实验表明,使用DetToolChain的GPT - 4V在多项检测任务上性能显著提升。
tangjunjun-owen
1619
工业异常检测实战基于AnomalyR1的端到端MLLM解决方案
本文介绍了基于AnomalyR1的端到端多模态大语言模型(MLLM)在工业异常检测中的应用。针对传统方法在少样本、跨产线场景下的局限,AnomalyR1结合GRPO框架实现了高效泛化,仅需少量样本即可达到高准确率,并支持快速微调与迁移部署,适用于实际工业质检需求。
山野风524
387
(2026|SKLP & SCU & LongCat,监督微调,强化学习,精度门控的 GRPO,MLLM)IndusAgent利用 Agentic 工具强化开放词汇工业异常检测
EDPJ
376