多模态 RAG 发展:结合向量搜索与图搜索
RAG 不再局限于纯文本。到 2026 年初,最具发展势能来自多模态系统,它们将向量相似度与图关系结合,以提升准确性与可追溯性。
来自前线的信号
- 实现跨文本、图像与音频的统一检索。
- 将向量得分与图连接性融合的混合排序。
- 将检索质量视为核心产品指标。
技术要点
- 多嵌入策略:为不同模态使用独立 embedding,并保持对齐。
- 切分技术:图像使用区域级切分,文本使用语义切分。
- 混合检索:用基于图的关系增强向量检索结果。
- 来源透明:引用与溯源作为核心用户体验元素。
产品影响
- 通过更广泛的上下文获得更准确的回答。
- 通过关系图谱与知识图谱实现更好的探索能力。
- 在多样化知识资产上实现更强的企业搜索能力。
实施建议
- 及早对数据模态进行分类,并独立测试 embedding 方案。
- 为混合检索构建一个简单的 A/B 评估集。
- 将引用置于用户体验的中心位置。
总结
多模态 RAG 正成为基础能力。向量搜索与图搜索的融合正在把企业发现能力在 2026 年提升到新的水平。
