CLIP_什么值得买

纯文本大模型如何进化为多模态大模型？【LLaVA图文拼接术】

纯文本大模型如何进化为多模态大模型？【LLaVA图文拼接术】

源自UP主: AI扫地曾

2026预训练模型GPU租用平台推荐：实测对比与选型指南

2026预训练模型GPU租用平台推荐：实测对比与选型指南

值友1736120759

多模态大语言模型语义理解面经

多模态大语言模型语义理解面经

源自小红薯: 再睡十分钟

多模态到通用感知，第九章罗塞塔石碑：CLIP 与 SigLIP 的对齐艺术

多模态到通用感知，第九章罗塞塔石碑：CLIP 与 SigLIP 的对齐艺术

源自知乎: 北方的郎

多模态大模型是否一定要用CLIP作为Vision encoder？

多模态大模型是否一定要用CLIP作为Vision encoder？

源自知乎: 烛之文

新手入门！10分钟吃透CLIP多模态核心：从公式拆解到手写数字零样本分类（附服务器可跑全代码）

新手入门！10分钟吃透CLIP多模态核心：从公式拆解到手写数字零样本分类（附服务器可跑全代码）

源自知乎: 机器学习ing

LLM2CLIP：大语言模型驱动的跨模态新范式

LLM2CLIP：大语言模型驱动的跨模态新范式

源自小红薯: 微软亚洲研究院

Vision Transformer：打破垄断的视觉模型新范式

Vision Transformer：打破垄断的视觉模型新范式

源自抖音: 众创AI

谁能讲解下扩散模型中Unet的注意力机制？

谁能讲解下扩散模型中Unet的注意力机制？

源自知乎: 叫我Alonzo就好了

图文多模态大模型，视觉backbone一般用什么？

图文多模态大模型，视觉backbone一般用什么？

源自知乎: 叫我Alonzo就好了

Embeddings和向量数据库嵌入将数据转化为捕捉语义的多维向量，使计算机能通过数学距离理解概念关联。向量数据库利用HNSW等索引算法实现高效的相似性搜索，避免暴力计算。两者结合支撑了语义检索、RAG及推荐系统，将抽象意义转化为可在大规模数据中检索的几何坐标。
#大模型 #embedding #rag #向量数据库

Embeddings和向量数据库嵌入将数据转化为捕捉语义的多维向量，使计算机能通过数学距离理解概念关联。向量数据库利用HNSW等索引算法实现高效的相似性搜索，避免暴力计算。两者结合支撑了语义检索、RAG及推荐系统，将抽象意义转化为可在大规模数据中检索的几何坐标。 #大模型 #embedding #rag #向量数据库

源自抖音: 一蛙AI

CLIP如何成为多模态的眼睛？

CLIP如何成为多模态的眼睛？

源自UP主: AI扫地曾

AAAI 2026 杰出论文 | 同济&微软等提出 LLM2CLIP：补足 CLIP 难以处理长文本的遗憾

AAAI 2026 杰出论文 | 同济&微软等提出 LLM2CLIP：补足 CLIP 难以处理长文本的遗憾

源自公众号: 我爱计算机视觉

CVPR 2026 Findings | CoPS：让 CLIP 根据图像“现场合成”提示词，迈向更强的零样本异常检测

CVPR 2026 Findings | CoPS：让 CLIP 根据图像“现场合成”提示词，迈向更强的零样本异常检测

源自知乎: 我爱计算机视觉

为什么CLIP等基础模型的评估都采用小样本？

为什么CLIP等基础模型的评估都采用小样本？

源自知乎: 陈昊

985专家讲AI（二十二）多模态大模型原理（五）：Transformer和ViT在多模态模型CLIP中的应用

985专家讲AI（二十二）多模态大模型原理（五）：Transformer和ViT在多模态模型CLIP中的应用

源自UP主: 海波老师-电子科大

超越CLIP，北大开源细粒度视觉识别大模型，每类识别训练仅需4张图像

超越CLIP，北大开源细粒度视觉识别大模型，每类识别训练仅需4张图像

源自今日头条: 36氪

不脱产CV转多模态大模型，第1个月都做了什么

不脱产CV转多模态大模型，第1个月都做了什么

源自小红薯: 一个算法工程师

DeepSeek 又出神作！ AI 的眼睛比脑子更好使

DeepSeek 又出神作！ AI 的眼睛比脑子更好使

源自小红薯: 小大熊猫看AI

TiFRe：文本引导帧裁剪，高效多模态视频理解

TiFRe：文本引导帧裁剪，高效多模态视频理解

源自小红薯: Python 智能研习社