AI热点 7 months ago • 168 Views • 0 Comments

0.3B，谷歌开源新模型，手机断网也能跑，0.2GB内存就够用

智东西

智东西

Published 347 Articles

智东西9月5日消息，今天，谷歌开源一款全新的开放式嵌入模型EmbeddingGemma。该模型以小博大，拥有3.08亿个参数，专为端侧AI设计，支持在笔记本、手机等设备上部署检索增强生成（RAG）、语义搜索等应用程序。

EmbeddingGemma的一大特征是能生成隐私性良好的高质量嵌入向量，即使在断网情况下也能正常运行，且性能直追尺寸翻倍的Qwen-Embedding-0.6B。

▲Hugging Face开源页面截图

Hugging Face地址： https://huggingface.co/collections/google/embeddinggemma-68b9ae3a72a82f0562a80dc4

据谷歌介绍，EmbeddingGemma具有以下几大亮点：

1、同类最佳：在海量文本嵌入基准（MTEB）上，在500M以下的开放式多语言文本嵌入模型中，EmbeddingGemma排名最高。EmbeddingGemma基于Gemma 3架构打造，已针对100多种语言进行训练，并且体积小巧，经过量化后可在不到200MB的内存上运行。

▲MTEB评分：EmbeddingGemma性能比肩比起尺寸大一倍的顶尖模型

2、专为灵活离线工作而设计：小巧、快速、高效，提供可自定义的输出尺寸，以及2K令牌上下文窗口，可在手机、笔记本电脑、台式机等日常设备上运行。它旨在与Gemma 3n配合使用，共同为移动RAG管道、语义搜索等解锁新的用例。

3、与流行工具集成：为了让用户轻松开始使用EmbeddingGemma，它已经可以与用户喜欢的工具一起使用，例如sentence-transformers、llama.cpp、MLX、Ollama、LiteRT、transformers.js、LMStudio、Weaviate、Cloudflare、LlamaIndex、LangChain等。

01.可生成优质嵌入向量，端侧RAG生成答案更准确

EmbeddingGemma会生成嵌入向量，在本文语境中，它能将文本转换为数值向量，在高维空间表征文本语义；嵌入向量质量越高，对语言细微差别与复杂特性的表征效果越好。

▲EmbeddingGemma会生成嵌入向量

构建RAG流程存在两个关键阶段：一是根据用户输入检索相关上下文，二是基于该上下文生成有依据的答案。

为实现检索功能，用户可以先生成提示词的嵌入向量，再计算该向量与系统中所有文档嵌入向量的相似度——通过这种方式，能够获取与用户查询最相关的文本片段。

随后，用户可将这些文本片段与原始查询一同输入生成式模型（如Gemma 3），从而生成符合上下文的相关答案。例如，模型能理解你需要联系木工的电话，以解决地板损坏的问题。

要让这个RAG流程切实有效，初始检索步骤的质量至关重要。质量不佳的嵌入向量会导致检索到不相关的文档，进而生成不准确或毫无意义的答案。

而EmbeddingGemma的性能优势正体现于此——它能提供高质量的（文本）表征，为精准、可靠的端侧应用提供核心支持。

02.以小博大，性能接近尺寸翻倍的Qwen-Embedding-0.6B

EmbeddingGemma提供了与其规模相适应的最先进的文本理解能力，在多语言嵌入生成方面具有特别强大的性能。

与其他流行嵌入模型的比较，EmbeddingGemma在检索、分类和聚类等任务上表现出色。

EmbeddingGemma在Mean（Task）、Retrieval、Classification、Clustering等测试中全面赶超了同等尺寸的gte-multilingual-base模型。其测试成绩也已接近尺寸达到其两倍的Qwen-Embedding-0.6B。

▲EmbeddingGemma的测评情况

EmbeddingGemma模型拥有308M参数，主要由大约100M模型参数和200M嵌入参数组成。

为了实现更高的灵活性，EmbeddingGemma利用Matryoshka表征学习（MRL），在一个模型中提供多种嵌入大小。开发者可以使用完整的768维向量以获得最佳质量，也可以将其截断为较小的维度（128、256或512），以提高速度并降低存储成本。

谷歌在EdgeTPU上将嵌入推理时间（256个输入token）缩短至<15ms>

利用量化感知训练（QAT），谷歌在保持模型质量的同时，显著将RAM使用量降低至200MB以下。

03.断网可用，可在不到200MB内存上运行

EmbeddingGemma支持开发者构建灵活且注重隐私的设备端应用。它直接在设备硬件上生成文档嵌入，帮助确保敏感用户数据的安全。

它使用与Gemma 3n相同的分词器进行文本处理，从而减少RAG应用的内存占用。用户可使用EmbeddingGemma解锁新功能，例如：

无需联网即可同时搜索个人文件、文本、电子邮件和通知。

通过RAG与Gemma 3n实现个性化、行业特定和离线支持的聊天机器人。

将用户查询分类到相关的函数调用，以帮助移动智能体理解（用户需求）。

下图为EmbeddingGemma的交互式演示，它将文本嵌入在三维空间中可视化，该模型完全在设备上运行。

▲EmbeddingGemma的交互式演示（图源：Hugging Face团队的Joshua）

Demo体验地址：https://huggingface.co/spaces/webml-community/semantic-galaxy）

04.结语：小尺寸大能力，加速端侧智能发展

EmbeddingGemma的推出标志着谷歌在小型化、多语言和端侧AI上的新突破。它不仅在性能上接近更大规模的模型，还兼顾了速度、内存和隐私的平衡。

未来，随着RAG、语义搜索等应用不断下沉至个人设备，EmbeddingGemma或将成为推动端侧智能普及的重要基石。

本文来自微信公众号 “智东西”（ID：zhidxcom），作者：李水青，36氪经授权发布。

智东西

智东西

347 Articles 55589 Views 0 Fans

Comment (0)

Chapter

1. GPT-4简介与注册指南

1.1 账号注册步骤

Recommended Articles

速抢（2核2G）77元/年香港免备案服务器

速抢（2核2G）77元/年香港免备案服务器

0 seconds ago • AI热点

用户破8亿！GPT-5.1来了，表情包含量可自定义

用户破8亿！GPT-5.1来了，表情包含量可自定义

5 months ago • AI热点

发布即开放：百度猎户座葫芦里卖的什么药？

发布即开放：百度猎户座葫芦里卖的什么药？

5 months ago • AI热点

李飞飞的世界模型来了！一句话生成3D世界，AI 真的开始理解现实了

李飞飞的世界模型来了！一句话生成3D世界，AI 真的开始理解现实了

5 months ago • AI热点

科技巨头「偷偷借钱」搞AI，次贷危机魅影重现？

科技巨头「偷偷借钱」搞AI，次贷危机魅影重现？

5 months ago • AI热点

腾讯总裁剧透微信搭载智能体！阿里和谷歌也都开始互相伤害了

腾讯总裁剧透微信搭载智能体！阿里和谷歌也都开始互相伤害了

5 months ago • AI热点

AIGC大模型能力提升10倍！安谋科技Arm China掏出最强NPU IP大招

AIGC大模型能力提升10倍！安谋科技Arm China掏出最强NPU IP大招

5 months ago • AI热点

小鹏物理AI的尽头，是马斯克的现金流

小鹏物理AI的尽头，是马斯克的现金流

5 months ago • AI热点

Popular Tags

Substance 3D Designe 哪吒2 Figure Blackwell AI技术教育 Claude Research World Labs 腾讯ARC实验室 AI养生视频 AI虚拟社交

Popular Authors

AI中国

AI中国

11569 Articles 95.03万 Followers

钛媒体APP

钛媒体APP

1489 Articles 0 Followers

IT之家

IT之家

1221 Articles 5.64K Followers

人人都是产品经理

人人都是产品经理

1210 Articles 5.87万 Followers

AIbase基地

AIbase基地

1093 Articles 9.63万 Followers