欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。
新鲜AI产品点击了解:https://app.aibase.com/zh
1、阿里巴巴发布紧凑型 Qwen3-VL 模型,推动多模态 AI 技术在边缘设备的应用
阿里巴巴近日正式发布了其紧凑型 Qwen3-VL 视觉语言模型系列,包括4亿和8亿参数的变体。这一新模型的推出,标志着先进的多模态 AI 技术正在朝着更广泛的边缘设备应用迈出重要一步,尤其是在资源受限的环境中。
【AiBase提要:】
💡阿里巴巴推出的 Qwen3-VL 模型有4亿和8亿参数的变体,适用于边缘设备和资源受限环境。
💡新模型在 STEM 推理、视觉问答、OCR 等领域表现优异,性能接近大型模型,显示出极高的参数效率。
💡紧凑型模型通过优化 VRAM 使用率,使其能在消费级硬件上运行,进一步推动 AI 的普及和应用。
地址:https://huggingface.co/collections/Qwen/qwen3-vl-68d2a7c1b8a8afce4ebd2dbe
2、科大讯飞AI翻译耳机全球首发,实时沟通无障碍!
科大讯飞全球首发AI翻译耳机,搭载最新升级的同传技术,支持60种语言实时翻译,并提供“声音复刻”等创新功能,旨在为全球用户带来更自然、流畅的跨语言交流体验。
【AiBase提要:】
🚀 AI同传技术升级: 体验更自然,告别翻译的机械和碎片感。
🗣️ 支持声音复刻: 用户能用自己的音色播报翻译结果,相似度高。
🌐 覆盖多语种场景: 可实时翻译60种语言,续航长达42小时。
3、笔记秒变动画片!谷歌NotebookLM接入图像AI帮你做视频
谷歌旗下的AI研究助手NotebookLM已集成先进的图像生成模型Nano Banana,使用户能够轻松地将复杂的笔记和文档一键转化为带有动态插图和旁白的视频,极大地提高了学习和内容创作的效率。
【AiBase提要:】
🖼️ 笔记秒转视频: 利用Nano Banana能力,自动为文本生成动态插图。
🎨 支持多种风格: 可选择水彩、动漫等六种视觉风格来生成视频。
⚡ 面向Pro用户: 此项功能已开始向Pro用户推送,提升创作效率。
4、ChatGPT放大招:12月起对成年人开放“特殊内容”!
OpenAI宣布,从今年12月开始,ChatGPT将同步上线年龄验证系统,允许通过验证的成年用户访问此前被限制的成人内容,同时还将推出自定义机器人交互风格的新功能,以实现产品理念从过度谨慎到差异化管理的转变。
【AiBase提要:】
🔓 内容限制将放宽: 十二月起开放成人内容访问权限。
🆔 配套验证机制: 必须通过年龄验证才能使用此功能。
🤖 新增自定义风格: 用户可自定义机器人的交互和个性。
5、 谷歌版Sora来了?Gemini代码惊现Veo3.1,视频生成要升级!
谷歌Gemini AI平台代码中发现了Veo3.1视频生成模型的免责声明和美国用户推广弹窗,强烈暗示这一支持更长视频时长和更高真实感的新模型即将发布,Google正加速追赶视频生成领域。
【AiBase提要:】
💻 代码库泄天机: Gemini底层代码中已集成Veo3.1免责声明。
⏱️ 支持更长视频: 新模型预计能生成长达一分钟的高保真视频。
🌍 发布有地域性: 模型推广工作已临近,但可能仅限在美国首发。
6、马斯克宣布:X平台本周将发布AI算法更新,信息流全面转向人工智能推荐
埃隆·马斯克宣布,社交媒体平台X将于本周晚些时候发布算法更新,实现完全人工智能推荐,并将于下月全面切换至由其AI模型Grok驱动的推荐系统,该系统每天将评估超过1亿条内容,旨在为用户提供更精准、更个性化的信息流体验。
【AiBase提要:】
🔄 全面转向AI推荐: 本周将发布算法更新,使信息流的改善完全归因于Grok等AI工具的使用。
🧠 Grok驱动核心系统: X平台将于下个月全面切换至由Grok驱动的AI推荐系统,并将发布新算法模型权重。
🎯 提升内容质量: 每天将有超过1亿条内容被Grok评估,以推荐用户最可能感兴趣的内容。
7、巨人网络联手清华大学首创DiaMoE-TTS,开源多方言语音合成大模型框架
巨人网络AI Lab与清华大学SATLab联合发布并开源了首创的DiaMoE-TTS多方言语音合成大模型框架,旨在解决现有方言TTS模型对巨量专有数据的依赖问题,推动方言语音合成技术的公平与普惠,并支持中文(如广东话、四川话、上海话)及多语种的方言合成。
【AiBase提要:】
🤝 合作与开源: 巨人网络AI Lab与清华大学电子工程系SATLab联合首创并宣布全方位开源DiaMoE-TTS框架的数据、代码和方法。
🛠️ 解决行业痛点: 针对现有方言TTS过度依赖巨量专有数据的困境,DiaMoE-TTS仅依赖开源方言ASR(自动语音识别)数据,具有更高的数据效率。
🌎 具备多语种可扩展性: 该框架在推出中文方言版本前,已在英语、法语、德语等多种语言上得到验证,具备全球范围内的多语言可扩展性。
8、vivo X200系列升级计划揭晓!新功能将引爆你的拍摄体验
vivo官方宣布了X200系列手机的影像和相册功能升级计划,将陆续推出“希区柯克变焦 Live Photo”、“舞台模式双视野录像”等创新拍摄功能。
【AiBase提要:】
🛠️Live Photo AI 路人消除: 允许用户圈选并消除路人,同时保留动态照片的完整性。
🛠️4K视频转Live Photo: 支持将4K视频进行时长截取、优化和裁剪,并以Live原格式保存。
🛠️编辑体验增强: 新增可逆化编辑和 LOG 视频色彩还原功能。
9、字节跳动开源FaceCLIP模型:文本驱动的高保真人脸生成技术正式上线
字节跳动在Hugging Face平台开源了FaceCLIP模型,这是一个文本驱动的高保真身份保持型人脸生成视觉-语言模型,用户可通过提供一张参考人脸和文本描述,生成保留原始身份特征并根据文本调整表情、姿态和风格的新人脸图像。
【AiBase提要:】
🛠️身份保持型生成: FaceCLIP的核心优势是能够根据文本提示(Text Prompt)生成人脸图像,同时保持输入参考人脸的身份一致性。
🛠️核心技术创新: 模型采用多模态编码策略,同步捕获身份信息和文本语义,实现了深度融合,并摒弃了传统的适配器模块。
🛠️版本与架构: 提供了基于FaceCLIP-SDXL和FaceT5-FLUX的两个主要版本,其中FaceT5-FLUX版本集成了FaceT5编码器,增强了文本到图像的转换精度。