欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。

新鲜AI产品点击了解:https://app.aibase.com/zh

1、谷歌Gemini 3.0 Pro开始小范围推送:强化推理能力,正式发布或在本月底

谷歌DeepMind团队开始向部分用户推送Gemini 3.0 Pro模型,该模型在推理能力和多模态处理上有所提升,并计划在10月底正式发布。

【AiBase提要:】

🧠 Gemini 3.0 Pro引入Deep Think推理架构,提升多步骤复杂任务处理能力。

🌐 支持文本、图像、音频和视频等多种输入格式,可生成完整前端代码。

🚀 谷歌计划推出轻量级Flash变体版本,满足移动设备和边缘计算需求。

2、百度发布全球领先文档解析模型 PaddleOCR-VL,重塑OCR技术格局!

百度发布的PaddleOCR-VL模型在文档解析领域表现出色,凭借其轻量高效、多语言支持和高精度识别能力,成为OCR技术的新标杆。

【AiBase提要:】

🌍 支持109种语言,适用于多种文档处理任务。

⚙️ 核心参数仅为0.9B,实现高效计算与精准识别。

🚀 推理速度显著提升,较其他主流模型表现更优。

3、AI视频公司爱诗科技完成1亿元B+轮融资:ARR突破4000万美元,用户超1亿

爱诗科技在AI视频生成领域取得了显著进展,完成了1亿元人民币的B+轮融资,并实现了ARR突破4000万美元和注册用户超过1亿的里程碑。其产品策略和技术创新为市场提供了强大的竞争力。

【AiBase提要:】

🚀 爱诗科技完成1亿元B+轮融资,显示出资本市场的认可与支持。

📈 年度经常性收入(ARR)突破4000万美元,用户数量达到1亿以上。

💡 技术创新不断,PixVerse V5版本提升生成效率和视频质量,引入Agent创作助手功能。

4、Anthropic 推出 Claude “skills” 功能,提升 AI 工作效率

Anthropic 推出了 Claude AI 的新功能 "skills",旨在增强 AI 在工作场景中的实用性。该功能通过文件夹形式提供指令、脚本和资源,使 Claude 能够更高效地处理特定任务,如 Excel 文档或品牌指南。用户还可以创建自定义技能,并在多个平台上使用。此功能与 OpenAI 的 AgentKit 相呼应,标志着 AI 行业向实用化迈进。

【AiBase提要:】

🌟 Anthropic 推出 Claude "skills" 功能,提升 AI 在工作中的实用性。

🛠️ 用户可以创建自定义技能,以便 Claude 更好地适应特定工作场景。

🚀 此举与 OpenAI 发布的 AgentKit 等新功能同步,显示 AI 行业持续向实用化迈进。

5、Pinterest推出AI内容限制工具:用户可自定义减少生成式AI图像

Pinterest推出了新的内容控制工具,允许用户限制信息流中AI生成内容的比例,以回应用户的不满情绪。该平台通过引入AI修改标签和提供用户可选的设置,试图在AI创新与用户体验之间取得平衡。

【AiBase提要:】

🖼️ 用户可以自定义减少生成式AI图像的显示比例。

🤖 Pinterest引入AI修改标签,用于标识AI生成内容。

🌐 Pinterest在平衡AI技术与用户体验之间寻求折中方案。

6、全面开源的 LLaVA-OneVision-1.5,超越 Qwen2.5-VL 的多模态模型登场

LLaVA-OneVision-1.5 是一款开源多模态模型,具有处理图像和视频等多种输入的能力,并在多个基准测试中表现出色,超越了 Qwen2.5-VL 模型。

【AiBase提要:】

🧠 LLaVA-OneVision-1.5 是一个全新的多模态模型,能够处理图像和视频等多种输入形式。

📈 训练过程分为三个阶段,旨在高效提升模型的视觉与语言理解能力。

🏆 在基准测试中,LLaVA-OneVision-1.5 表现优异,超越了 Qwen2.5-VL 模型。

详情链接:https://github.com/EvolvingLMMs-Lab/LLaVA-OneVision-1.5 https://huggingface.co/lmms-lab/LLaVA-OneVision-1.5-8B-Instruct

7、OpenAI视频生成模型Sora 2上线微软Azure平台:定价每秒0.1美元,进入公共预览阶段

微软宣布OpenAI的Sora2视频生成模型已在Azure AI Foundry国际版上线,进入公共预览阶段,标志着生成式AI视频工具开始商业化应用。

【AiBase提要:】

🎥 Sora2 是一款多模态视频生成模型,支持文本、图像和视频输入并生成新视频内容。

💰 定价为每秒0.1美元,采用按生成时长计费模式,适合企业用户批量使用。

🌐 Sora2 仅在Azure AI Foundry国际版上线,中国区用户暂时无法直接访问。

8、旅行搜索引擎Kayak推出 “AI 模式” 旅行规划与预订更便捷

Kayak推出了全新的 "AI 模式",通过内置聊天机器人帮助用户研究、规划和预订旅行。该功能利用ChatGPT技术提供更具上下文的搜索结果,并支持开放性问题以获取旅行建议。

【AiBase提要:】

🌍 Kayak推出 "AI 模式",让用户可以通过聊天机器人方便地规划和预订旅行。

🗣️ 该功能支持询问旅行建议和比较各种旅行服务,利用 ChatGPT 技术提供精准信息。

📅 "AI 模式" 初期仅支持英语,后续将扩展至更多语言及平台,并加入语音请求功能。