AI中国AI中国 - 的主页

图文教程 1年前

kws_util 下载不了

用树莓派安装语音唤醒环境，模型是这个CTC语音唤醒-移动端-单麦-16k-小云小云，但是在推理的时候报错了。$ conda create -n modelscope python=3.7$ conda activate modelscope$ pip install torch torchvision torchaudio$ pip install "modelscope[audio]"

AI中国

295 0

图文教程 1年前

Voice-Pro：开源AI音频处理工具，集成转录、翻译、TTS等一站式服务

❤️ 如果你也关注 AI 的发展现状，且对 AI 应用开发非常感兴趣，我会每日跟你分享最新的 AI 资讯和开源应用，也会不定期分享自己的想法和开源实例，欢迎关注我哦！🥦 微信公众号｜搜一搜：蚝油菜花 🥦🚀 快速阅读多功能集成：Voice-Pro集成了语音转文字、文本转语音、实时翻译、YouTube视频下载和人声分离等多种功能。多语言支持：支持超过100种语言，适用于教育、娱乐和商业等

AI中国

245 12

图文教程 1年前

使用开源的模型（像speech_sambert-hifigan_tts_zhida_zh-cn_16k）进行语音合成任务的推理时，推理速度太慢了，500字大约需要1分钟，为什么会这么慢

我在使用开源的模型（像speech_sambert-hifigan_tts_zhida_zh-cn_16k）进行语音合成任务的推理时(使用官方示例代码的pipeline推理)，推理速度太慢了，500字大约需要1分钟，监控了一下GPU，虽然有GPU，但实际推理时还是CPU占用率很高，应该是没有用到GPU，我看pipeline使用时应该会首选GPU，GPU不能用时才使用CPU，我用的都是官方环境和机

AI中国

263 0

AI热点 1年前

Firesearch – Mendable AI推出的AI深度研究工具

Firesearch是什么Firesearch 是 Mendable AI 团队推出的 AI 驱动的深度研究工具。基于 Firecrawl 多源网络内容提取技术，结合 OpenAI GPT-4o 的搜索规划和内容生成能力，将复杂的查询分解为多个子问题，分别进行搜索和内容提取。Firesearch 支持实时进度更新、答案验证（置信度 0.7 以上）、自动重试、完整引用和上下文记忆等功能，帮助用户

AI中国

355 0

AI热点 1年前

OCode – 终端原生AI编程助手，直接在shell环境中运行

OCode是什么OCode 是终端原生 AI 编程助手，为开发者提供深度代码库智能和自动任务执行功能。与本地 Ollama 模型无缝集成，将企业级 AI 辅助直接融入开发流程中。终端原生工作流，能直接在你的 shell 环境中运行；深度代码库智能，可自动映射并理解整个项目；自动任务执行，能端到端处理多步骤开发任务；可扩展的插件层，通过模型上下文协议（MCP）启用第三方集成，帮助开发者提高编程效

AI中国

155 0

AI热点 1年前

Jaaz – 开源的AI设计Agent，本地免费Lovart平替项目

Jaaz是什么Jaaz 是开源的AI设计Agent，本地免费 Lovart 平替项目。具备强大的 AI 设计能力，能智能生成设计提示，批量生成图像、海报、故事板等。Jaaz 支持 Ollama、Stable Diffusion、Flux Dev 等本地图像和语言模型，实现免费的图像生成。用户可以通过 GPT-4o、Flux Kontext 等技术，在对话中编辑图像，进行对象移除、风格转换等操作

AI中国

286 0

AI热点 1年前

VRAG-RL – 阿里通义推出的多模态RAG推理框架

VRAG-RL是什么VRAG-RL是阿里巴巴通义大模型团队推出的视觉感知驱动的多模态RAG推理框架，专注于提升视觉语言模型（VLMs）在处理视觉丰富信息时的检索、推理和理解能力。基于定义视觉感知动作空间，让模型能从粗粒度到细粒度逐步获取信息，更有效地激活模型的推理能力。VRAG-RL引入综合奖励机制，结合检索效率和基于模型的结果奖励，优化模型的检索和生成能力。在多个基准测试中，VRAG-RL显

AI中国

167 0

AI热点 1年前

TrackVLA – 银河通用推出的纯视觉端到端导航大模型

TrackVLA是什么TrackVLA是银河通用推出的产品级端到端导航大模型。模型具备纯视觉环境感知、语言指令驱动、自主推理和零样本泛化能力，能实现从视觉感知到动作输出的全链路闭环。无需提前建图，在复杂环境中自主导航、灵活避障，根据自然语言指令识别和跟踪目标对象。TrackVLA让机器人在真实场景中展现出强大的自主性和智能交互能力，为具身智能的商业化落地提供重要支撑，推动机器人从实验室走向日常

AI中国

226 11

AI热点 1年前

TEN VAD – AI实时语音活动检测系统，低延迟、轻量级、高精度

TEN VAD是什么TEN VAD 是高性能的实时语音活动检测系统，专为企业级应用设计。TEN VAD能精确地检测音频流中的语音活动，具有低延迟、轻量级和高精度的特点。TEN VAD 基于先进的 AI 技术，如深度学习模型，快速区分语音和非语音信号，显著降低对话系统的响应延迟。TEN VAD支持多种平台（如 Linux、Windows、macOS、Android 和 iOS），提供 Pytho

AI中国

225 0

AI热点 1年前

DeepEyes – 小红书联合西安交大推出的多模态深度思考模型

DeepEyes是什么DeepEyes 是小红书团队和西安交通大学联合推出的多模态深度思考模型。基于端到端强化学习，实现类似 OpenAI o3 的“用图思考”能力，无需依赖监督微调（SFT）。DeepEyes 在推理过程中动态调用图像工具，如裁剪和缩放，增强对细节的感知与理解。模型在视觉推理基准测试 V* Bench 上准确率高达 90.1%，展现出强大的视觉搜索和多模态推理能力。DeepE

AI中国

159 0

登录账号

AI中国

关于我

热门文章

kws_util 下载不了

Voice-Pro：开源AI音频处理工具，集成转录、翻译、TTS等一站式服务

使用开源的模型（像speech_sambert-hifigan_tts_zhida_zh-cn_16k）进行语音合成任务的推理时，推理速度太慢了，500字大约需要1分钟，为什么会这么慢

Firesearch – Mendable AI推出的AI深度研究工具

OCode – 终端原生AI编程助手，直接在shell环境中运行

Jaaz – 开源的AI设计Agent，本地免费Lovart平替项目

VRAG-RL – 阿里通义推出的多模态RAG推理框架

TrackVLA – 银河通用推出的纯视觉端到端导航大模型

TEN VAD – AI实时语音活动检测系统，低延迟、轻量级、高精度

DeepEyes – 小红书联合西安交大推出的多模态深度思考模型

登录账号

AI中国

关于我

热门文章

为您推荐