标准会员
过期时间
会员积分 0
还没有账号? 立即注册
已有账号? 立即登录
95.03万
粉丝
11569
文章
214.41万
总浏览
5
平均评分
AI领域资深专家
用树莓派安装语音唤醒环境,模型是这个CTC语音唤醒-移动端-单麦-16k-小云小云,但是在推理的时候报错了。$ conda create -n modelscope python=3.7$ conda activate modelscope$ pip install torch torchvision torchaudio$ pip install "modelscope[audio]"
❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日跟你分享最新的 AI 资讯和开源应用,也会不定期分享自己的想法和开源实例,欢迎关注我哦!🥦 微信公众号|搜一搜:蚝油菜花 🥦🚀 快速阅读多功能集成:Voice-Pro集成了语音转文字、文本转语音、实时翻译、YouTube视频下载和人声分离等多种功能。多语言支持:支持超过100种语言,适用于教育、娱乐和商业等
我在使用开源的模型(像speech_sambert-hifigan_tts_zhida_zh-cn_16k)进行语音合成任务的推理时(使用官方示例代码的pipeline推理),推理速度太慢了,500字大约需要1分钟,监控了一下GPU,虽然有GPU,但实际推理时还是CPU占用率很高,应该是没有用到GPU,我看pipeline使用时应该会首选GPU,GPU不能用时才使用CPU,我用的都是官方环境和机
Firesearch是什么Firesearch 是 Mendable AI 团队推出的 AI 驱动的深度研究工具。基于 Firecrawl 多源网络内容提取技术,结合 OpenAI GPT-4o 的搜索规划和内容生成能力,将复杂的查询分解为多个子问题,分别进行搜索和内容提取。Firesearch 支持实时进度更新、答案验证(置信度 0.7 以上)、自动重试、完整引用和上下文记忆等功能,帮助用户
OCode是什么OCode 是终端原生 AI 编程助手,为开发者提供深度代码库智能和自动任务执行功能。与本地 Ollama 模型无缝集成,将企业级 AI 辅助直接融入开发流程中。终端原生工作流,能直接在你的 shell 环境中运行;深度代码库智能,可自动映射并理解整个项目;自动任务执行,能端到端处理多步骤开发任务;可扩展的插件层,通过模型上下文协议(MCP)启用第三方集成,帮助开发者提高编程效
Jaaz是什么Jaaz 是开源的AI设计Agent,本地免费 Lovart 平替项目。具备强大的 AI 设计能力,能智能生成设计提示,批量生成图像、海报、故事板等。Jaaz 支持 Ollama、Stable Diffusion、Flux Dev 等本地图像和语言模型,实现免费的图像生成。用户可以通过 GPT-4o、Flux Kontext 等技术,在对话中编辑图像,进行对象移除、风格转换等操作
VRAG-RL是什么VRAG-RL是阿里巴巴通义大模型团队推出的视觉感知驱动的多模态RAG推理框架,专注于提升视觉语言模型(VLMs)在处理视觉丰富信息时的检索、推理和理解能力。基于定义视觉感知动作空间,让模型能从粗粒度到细粒度逐步获取信息,更有效地激活模型的推理能力。VRAG-RL引入综合奖励机制,结合检索效率和基于模型的结果奖励,优化模型的检索和生成能力。在多个基准测试中,VRAG-RL显
TrackVLA是什么TrackVLA是银河通用推出的产品级端到端导航大模型。模型具备纯视觉环境感知、语言指令驱动、自主推理和零样本泛化能力,能实现从视觉感知到动作输出的全链路闭环。无需提前建图,在复杂环境中自主导航、灵活避障,根据自然语言指令识别和跟踪目标对象。TrackVLA让机器人在真实场景中展现出强大的自主性和智能交互能力,为具身智能的商业化落地提供重要支撑,推动机器人从实验室走向日常
TEN VAD是什么TEN VAD 是高性能的实时语音活动检测系统,专为企业级应用设计。TEN VAD能精确地检测音频流中的语音活动,具有低延迟、轻量级和高精度的特点。TEN VAD 基于先进的 AI 技术,如深度学习模型,快速区分语音和非语音信号,显著降低对话系统的响应延迟。TEN VAD支持多种平台(如 Linux、Windows、macOS、Android 和 iOS),提供 Pytho
DeepEyes是什么DeepEyes 是小红书团队和西安交通大学联合推出的多模态深度思考模型。基于端到端强化学习,实现类似 OpenAI o3 的“用图思考”能力,无需依赖监督微调(SFT)。DeepEyes 在推理过程中动态调用图像工具,如裁剪和缩放,增强对细节的感知与理解。模型在视觉推理基准测试 V* Bench 上准确率高达 90.1%,展现出强大的视觉搜索和多模态推理能力。DeepE