# AI工具 # AI项目和框架 UniTok – 字节联合港大、华中科技推出的统一视觉分词器 133 0 UniTok是什么UniTok 是字节跳动联合香港大学和华中科技大学推出的统一视觉分词器,能同时支持视觉生成和理解任务。基于多码本量化技术,将视觉特征分割成多个小块,每块用独立的子码本进行量化,极大地扩展离散分词的表示能力,解决传统分词器在细节捕捉和语义理解之间的矛盾。UniTok 在 ImageNet 上的零样本分类准确率达到 78.6%,重建质量(rFID)仅为 0.38,显著优于现有分词
阿里开源多模态模型Qwen2.5-Omni:显存大幅降低暴降 50% 133 0 在开源大模型的竞争中,阿里巴巴推出了其最新的多模态模型 Qwen2.5-Omni-3B。这款模型的显著特点是显存使用减少了50%,在同等处理能力下,更加适合普通消费者的 GPU 设备。这一创新标志着阿里在多模态人工智能领域的进一步突破。Qwen2.5-Omni 是一款端到端的多模态模型,能够同时处理文本、图像、音频和视频等多种信息类型。得益于其独特的 “Thinker-Talker” 架构,模型能
4o模型 OpenAI 自定义GPTs AI图像生成 OpenAI 4o图像生成支持自定义GPTs,个性化AI创作再升级 133 0 近日,OpenAI宣布其最新4o模型的图像生成功能将支持自定义GPTs,为用户提供更灵活的个性化AI创作体验。据AIbase了解,这一更新允许开发者与用户基于4o模型构建定制化的GPTs,生成符合特定需求的高质量图像内容。消息一经发布,便引发了AI社区的广泛讨论,标志着OpenAI在个性化AI工具领域的又一重要进展。相关技术细节已在OpenAI官方平台披露,预计很快将向用户全面开放。核心亮点:个性
AI搜索 Netflix OpenAI 自然语言搜索 Netflix推全新 AI 搜索功能,用户可通过自然语言搜索 133 0 Netflix 近日开始测试一项全新的 AI 搜索功能,这一功能基于 OpenAI 的技术,旨在提升用户在流媒体平台上的内容发现体验。用户将能够通过自然语言来搜索影片,不再局限于传统的按类型或演员进行搜索。据彭博社的报道,这项新功能能够理解用户更具体的需求,包括他们的观影心情。例如,用户可以直接表达想要观看 “轻松搞笑的电影” 或者 “适合晚上一个人看的恐怖片”,系统将根据这些描述推荐相应的内容。
ChatGPT Android应用新增语音模式字幕功能,提升交互体验 133 0 ChatGPT Android应用迎来重要更新,新增语音模式字幕功能。用户现可通过点击界面上的“三点”菜单并选择“显示字幕”选项,在语音交互时实时查看对话的文本转录。这一功能显著提升了语音模式的易用性和可访问性,尤其适合嘈杂环境或听力受限用户。AIbase观察到,此更新进一步优化了ChatGPT在移动端的用户体验,巩固了其在AI语音交互领域的领先地位。操作简便,字幕无缝集成新上线的字幕功能操作极为
3 张照片 → 全景 3D:苹果携手推出革命性 AI 模型 Matrix3D,简化 3D 重建过程 133 0 IT之家 5 月 14 日消息,科技媒体 9to5Mac 昨日(5 月 13 日)发布博文,报道称苹果机器学习团队携手南京大学和香港科技大学,推出名为 Matrix3D 的 3D AI 模型,专注于从少数 2D 照片中重建真实世界的物体和场景。用户只需提供几张图像,模型就能自动生成高质量的 3D 输出。这不仅简化了操作,还为应用领域打开了新机遇,进一步推动了 AI 领域的协作。摄影测量技术利用照
消息称腾讯重构混元大模型研发体系,加大 AI 投入 133 0 IT之家 4 月 29 日消息,据界面新闻报道,腾讯对其混元大模型研发体系进行了全面重组,主要围绕算力、算法和数据三大核心板块展开,通过优化团队部署和加码研发投入,推动混元大模型的持续发展。据报道,腾讯此次调整后成立了两个新的部门:大语言模型部和多模态模型部,分别负责探索大语言模型和多模态大模型的前沿技术,持续迭代基础模型,提升模型能力。同时进一步加强大模型数据能力和平台底座建设,其中数据平台部
生成式AI Similarweb ChatGPT 代码完成工具 2025 年 3 月生成式AI全球市场趋势报告分析 133 0 根据Similarweb投资者情报报告(截至2025年3月28日)的全面数据,以下是当前生成式AI市场在各个领域的详细分析。整体AI市场趋势AI工具市场经历了显著增长,在截至2025年3月28日的12周期间内同比增长了45%。这比2025年3月中旬记录的20%增长有了实质性提升,表明市场正在快速扩张。最引人注目的是两个领域表现出了卓越的增长:1、开发运维与代码完成工具显示出惊人的125%同比增长2
CoreWeave与OpenAI达成40亿美元云计算协议,合约延续至2029年 133 0 在云计算领域,CoreWeave 最近与 OpenAI 签署了一项重磅协议,价值高40亿美元。根据这项协议,CoreWeave 将为 Open 提供持续的云计算能力,合同的有效期将一直延续到2029年4月。这一举动不仅表明了 CoreWeave 在云计算市场中的重要性,也显示出 OpenAI 对强大计算资源的持续需求。作为一家专注于提供高性能计算解决方案的公司,CoreWeave 的云计算能力将为
企业检索增强生成(RAG) CohereEmbed4 嵌入模型 代理型AI Cohere 推出 Embed 4:全新多模式搜索模型可处理 200 页文档 133 0 在代理型 AI 热潮持续升温之际,企业检索增强生成 (RAG) 依然扮演着至关重要的角色。近日,紧抓市场对代理日益增长的兴趣,专注于企业级 AI 应用的 Cohere 发布了其最新嵌入模型 Embed 4。该模型在 Embed 3 的多模态能力基础上进行了显著增强,尤其在处理非结构化数据方面表现突出,并拥有高达 128,000 个 token 的超长上下文窗口,理论上能够为约 200 页的文档生成
谷歌“AI 笔记神器”NotebookLM 将推视频概述:洞察用户数据转换为视频 133 0 IT之家 5 月 10 日消息,科技媒体 Android Authority 今天(5 月 10 日)发布博文,报道称谷歌“AI 笔记神器”NotebookLM 正测试视频概览(Video Overviews)功能,可能借助其先进的 Veo 2 视频生成模型,将用户数据转换为视频。NotebookLM 是谷歌旗下的一款 AI 笔记和研究助手工具,其中音频概览(Audio Overviews)功能
三星 Galaxy A 系列迎来 AI 助手新功能,侧键一键唤醒 Gemini 133 0 在数字化浪潮的推动下,三星电子于4月29日宣布,将在5月初为部分 Galaxy A 系列手机推送一项激动人心的软件更新。这项更新将为 Galaxy A565G、A365G 及 A265G 等机型带来全新的功能:用户只需长按侧边按钮,即可迅速启动谷歌的 Gemini 人工智能助手,从而提高日常任务处理的效率。这一功能的推出,旨在为用户提供更加便捷的操作体验。随着智能手机逐渐成为人们生活中不可或缺的工
AI竞争 技术战 人才争夺 顶尖人才 阿里通义成了AI的“黄埔军校”? 133 0 声明:本文来自于微信公众号 硅星人Pro,作者:summer,授权站长之家转载发布。AI之争,既是技术战,也是人才战。随着AI决赛圈逐渐收窄,头部玩家对顶尖人才的渴求也达到了新的高度。从去年开始,各大科技巨头就纷纷调整战略,加大了人才招揽的力度:腾讯的“青云计划”以“业界Top0级别薪资”和“不设职级上限”吸引顶尖人才,并计划新增2.8万实习岗位以充实后备力量;字节跳动则启动“Top Seed
湖北科技企业 人工智能 公司注册信息 软件开发 科大讯飞等在湖北成立两家新公司 均涉及AI人工智能 133 0 据天眼查App平台最新工商信息显示,近日湖北地区新增两家科技企业——湖北小雅科技有限公司与湖北讯源信息科技有限公司,其企业注册信息已通过公开渠道披露。湖北小雅科技有限公司注册资本5000万元人民币,法定代表人为聂小林,经营范围涵盖人工智能应用软件开发、基础软件开发及理论与算法研究等细分领域。股东结构显示,该公司由科大讯飞旗下子公司讯飞华中(武汉)有限公司联合武汉博成众智科技投资合伙企业(有限合
AI机器人 人工智能发展 亚马逊AI 亚马逊GO 在由人类创造的“AI驱动”的世界里,人类该何去何从? 133 0 在人类如何融入他们所创造的由 AI 驱动的世界这一问题上,科技界似乎存在两种观点:要么他们认为,除了他们自己的工作之外,其他所有工作都将由机器人来完成 —— 风险投资人马克・安德森似乎认为,他作为投资者的工作永远不可能实现自动化。要么他们认为,机器人将承担那些令人讨厌、枯燥的工作,在工作中充当人类的助手,而人类则从事由机器人革命所创造的全新工作。从历史证据来看,后一种观点得到了最多的支持。世界
通义灵码接入Qwen3:上线编程智能体 集成魔搭MCP广场 133 0 通义灵码团队宣布其编程智能体全面支持Qwen3,并上线了全新的编程智能体功能。这一智能体具备自主决策、环境感知和工具使用等能力,能够根据开发者的诉求,使用工程检索、文件编辑、终端等工具,端到端地完成编码任务。此外,通义灵码还支持开发者配置自己的MCP工具,更加贴合开发者的工作流程,并集成魔搭MCP广场,开发者可以一键下载MCP服务。通义灵码的编程智能体提供了多种会话模式,包括问答模式、文件编辑模式