全球AI新闻头条 | 政策解读·巨头动向·融资快讯 - AI中国|教程|工具大全

列表

默认

浏览次数

发布时间

告别“扁平”AI！TesserAct 给AI装上4D大脑，让机器人真正看懂三维世界！

你是否注意到，那些让我们惊叹不已的AI虽然能写诗作画，却对我们生活的三维空间理解有限?当今大多数AI世界模型仍在二维平面中"思考"，它们能识别照片中的猫咪，却难以理解物体在空间中的位置、形状与深度。这种"二维诅咒"严重限制了AI，特别是机器人在现实世界中的应用能力。来自UMass Amherst、HKUST和哈佛的研究团队带来了突破性解决方案——TesserAct，一个真正能够理解四维世界的AI模

微软 Edge 浏览器免费上线 Copilot Vision 功能，AI 助手可实时解读屏幕内容

IT之家 4 月 17 日消息，微软人工智能首席执行官穆斯塔法・苏莱曼今天在 Bluesky 上宣布，微软的人工智能助手功能“Copilot Vision”现在可以在 Edge 浏览器中免费使用，该功能可以解读屏幕上的内容并帮助用户使用应用程序。据IT之家了解，“Copilot Vision”是一种“基于语音的体验”，用户可以通过语音指令与之交互。苏莱曼表示，当用户启用该功能时，“Copilot

文心大模型4.5Turbo

李彦宏将于25日在Create2025百度AI开发者大会发表首场演讲，揭示百度AI新动态

今日，百度创始人李彦宏的25年首场演讲海报正式曝光。根据海报信息，李彦宏将在4月25日的Create2025百度AI开发者大会上带来一场为期1小时的主题演讲，题为《模型的世界，应用的天下》。演讲内容将聚焦AI领域的热门议题，包括MCP、智能体、数字人、模型成本等，引发业界广泛关注。此次大会的亮点之一是李彦宏将正式发布百度AI的最新产品和业务进展。此前，百度已预告将在大会上推出文心大模型4.5Tur

OpenAI 揭秘 GPT-4.5 训练：10 万块 GPU，几乎全员上阵，出现“灾难性问题”

4 月 13 日消息，近日，在 OpenAI 史上最贵模型 GPT-4.5 发布 1 个多月后，OpenAI 联合创始人兼 CEO 萨姆・阿尔特曼（Sam Altman）与 GPT-4.5 的 3 位核心技术人员进行了一场 45 分钟的高信息量对谈，首次披露了这款模型研发耗时严重超期、计算集群频繁故障、提升路径难以预测等诸多不为人知的细节。GPT-4.5 项目启动于两年前，是 OpenAI 迄今

AI 齐来挑战“全球搜索一哥”，过去半年谷歌份额持续低于 90%

IT之家 5 月 8 日消息，据《华尔街日报》今日报道，苹果高级副总裁埃迪・库伊在美国司法部对谷歌的反垄断诉讼审理中作证时透露，在过去两个月里，用户通过 Safari 浏览器进行谷歌搜索的次数出现下降。他坦言，这种情况二十多年来从未发生过，并认为这是因为越来越多用户开始使用 ChatGPT 和 Perplexity 等生成式 AI 工具。消息曝光后，谷歌母公司 Alphabet 的股价当天重挫逾

文字转图像

设计师天又塌了！即梦3.0内测：可直出2K商业海报复杂场景、文字轻松拿捏

一觉醒来，设计师天塌了。即梦悄摸摸内测3.0模型。新模型在图像质量上有重大突破，通过简单的文字提示词即可生成细节丰富、品质卓越的图像作品。即梦3.0的核心优势在于其对复杂场景和细节的精准把控。通过输入简短的提示词，该模型能够在短时间内生成视觉效果极佳的图像，例如逼真的自然景观或精致的人物肖像。与前代版本相比，即梦3.0在场景布局、色彩搭配以及细节刻画上均有显著提升，甚至连细微的文字拼写和标志设计都

# AI项目和框架

GPT-image-1 – OpenAI 推出的最新图像生成模型

GPT-image-1是什么GPT-image-1是OpenAI推出的原生多模态图像生成模型，基于API向开发者开放使用。模型根据文本提示和图像生成高质量、专业级的图像，支持多种风格和自定义功能，如图像质量、尺寸、格式、压缩程度等。模型广泛应用在创意设计、电商、教育、营销等领域，例如将草图转化为图形、生成产品展示图、创建品牌视觉资产等。目前已经被包括 Adobe、Figma 在内等主流创意平台

退钱：美国教授用 ChatGPT 做讲义漏洞百出，学生讨还 8000 美元学费

5 月 16 日消息，自生成式人工智能技术爆火以来，许多高校教职人员担心学生借助该技术作弊。然而，近期学生对教授使用 AI 工具的不满也日益增多。美国东北大学今年的毕业生埃拉・斯特普尔顿（Ella Stapleton）在发现其教授利用 ChatGPT 辅助制作讲义后大为震惊，随即向学校提出正式投诉，并要求退还该课程的全部学费。斯特普尔顿在浏览商科教授里克・阿罗伍德（Rick Arrowood）的

AppleIntelligence

苹果 AI 太落伍？他们需要从对手那里“复制”这三个功能

回顾苹果在去年的 WWDC 上承诺推出的一系列 AI 功能，一年过去了，苹果似乎比去年 6 月时还要更加落后于竞争对手了。说苹果的“Apple Intelligence”计划发布得一团糟，实在算是轻描淡写。不过，我仍然抱有希望：再过几周，我们或许能看到一些新的功能（或者至少是某种战略方向），能让人感觉苹果还有机会迎头赶上。1：谷歌的 Notebook LM谷歌的 Notebook LM 支持自

武汉大学校长张平文：AI 不存在“过度使用”的问题，武大不会缩减文科

IT之家 5 月 16 日消息，据《长江日报》报道，在昨日的 2025 世界数字教育大会上，武汉大学校长张平文表示，人工智能是工具而非“洪水猛兽”，并不存在“过度使用”的问题，关键在于教师和教育模式需要适应新技术的出现。他表示，ChatGPT、DeepSeek 等 AI 大模型本质上是一种工具，和任何其他技术工具一样，目的都是为人类的学习和工作提供便利。但部分教师可能因为自身尚未适应，从而产生对

Unsloth发布Qwen3动态量化2.0版本，优化本地运行体验

Unsloth宣布推出Qwen3的动态量化2.0版本（Dynamic2.0Quants），为显存受限的用户提供了高效的本地运行解决方案。据AIbase了解，新版本通过改进的量化技术，在保持高准确度的同时显著降低显存需求，引发社交平台广泛关注。Unsloth还同步发布了详细的本地运行教程，强调温度(Temperature)参数设置的重要性，以避免推理循环问题。相关细节已通过Hugging Face(

全球最快推理速度模型！Qafind Labs 发布 ChatDLM 技术

近日，Qafind Labs发布了其最新研发的ChatDLM模型，这一创新成果在人工智能领域引起了广泛关注。ChatDLM是首个将“区块扩散（Block Diffusion）”和“专家混合(MoE)”深度融合的模型，其在GPU上实现了惊人的2，800tokens/s超高推理速度，支持131，072tokens的超大上下文窗口，开启了文档级生成和实时对话的新纪元。ChatDLM的核心亮点在于其独特的

PDF总结神器SmartPDFs上线上传秒出精炼总结，论文党感动哭！

5月7日，一款名为SmartPDFs的AI驱动PDF文档总结工具正式上线。该工具通过先进的AI技术，能够快速分析PDF文档内容，并生成简洁、分段的核心总结，为需要处理大量长篇PDF的用户提供了高效解决方案。SmartPDFs完全免费且开源，项目地址:https://github.com/nutlope/SmartPDFs。社交媒体反馈显示，该工具因其便捷性和实用性，已成为学生、研究人员及专业人士的

通用语言思维

Anthropic揭秘Claude“内心世界”：AI显微镜下的九大奇妙发现

近日，人工智能研究公司Anthropic发布了一项令人振奋的研究成果，通过其研发的“AI显微镜”技术，首次深入探索了旗下语言模型Claude的内部思考过程。这项研究不仅揭示了AI在处理信息时的复杂机制，还发现了九种令人意想不到的行为模式。这些发现如同打开了一扇窗，让我们得以窥见AI“思维”的温暖与奇妙，为未来构建更可靠、更透明的智能系统点亮了希望之光。首先，研究团队发现Claude拥有一种“通用语

MLX-LM与Hugging Face实现无缝集成，助力Apple Silicon设备高效运行大语言模型

近日，MLX-LM现已直接集成到Hugging Face平台。这一里程碑式的更新为Apple Silicon设备（包括M1、M2、M3和M4芯片）用户提供了前所未有的便利，使其能够以最高速度在本地运行超过4400种大型语言模型（LLM），无需依赖云服务或等待模型转换。这一集成进一步推动了本地化AI开发的普及，为开发者和研究人员提供了更高效、灵活的工具。MLX-LM与Hugging Face的深度融

“礼貌用语”太费钱？奥特曼：让 OpenAI 损失了数千万美元

有人指出，对诸如 ChatGPT 之类的 AI 聊天机器人使用 “拜托”、“谢谢” 等礼貌性的表达，从企业角度来看，可能会带来巨大的成本负担。站长之家(ChinaZ.com) 4月21日消息:据美国 IT 媒体《The Verge》报道，OpenAI 首席执行官山姆・奥尔特曼最近在社交平台 X（原推特）上回复一位用户的提问时称，“（对 AI 说话太礼貌）已经让 OpenAI 产生了数千万美元