研究称,流行的人工智能基准 LMArena 据称有利于大型供应商 185 0 Salesforce AI Research发布多项创新,旨在解决企业AI系统在强大智能与稳定执行力之间的差距,即“锯齿状智能”。核心目标是构建更智能、可信、适用于企业应用的AI代理,并向“企业通用智能”(EGI)迈进。研究重点在于量化和解决AI性能不一致性,推出了SIMPLE数据集作为公开基准。更重要的是,Salesforce推出了CRMArena,一个模拟真实CRM场景的基准测试框架,用于全面
AI与经济双重夹击:人工智能正开始严重影响美国就业市场 114 0 美国劳工统计局最新数据显示,美国年轻大学毕业生进入职场后面临的期望与现实之间的差距已降至历史最低水平,表明新毕业生就业形势严峻。《大西洋月刊》分析指出,这一转变或由多重因素叠加所致,其中生成式人工智能的崛起被认为是关键因素之一。哈佛大学经济学家戴维·戴明警告称,生成式人工智能擅长信息整合、报告撰写和演示制作,而这些恰恰是年轻大学毕业生在办公室中的主要工作内容,暗示AI正在逐步取代初级岗位。然而,
Meta智能眼镜隐私政策更新:默认启用语音录制引隐私担忧 202 0 Meta已更新其针对雷朋Meta智能眼镜的美国隐私政策,关键变化是默认启用自动语音录制功能。用户语音录音现在将被用于训练Meta AI和其他Meta产品。此次更新取消了用户完全禁用语音录制的选项,用户仅能通过配套应用手动删除单个互动录音,或完全关闭语音控制功能。这意味着,除非用户彻底禁用语音控制,否则Meta AI摄像头将默认保持开启状态。Meta声称此举旨在提升Meta AI的易用性和产品功能,
AI基准测试平台LMArena陷争议:研究指责其偏袒OpenAI、谷歌和Meta 74 0 人工智能领域知名的公共基准测试平台LMArena近日遭遇信任危机。一项新的研究指出,该平台的排名系统存在偏袒OpenAI、谷歌和Meta等大型供应商的结构性问题,其不透明的流程和头部企业的固有优势可能导致排名失真。然而,LMArena运营团队已公开否认这些指控。LMArena通过向用户展示不同大型语言模型(LLM)的回复对比,并由用户投票选出更优者,最终形成广泛被行业引用的模型性能排行榜。企业常
小身材,大智慧!微软Phi-4系列推理模型发布,性能直逼GPT-4o 170 0 微软正积极扩展其Phi系列紧凑型语言模型,最新发布了三款专为高级推理任务设计的新变体:Phi-4-reasoning、Phi-4-reasoning-plus 和 Phi-4-mini-reasoning。这些模型旨在通过结构化推理和内部反思处理复杂的问答,同时保持轻量级特性,使其能够在包括移动设备在内的低端硬件上高效运行,延续了微软Phi系列在资源受限设备上实现强大AI功能的愿景。Phi-4-r
Anthropic推出“Integrations”连接应用,Claude新增“高级研究”深挖信息 163 0 Anthropic周四发布重大更新,为旗下AI聊天机器人Claude引入全新的应用连接方式“Integrations”,并扩展了“深度研究”功能至“Advanced Research”,使Claude能够搜索网络、企业账户等更广泛的数据源。“Integrations”和“Advanced Research”目前面向Claude Max、Team和Enterprise计划用户开放Beta测试,Pro
人工智能 AI发展 中美竞争 人才培养 黄仁勋:中国是一个意志坚定、能力超群的国家 AI研究者一半是中国人 101 0 快科技5月2日消息,对于中国,英伟达CEO黄仁勋直言,这是一个强大的国家,想要速胜基本不可能。中国是一个意志坚定、能力超群的国家,全球一半的人工智能领域研究人员都是中国人(且美国所有AI实验室均有大量中国研究人员参与),而人工智能领域的竞争是一场持久战”,无法速胜。 ”在黄仁勋看来,中美在人工智能(AI)发展领域的水平非常接近。事实上,目前在人工智能上,中国高校在AI人才培养方面表现突出。美国
消息称微软 Azure 平台将托管马斯克的 Grok AI 模型 147 0 IT之家 5 月 2 日消息,科技媒体 The Verge 今天(5 月 2 日)发布博文,报道称微软已要求其 AI 基础设施工程师做好准备,Azure AI Foundry 平台将托管埃隆・马斯克(Elon Musk)旗下 xAI 公司开发的 Grok AI 模型。IT之家注:Azure AI Foundry 平台为开发者提供 AI 服务、工具及预构建模型,帮助其打造 AI 应用和智能体。微软
xAI 员工失误泄露 API 密钥近 2 个月,内部 AI 模型数据安全亮红灯 142 0 IT之家 5 月 2 日消息,科技媒体 KrebsOnSecurity 昨日(5 月 1 日)发布博文,报道称埃隆・马斯克(Elon Musk)旗下人工智能公司 xAI 的一名员工在 GitHub 上,无意泄露了一枚 API 密钥,这一失误持续了近两个月。来自法国安全咨询公司 Seralys 的“首席黑客官”Philippe Caturegli 率先在 LinkedIn 上曝光了这一问题,安全公
AI 助手 Claude 进化:无缝接入团队工具、深度研究模式挑战复杂问题 89 0 IT之家 5 月 2 日消息,Anthropic 昨日升级旗下 AI 助手 Claude,推出全新“Integrations”框架和“Advanced Research”模式,已邀请 Max、Team 和 Enterprise 计划用户测试,即将覆盖 Pro 计划用户。IT之家注:“Integrations”框架赋予 Claude 连接主流工具的能力,包括 Atlassian 的 Jira 和
GitHub Copilot 用户规模超 1500 万,微软 CEO 纳德拉称已从编程助手进化为编程伙伴 75 0 IT之家 5 月 2 日消息,科技媒体 Windows Central 昨日(5 月 1 日)发布博文,报道称根据微软公布的最新数据,GitHub Copilot 的用户已突破 1500 万,较去年增长 4 倍。在 2025 财年第 3 财季电话会议上,微软首席执行官纳德拉(Satya Nadella)表示 GitHub Copilot 已从“编程助手”进化到“编程伙伴”,尤其是 VS Code
宇树王兴兴:2025 年底,相对比较通用的人形机器人 AI 模型真的有可能诞生 186 0 IT之家 5 月 2 日消息,据央视新闻报道,由中央广播电视总台、杭州市人民政府主办,总台央视频、杭州城西科创大走廊、杭州市余杭区人民政府、杭州市商务局(全球数字贸易博览会执委会办公室)、总台浙江总站、国家(杭州)短视频基地承办的大型纪实创投节目《赢在 AI+》将于今日 21:50 档在央视财经频道(CCTV-2)及央视频新媒体矩阵开播。作为立足国家平台打造的首档以 AI 为核心的大型纪实创投节
Meta 训练 AI 引发版权争议,“合理使用”辩护遭法官质疑、拷问 123 0 IT之家 5 月 2 日消息,据路透社报道,在旧金山当地时间周四举行的庭审中,一位联邦法官对 Meta 的辩解提出质疑,该公司主张其在训练 AI 模型时可以合法使用受版权保护的内容而无需获得许可。IT之家从报道中获悉,Meta 希望法院裁定其在训练 Llama 语言模型时使用了朱诺・迪亚斯、Sarah Silverman 等人的书籍的行为,属于“合理使用”范畴。美国地方法官 Vince Chha
Visa 描绘“AI 购物智能体”蓝图:未来能帮你自动购物、刷卡消费 92 0 IT之家 5 月 2 日消息,据美联社报道,当地时间周三,Visa 宣布与 Anthropic、微软、OpenAI、Perplexity 等多家领先的智能体开发公司建立合作关系,并希望将 AI 智能体接入 Visa 的支付网络。试点项目于当天启动,全面推广预计将在明年展开。Visa 首席产品与战略官 Jack Forestell 表示:“我们认为这项技术意义重大,可能带来一场不亚于电商诞生时的颠
蓝桥杯大赛处理 1133 名作弊选手,“AI + 人工”双重监考 121 0 感谢IT之家网友 小星_14 的线索投递!IT之家 5 月 2 日消息,蓝桥杯大赛组委会 4 月 30 日发布《关于第十六届蓝桥杯大赛(软件赛 / 电子赛)省赛个别选手违纪行为的处理决定》,大赛组委会综合运用技术监测、人工核查、线索举报等多重手段,对省赛过程中发现的个别违纪行为进行了严格认定与处理。第十六届蓝桥杯大赛省赛(软件赛和电子赛)共甄别违规选手 312 人,作弊选手 1133 人,组委
68 页论文再锤大模型竞技场:Llama4 发布前私下测试 27 个版本,只取最佳成绩 79 0 大模型竞技场的可信度,再次被锤。最近一篇名为《排行榜幻觉》(The Leaderboard Illusion)的论文在学术圈引发关注。它指出,如今被视为 LLM 领域首选排行榜的 Chatbot Arena,存在诸多系统问题。比如:少数大厂可以私下测试多个模型版本,Llama4 在发布前甚至测了 27 个版本,然后只公开最佳表现。数据访问不平等,专有模型获得的用户反馈数据显著多于开源模型。试用