64页论文揭示AI模型排行榜黑幕:Llama4发布前私下测试27个版本,只取最佳成绩 210 0 近日,一篇名为《排行榜幻觉》的论文在学术界引发了广泛关注,尤其是对大型语言模型(LLM)领域中备受推崇的 Chatbot Arena 排行榜提出了严厉质疑。研究指出,排行榜的可信度因数据访问不平等、模型私下测试等问题而受到挑战。论文显示,一些大型科技公司可以在公开发布之前对多个模型版本进行私下测试。例如,Meta 在发布 Llama4之前测试了多达27个版本,然后只对外公布表现最佳的模型。这种 “
苹果与 Anthropic 携手研发新 AI 平台,革新编程方式 146 0 近日,有消息透露,苹果公司正在与人工智能初创企业 Anthropic 合作,共同开发一个全新的软件平台,命名为 “氛围编码”(vibe-coding)。这个平台的主要目的是利用人工智能来代替程序员进行代码的编写、编辑和测试,从而提升开发效率。据知情人士透露,这一创新系统是苹果著名开发软件 Xcode 的新版本,将会整合 Anthropic 的 Claude Sonnet 模型。通过引入这一先进的人
微软 Azure 将支持马斯克的 Grok AI,谷歌也在测试 AI 搜索新模式 199 0 在人工智能领域的持续快速发展中,近日有消息称微软的 Azure 云平台将会托管马斯克的 Grok AI 模型。这一消息引发了业内广泛关注,特别是在 AI 技术日益成为企业和社会各个层面的重要工具的背景下。Grok AI 是一款旨在提供智能辅助的 AI 工具,能够帮助用户更高效地处理信息和做出决策。与此同时,谷歌也不甘示弱,宣布将开始在实验室外测试其 AI 搜索模式。这一模式的测试意味着谷歌希望能够
谷歌将允许 13 岁以下儿童使用 Gemini 聊天机器人,开启家庭管理新模式 90 0 据《纽约时报》报道,谷歌将在下周正式推出一项新政策,允许拥有父母管理账户的13岁以下儿童使用其新推出的 Gemini 聊天机器人。这一举措是基于谷歌的 Family Link 服务,该服务允许家长为孩子的使用选择各种谷歌产品,确保他们在安全的环境中享受科技的便利。Gemini 聊天机器人专为年轻用户设计,谷歌发言人表示,该平台将采取一系列特别的保护措施,以保障儿童的安全。此外,谷歌承诺不会将这些儿
谷歌下周起允许 13 岁以下儿童使用 Gemini,需家长管理账户 106 0 IT之家 5 月 4 日消息,据《纽约时报》报道,谷歌公司计划于下周开始,允许 13 岁以下的儿童使用其 Gemini 聊天机器人,这些儿童用户必须拥有由家长管理的谷歌账户。能够使用 Gemini 的儿童用户,其家长需使用谷歌的 Family Link 服务,该服务允许家庭为子女选择加入谷歌的各种服务。谷歌公司的一位发言人表示,Gemini 针对年轻用户设有专门的防护措施,并且公司不会使用儿童用
OpenAI 发布最新技术报告,揭秘 GPT-4o 变谄媚的原因 185 0 GPT-4o 更新后“变谄媚”?后续技术报告来了。OpenAI 一篇新鲜出炉的认错小作文,直接引来上百万网友围观。CEO 奥尔特曼也做足姿态,第一时间转发小作文并表示:(新报告)揭示了 GPT-4o 更新失败是因为什么,从中 OpenAI 学到了什么,以及我们将会采取的应对措施是什么。概括而言,最新报告提到,大约一周前的 bug 原来出在了“强化学习”身上 ——上次更新引入了一个基于用户反馈的额
小米米家筒 / 射灯 2 蓝牙 mesh 版开售:支持多灯分组,39.9 元 / 79 元 123 0 感谢IT之家网友 新心思 的线索投递!IT之家 5 月 2 日消息,小米推出了米家筒射灯 2 蓝牙 mesh 版,支持多灯分组,筒灯 39.9 元,射灯 79 元。京东小米智能筒灯 239.9 元直达链接京东小米智能射灯 279 元直达链接IT之家汇总两款产品主要信息如下:两款产品具备 Ra95 显色指数、光生物安全 RG0 豁免级,无可视频闪,并采用缓开缓灭设计,可避免瞬时强光刺激、减少视觉
央视介绍中国移动“九天大模型”AI:重点围绕电气工程应用 / 信号处理优化,已进入通信生产等领域 138 0 IT之家 5 月 3 日消息,中国移动在去年发布了旗下“九天大模型”,央视网今日发文,针对这款 AI 大模型去年至今的发展情况进行介绍,并透露相应模型已被评为“央企大国重器”。▲ 图源央视新闻据介绍,相应模型由中国移动研究院人工智能中心高级总监王斌率领团队开发,使用了超过 2304 台服务器、1.8 万张 AI 加速卡进行训练。相应模型重点围绕电气工程应用、信号处理、电子元件、电路分析方面优化,
谷歌“AI 笔记神器”NotebookLM 将推出移动端 App,5 月 20 日上线 81 0 IT之家 5 月 3 日消息,应用商店页面显示,谷歌的 NotebookLM 安卓和 iOS 应用预计将在 5 月 20 日正式上线,目前已可预购。NotebookLM 是谷歌的 AI 笔记和研究助手,2023 年推出以来仅支持桌面端使用。谷歌现在正计划将其推广至移动端,方便用户随时随地使用。据 TechCrunch 报道,NotebookLM 主要帮助学生、职场人士和研究人员通过智能摘要等功能
谷歌拟推出儿童版 Gemini:能辅导学习、能编故事、能过滤不当内容 106 0 IT之家 5 月 3 日消息,据《纽约时报》5 月 2 日报道,谷歌计划下周向 13 岁以下、由家长管理账户的少年儿童用户推出 Gemini 的“儿童版”。谷歌本周在一封邮件中通知一位 8 岁儿童的家长:“Gemini 应用即将开放给您的孩子使用。也就是说,孩子可以用 Gemini 提问题、写作业、编故事。”Gemini 面向使用谷歌 Family Link 服务的用户开放。该服务允许家长为孩子
AI科学家 超人类智能体 科学研究 文献综述 全球首个AI科学家天团出道!007做实验碾压人类博士,生化环材圈巨震 174 0 声明:本文来自于微信公众号 新智元,作者:新智元,授权站长之家转载发布。就在刚刚,世界上首个公开可用的AI科学家登场了!前谷歌CEO Eric Schmidt投资的一家非营利组织FutureHouse,官宣发布四个超人类的AI科学家智能体。通用智能体:Crow(乌鸦) 自动化文献综述智能体:Falcon(猎鹰) 调研智能体:Owl(猫头鹰) 实验智能体:Phoenix(凤凰)这些智能体都是专门
阿里 AI行业 开源大模型 Qwen3 千问3的屠榜,是AI的一小步,也是阿里的一大步 92 0 声明:本文来自于微信公众号 阑夕,作者:阑夕,授权站长之家转载发布。Qwen3的发布,除了再次引起行业震动之外,也从此终结了「阿里是不是一家AI公司的讨论」的所有讨论。或者说,在成为开源大模型领域的全球第一并持续屠榜以来,阿里已经不需要再去过多解释它在AI行业的投入决心,因为实际产出的份量已经远远大于构建故事。2023年3月,距离ChatGPT上线不到4个月,马云就在阿里在杭州投资的民办学校里
智能客服 AI大模型 客服升级 主动卖货 或超过人类平均水平!AI 大模型将如何改造智能客服? 77 0 声明:本文来自于微信公众号 见实,作者:见实,授权站长之家转载发布。你所在企业是否还在为智能客服的“答非所问”困扰?你们的智能客服已经接入AI大模型了吗?近期在见实的一场直播中,回应了关于智能客服的能力空间与实现路径。分享嘉宾是每日互动(个推) 产品总监高志成,他认为有了AI大语言模型之后,智能客服“所答即所问”将成为基本要求。而在此基础上还有更大发挥空间 ,当机器人的水平大于人工平均水平甚至
68 页论文再锤大模型竞技场:Llama4 发布前私下测试 27 个版本,只取最佳成绩 82 0 大模型竞技场的可信度,再次被锤。最近一篇名为《排行榜幻觉》(The Leaderboard Illusion)的论文在学术圈引发关注。它指出,如今被视为 LLM 领域首选排行榜的 Chatbot Arena,存在诸多系统问题。比如:少数大厂可以私下测试多个模型版本,Llama4 在发布前甚至测了 27 个版本,然后只公开最佳表现。数据访问不平等,专有模型获得的用户反馈数据显著多于开源模型。试用
蓝桥杯大赛处理 1133 名作弊选手,“AI + 人工”双重监考 123 0 感谢IT之家网友 小星_14 的线索投递!IT之家 5 月 2 日消息,蓝桥杯大赛组委会 4 月 30 日发布《关于第十六届蓝桥杯大赛(软件赛 / 电子赛)省赛个别选手违纪行为的处理决定》,大赛组委会综合运用技术监测、人工核查、线索举报等多重手段,对省赛过程中发现的个别违纪行为进行了严格认定与处理。第十六届蓝桥杯大赛省赛(软件赛和电子赛)共甄别违规选手 312 人,作弊选手 1133 人,组委
Visa 描绘“AI 购物智能体”蓝图:未来能帮你自动购物、刷卡消费 98 0 IT之家 5 月 2 日消息,据美联社报道,当地时间周三,Visa 宣布与 Anthropic、微软、OpenAI、Perplexity 等多家领先的智能体开发公司建立合作关系,并希望将 AI 智能体接入 Visa 的支付网络。试点项目于当天启动,全面推广预计将在明年展开。Visa 首席产品与战略官 Jack Forestell 表示:“我们认为这项技术意义重大,可能带来一场不亚于电商诞生时的颠