苹果放大招!FastVLM 让视觉语言模型在 iPhone 上飞速 “狂飙” 119 0 苹果最近又搞了个大新闻,偷偷摸摸地发布了一个叫 FastVLM 的模型。听名字可能有点懵,但简单来说,这玩意儿就是让你的 iPhone 瞬间拥有了“火眼金睛”,不仅能看懂图片里的各种复杂信息,还能像个段子手一样跟你“贫嘴”!而且最厉害的是,它速度快到飞起,苹果官方宣称,首次给你“贫嘴”的速度比之前的一些模型快了足足85倍!这简直是要逆天啊!视觉语言模型的 “成长烦恼”现在的视觉语言模型,就像个不断
亚马逊展示机器人时代下人类新角色的前景 137 0 在当今科技行业,关于人类在日益自动化的世界中所扮演的角色,出现了两种截然不同的观点:一种认为除了他们自己,其他所有工作都将被机器人取代;另一种则认为机器人会承担那些乏味和重复的工作,而人类将负责新的工作类型。根据世界经济论坛的预测,虽然当前的技术趋势将导致9200万个职位消失,但也将创造1.7亿个新工作岗位。图源备注:图片由AI生成,图片授权服务商Midjourney然而,对于那些没有经济实力或对
Kimi入驻小红书,AI大模型从“投流大战”转向内容深耕 72 0 近日,月之暗面旗下大模型产品 Kimi 宣布与小红书达成最新合作,在“小红书·Kimi智能助手”账号中上线对话入口,用户可通过跳转进入对话界面,并一键生成笔记。然而,“硅基研究室”实测发现,该入口目前仅作为轻量化的访问渠道存在,与小红书平台其他入口尚未形成深入整合。早在2024年,小红书就已参与Kimi母公司10亿美元A轮融资,双方曾联合推出“AI新手村”活动。此次上线入口,被视为Kimi在流量焦
苹果发布FastVLM模型,可在iPhone上运行的极速视觉语言模型 144 0 苹果正式发布FastVLM,一款专为高分辨率图像处理优化的视觉语言模型(VLM),以其在iPhone等移动设备上的高效运行能力和卓越性能引发行业热议。FastVLM通过创新的FastViTHD视觉编码器,实现了高达85倍的编码速度提升,为实时多模态AI应用铺平了道路。技术核心:FastViTHD编码器与高效设计FastVLM的核心在于其全新设计的FastViTHD混合视觉编码器,针对高分辨率图像处
输入一句话,输出一套乐高设计!CMU 开源 LegoGPT AI 项目 203 0 卡内基梅隆大学研究团队发布一项创新性人工智能项目——LegoGPT,该模型可根据自然语言文本自动生成可拼搭的乐高积木设计。项目已在 GitHub 开源,用户可自由下载模型与数据集进行尝试和拓展。LegoGPT 由自回归大型语言模型驱动,训练数据包括超过47,000块乐高积木组成的28,000多个独特3D 对象。用户只需输入如“一个吉他造型”这样的文本提示,模型便能生成结构合理、可稳定搭建的乐高拼搭
国内首个光子芯片专用大模型问世,南智光电引领智能研发新潮流 172 0 在光子芯片技术领域,中国又迎来了一个重要的里程碑。5月12日,南智光电正式发布了国内首个光子芯片专用大模型 ——OptoChat AI。这一创新成果将显著推动我国光子芯片的研发进程,标志着研发方式的重大转变。光子芯片作为现代光电与微电子技术交汇的前沿技术,一直以来都面临着研发效率低下的难题。南智光电的副总经理潘涛指出,传统的研发模式往往依赖工程师查阅大量文献或咨询专家,费时又费力。而 OptoCh
国内首个自研通用具身智能大模型 “自变量机器人” 完成数亿元融资 94 0 近日,具身智能公司 “自变量机器人” 宣布成功完成了 Pre-A+++ 轮和 A 轮两轮融资,融资总额达到数亿元。这一融资活动由华映资本和美团领投,标志着该公司在推动通用具身智能技术的道路上迈出了重要一步。自变量机器人自2023年成立以来,已完成七轮融资,累计融资金额超过10亿元。自变量机器人专注于研发全自研端到端的通用具身智能大模型,力求实现机器人在复杂环境中自主交互和高效执行任务的理想。该公司
NVIDIA AI推出Audio-SDS,革新音效生成与多任务音频处理 74 0 NVIDIA AI研究团队发布了一项突破性技术——Audio-SDS,将Score Distillation Sampling(SDS)技术扩展至文本条件音频扩散模型,显著提升了音效生成、音源分离及多任务音频处理的能力。这一创新成果已在学术界和工业界引发热议。技术核心:SDS赋能音频扩散模型Audio-SDS基于NVIDIA此前在图像生成领域广泛应用的SDS技术,通过将其适配到预训练的音频扩散模型
SurfSense:重新定义个人知识管理的AI研究助手 86 0 一款名为SurfSense的开源AI研究助手横空出世,以其独特的个人知识库整合功能和强大的研究能力,迅速成为NotebookLM和Perplexity的有力竞争者。SurfSense不仅继承了AI驱动的智能搜索与交互特性,还通过打通个人知识库,为用户提供了一个前所未有的信息管理与研究平台。本文基于近期网络信息,深入探讨SurfSense的核心功能、优势以及其对研究领域的潜在影响。突破传统:个人知识
阿里通义千问成为日本AI发展的新基石 160 0 近日,日本经济新闻(NIKKEI)发表了一篇引人注目的报道,指出阿里巴巴的通义千问大模型正迅速成为日本人工智能开发的重要基础。随着全球 AI 技术的飞速发展,通义千问的表现已在国际舞台上崭露头角,尤其是在日经新闻对各大 AI 模型进行的综合评测中,通义千问 Qwen2.5-Max 一举夺得第六名,超越了许多国内外知名模型,包括 DeepSeek-V3和 OpenAI 的 o3-mini 等。日本的
字节跳动发布开源代码模型Seed-Coder,8B参数引领编程新风潮 131 0 字节跳动Seed团队正式推出全新开源代码模型Seed-Coder,以其卓越的代码生成、补全、编辑及推理能力引发业界广泛关注。作为一款8B参数规模的模型,Seed-Coder在多个基准测试中超越同级别竞品,展现出强大的编程潜力和高效的数据处理设计。模型概览:8B参数,32K上下文,MIT协议开源Seed-Coder是一个专注于代码生成、编程和软件工程任务的模型系列,包含三个主要变体:Seed-Cod
清华系创业团队“灵御智能”融资千万,聚焦人机混合智能 101 0 近日,国内具身智能初创企业“灵御智能”宣布完成千万级种子轮融资,由英诺天使基金领投,水木校友种子基金和远镜创投跟投。公司由清华大学自动化系校友金戈与团队联合创立,致力于打造具身智能实用化标杆,加速机器人在工业、家庭等场景的真实落地。灵御智能依托在机器人运动控制领域的技术积累,构建了从人侧数据采集、机侧执行器到智能操作平台的通用解决方案,打通了从L0到L4的智能演化路径。其提出“高质量、低成本、低门
宇树科技王兴兴:我们所有岗位都缺人,欢迎年轻人加入AI浪潮 65 0 “如果上海的年轻人愿意来我们公司发展,我们非常欢迎。”在近日举行的第六届上海创新创业青年50人论坛上,宇树科技创始人、首席执行官王兴兴公开发出“招聘令”,直言公司目前各类岗位极度紧缺,包括文职、采购、销售、技术、研发、市场等多个方向,真诚期待更多年轻人才加入。数据显示,2024年宇树机器狗年销量高达2.37万台,约占全球市场的69.75%;与此同时,公司人形机器人年交付量突破1500台,同样刷新全
OpenAI 聘请前 Facebook 应用主管 Simo 为新任应用业务负责人 78 0 OpenAI 近日宣布,已经聘请 Instacart 首席执行官以及前 Facebook 应用主管 Fidji Simo 担任公司新设立的应用业务负责人。OpenAI 首席执行官山姆・阿尔特曼(Sam Altman)在社交媒体平台 X 上发表声明,表示这一新角色的引入将使他能够将更多的时间和精力投入到研究、计算和安全等重要领域。Fidji Simo 在2011年加入 Facebook,并于2019
高一致性、强控制力,腾讯发布多模态视频生成利器 HunyuanCustom 149 0 腾讯近日正式开源其全新多模态定制视频生成框架——HunyuanCustom,标志着AI视频创作进入更高自由度与精准控制的全新阶段。该框架基于腾讯自研的 HunyuanVideo 打造,主打**“主体一致性”与“多模态灵活输入”**,致力于实现视频内容与输入素材高度匹配的个性化生成。HunyuanCustom 的核心优势在于其强大的多模态输入能力:支持用户通过文本描述、单图或多图图像、参考音频甚至已
全球首款AI智能浏览器Fellou发布:一键搞定研究、发帖、邮件,效率飙升5倍! 154 0 5月11日,Fellou正式发布,号称全球首款Agentic浏览器,以其强大的AI自动化能力引发行业热议(https://fellou.ai)。 不同于传统浏览器,Fellou不仅能搜索和浏览,还能思考、规划并执行复杂任务,从深度研究到跨平台工作流一键完成。AIbase观察到,Fellou的发布标志着浏览器从被动工具向主动数字助手的转型,为研究人员、营销人员和开发者提供了前所未有的生产力提升。深度