标准会员
过期时间
会员积分 0
还没有账号? 立即注册
已有账号? 立即登录
95.03万
粉丝
11569
文章
214.41万
总浏览
5
平均评分
AI领域资深专家
疯狂的七月已经落下了帷幕,如果用一个词来形容国产大模型,「开源」无疑是当之无愧的高频词汇。各大厂商你方唱罢我登场,昆仑万维、阿里、智谱、月之暗面、腾讯、阶跃星辰等众多玩家们先后开源了数十款大模型。根据 Hugging Face 发布的中国 AI 社区七月开放成果,短短一个月开源模型总数达到了惊人的 33 款。进入到八月,国产大模型「上新」的势头丝毫不减,重量级成果发布的热度继续升温。其中,上个月
短短两个月前,我们还在感叹 31 家 AI 小团队的高效表现,当时团队平均规模仅 20 人,人均创造收入高达 279 万美元(参见《细数 31 家 AI 应用小团队,平均 20 人、人均创收 279 万美元》)。如今,再度审视 Henry Shi 发布的最新榜单,我们发现 AI 小团队生态中又涌现出十款取得商业成功的产品,覆盖 AI 视频、AI 游戏、甚至 AI“团购”平台。仔细分析这些新上榜团
随手拍的一张图,就能秒变3A级游戏大作?!刚刚,腾讯全新开源游戏视频生成框架Hunyuan-GameCraft,专为游戏环境设计,让任何人都能轻松搞定游戏制作。无论是水墨风:抑或是古希腊:只要你想,统统都能满足。基于腾讯混元视频生成HunyuanVideo搭建,可以实时生成流畅画面。操作也很so easy,只需要:单张场景图+文字描述+动作指令=高清动态游戏视频。所以下面让我们一起Game st
加拿大AI新贵Cohere获5亿美元融资、估值68亿美元,前Meta FAIR副总裁、PyTorch与Llama重要推手Joelle Pineau加盟出任首席AI官,或将开启企业AI新战局。最新消息,AI初创公司Cohere已完成5亿美元融资,估值来到68亿美元。这轮融资由Radical Ventures和Inovia Capital领投,超额认购。其他参与投资的既有投资者包括AMD Ventu
首个开源多模态Deep Research Agent来了。整合了网页浏览、图像搜索、代码解释器、内部 OCR 等多种工具,通过全自动流程生成高质量推理轨迹,并用冷启动微调和强化学习优化决策,使模型在任务中能自主选择合适的工具组合和推理路径。假设你让一个 AI 回答这样一个问题:“在这张图所示动物的 Wikipedia 页面上,2020 年之前带有 ‘visual edit’ 标签的修订次数是多少
无需人工标注,吞下17亿张图片,Meta用自监督学习炼出「视觉全能王」!NASA已将它送上火星,医疗、卫星、自动驾驶领域集体沸腾。17亿张图片,Meta训出70亿参数「视觉巨兽」DINOv3,完全开源了!通过自监督学习(SSL)训练,DINOv3可生成强大且高分辨率的图像特征。在多个密集预测任务中,这是单一固定的视觉主干网络第一次超越专用解决方案。DINOv3重新定义计算机视觉性能天花板,在多个
谷歌开源Gemma 3 270M闪亮登场!只需几分钟即可完成微调,指令遵循和文本结构化能力更是惊艳,性能超越Qwen 2.5同级模型。发布当天,网友也懵了:以为是270B,结果居然才0.27B。此模型小巧又高效,可以直接在浏览器里本地运行,不用联网,也能生成有创意的内容,比如睡前故事。不仅如此,还有人使用这款迷你模型构建了自己的OCR应用程序。上传一张图片或PDF文件,即可用LLM即时将其转换为
Voost是什么Voost 是NXN实验室推出创新的虚拟试穿和试脱模型,基于统一且可扩展的扩散 Transformer(DiT)框架开发。能同时处理虚拟试穿(try-on)和试脱(try-off)任务,生成高质量的图像结果。通过联合学习这两个任务,Voost 利用双向监督机制,使每对服装 – 人物数据能为两个方向的生成提供监督信号,显著增强了服装与身体的关系推理能力,无需依赖特定于任务的网络、
hunyuan-large-vision 是什么hunyuan-large-vision 是腾讯推出的多模态理解模型,基于MoE架构,激活参数达52B,支持图像、视频和3D空间输入。模型在国际知名的大模型竞技场“LMArena Vision排行榜”上取得1256分,位列第五名(国内模型第一名),展现了卓越的多语言能力和用户体验。模型由数十亿参数的混元ViT视觉编码器、自适应下采样机制的MLP连
Skywork Deep Research Agent v2是什么Skywork Deep Research Agent v2是昆仑万维推出的升级版深度研究智能体,作为天工超级智能体的核心引擎,具备多模态深度调研能力,首次整合多模态检索、理解和生成功能,支持处理图文混排信息,生成高质量报告。Skywork Deep Research Agent v2具备多模态深度浏览器智能体功能,能模拟人类浏