Member standard
Member expire
Member points 0
还没有账号? 立即注册
已有账号? 立即登录
95.03万
粉丝
11569
文章
214.41万
总浏览
5
平均评分
AI领域资深专家
IT 之家 9 月 13 日消息,百度于 9 月 10 日在 Hugging Face 发布新一代文字识别解决方案 PP-OCRv5。百度介绍称,PP-OCRv5 是一个为缓解大型视觉语言模型(VLMs)局限性而设计的专用 OCR 模型,它提供了一种高效、准确且轻量级的解决方案。PP-OCRv5 通过保持模块化、两阶段的流程,专门针对高速、精确的文本检测和识别,解决了大型 VLMs 的精确文本定
IT之家 9 月 13 日消息,据《华尔街日报》12 日报道,OpenAI 在硅谷展开了极具野心、也是最烧钱的扩张计划之一,每年投入数百亿美元,同时也深陷亏损。过去九个月,OpenAI 接连签订巨额合同和投资:每年斥资约 600 亿美元(IT之家注:现汇率约合 4274.66 亿元人民币)从甲骨文购买算力,投 180 亿美元(现汇率约合 1282.4 亿元人民币)建合资数据中心,再花 100 亿
IT之家 9 月 13 日消息,据外媒 Neowin 今晚报道,微软发布了“突破性(breakthrough)的” Live Interpreter API,将实时多语言翻译能力引入 Azure Speech Translation。用户无需设置输入语言,就能实现流畅的跨语言沟通。该功能支持 76 种语言和 143 个地区,具备自动识别语言、低延迟、接近人工口译的实时效果,还能使用个人语音保留说
IT之家 9 月 13 日消息,据《财富》杂志 11 日报道,OpenAI CEO 奥尔特曼在接受采访时面带苦笑地表示:“自从 ChatGPT 上线后,我就没睡过一个安稳觉。”在这场长达半小时的对谈中,奥尔特曼谈到肩负监管一项“每天有数亿人使用的技术”的重担。他说,自己担忧的并非“终结者”式的灾难场景,而是团队每天做出的那些几乎察觉不到的细微选择:什么时候拒绝回答、如何组织答案、什么时候反驳、什
IT之家 9 月 13 日消息,在今年的 2025 Inclusion 外滩大会上,支付宝数字就业团队正式发布 AI 就业助手“晓叶”,可依托人工智能大模型与数字人技术,进一步提升企业招聘与求职者找工的体验。IT之家汇总该产品主要功能如下:“晓叶”具备 4 大核心能力,包括撮合匹配岗位、在线面试、职业规划和培训推荐,提升就业市场两端的服务。AI 撮合匹配:实现从“人找岗位”到“岗位找人”,求职者
IT之家 9 月 13 日消息,科技媒体 Wccftech 昨日(9 月 12 日)发布博文,报道称埃隆・马斯克(Elon Musk)在社交平台上表示,AMD 的 AI 硬件在运行中小型 AI 模型时表现“相当不错”。这一表态被视为对 AMD 技术实力的认可,同时也暗示其在 AI 市场的竞争潜力。马斯克旗下人工智能公司 xAI 已采用 AMD 的 Instinct MI300 及 MI300X
谷歌Nano Banana一夜爆火之后,各种邪修玩法儿,至今让全网意犹未尽。等距视角、多图合成、老照片修复、3D手办.......创意脑洞大开,全网玩疯。谁曾想,短短半个月后,大洋彼岸就杀出来了一个最强逆袭者!就在刚刚,字节跳动发布的豆包·图像创作模型Seedream 4.0,一举拿下了Artificial Analysis「文生图」和「图像编辑」两大榜单的第一。一键创作+编辑,原生4K分辨率,
全球首家AI原生影视工作室横空出世,项目收入竟已高达1.1亿美元!名叫Utopai Studios。当前AI热度如日中天,以AI切入电影行业的力量主要分为两派:一派是以Runway、Pika为代表的“工具派”,聚焦AI的工具属性,核心发力点在于提升影视制作环节的效率。另一派则是“内容+AI”公司,其主要在内容的叙事创新与产业化层面推动AI的应用和发行,相当于是把手伸进了影视业最肥沃的利润区“内容
打开一个看似由哈佛、全球 AI 安全研究机构背书的网站,你会以为自己进入了一个拯救人类的严肃计划。结果……你在这个页面上多停留了十几秒,页面背景悄悄浮现出一个单词:「bullsh*t」。仔细看动图,背后线条字母会依次出现 b-u-ll-s-h-i-t没错,这不是什么未来学术的研究所,就是一个一本正经的恶搞网站。它自称「AI 对齐中心的对齐中心」(Center for the Alignment
IndexTTS2是什么 IndexTTS2是B站语音团队开发的新型文本转语音(TTS)模型,已经正式开源。模型在情感表达和时长控制方面实现了重大突破,是首个支持精确时长控制的自回归TTS模型。支持零样本声音克隆,仅需一个音频文件即可精准复制音色、节奏和说话风格,支持多语言。IndexTTS2实现了情感音色分离控制,用户可以独立指定音色来源和情绪来源。模型具备多模态情感输入功能,支持通过情感参考