AI热点 4小时前 142 浏览次数 0 评论

拜托了,AI!帮忙解决「看病难、看病贵」吧|对谈王国鑫:京东健康探索研究院首席科学家

AI中国
AI中国

发布了 10620 文章

让每个人都能获得均等的医疗服务水平。



最近,美国多家 AI+医疗明星公司接连传来进展:OpenEvidence(医学知识搜索) 的 ARR 已突破 1000 万美元,每天有上万名医生付费使用;Abridge(临床文档转写) 完成 2.5 亿美元融资Tempus AI(肿瘤学与精准医疗) 已在纳斯达克上市,市值一度超过 60 亿美元Hippocratic AI(医疗专属大模型) 估值也已达数十亿美元


这些公司共同展示出一个趋势:AI 正在全球范围内迅速重塑医疗行业。在国内,AI+医疗同样在如火如荼地发生。硅谷知名风险投资机构 a16z 预言:医疗保健将成为从 AI 中受益最多的行业。


因此本周,我们邀请到京东健康探索研究院首席科学家王国鑫 Nico,请他分享「京医千询2.0」大模型与「AI 医院」的研发与应用。他不仅谈到在企业战略层面,AI 产品如何通过京东健康的医检诊药生态,来满足用户健康需求,也解析了以 OpenEvidence 为代表的美国初创公司目前在 AI+医疗方向的主要探索与不同侧重。


医疗是监管最严、数据最敏感、决策最攸关生死的垂直领域。因此,Nico 今天分享的经验和方法——如何找到真实痛点、如何积累专业数据、如何在产品和战略层面争夺用户心智——**对所有垂直大模型行业都具有启发意义,**相信也能给正在思考 AI 落地的你带来一些参考与帮助。


最后,Nico 还带来了他作为科学家的个人健康管理小技巧,简单实用,谁都能用得上。



快问快答


👩🏻 Ronghui


大家好,欢迎来到这期的「十字路口」。我们邀请京东健康首席科学家王国鑫,来聊一聊医疗大模型。医疗大模型是一个典型且特别的案例,我们想通过它探讨,是否所有垂直场景的 AI 创业都会遇到类似的问题:数据从哪里来?如何验证商业落地?如何实现?这也是我们第一次在节目里邀请到一个公司 C-level 的首席科学家,我就直接叫 Nico,请 Nico 跟大家打个招呼。


👦🏻 王国鑫


大家好,很高兴参加「十字路口」这个节目,谢谢。


👩🏻 Ronghui


那我们进入快问快答。年龄?


👦🏻 王国鑫


40 岁。


👩🏻 Ronghui


你现在是在京东健康探索研究院的第几年?


👦🏻 王国鑫


第三年。


👩🏻 Ronghui


在这之前是做什么?


👦🏻 王国鑫


主要做搜索和多模态技术。


👩🏻 Ronghui


你的 MBTI 和星座?


👦🏻 王国鑫


ENFJ,双子座。


👩🏻 Ronghui


用一句话介绍你们现在在做的这个产品。


👦🏻 王国鑫


我们在做的产品是京医千询的医疗大模型,以及基于它的 Agent 医疗服务。


👩🏻 Ronghui


方便介绍现在的收入和利润吗?


👦🏻 王国鑫


这是送命题。其实现在 AI 整体还没有完全跑通商业模式,但京东健康上半年营收超过 350 亿人民币,净利润超过 35 亿人民币。这块业务对我们来说主要是回答医疗服务的未来,以及公司未来的方向。


医疗数据的「痛并快乐着」


👩🏻 Ronghui


其实你也说了,它现在扮演的是一个向未来沟通的角色,在公司的战略规划里,它是什么作用?


👦🏻 王国鑫


基本是核心战略。医疗本质上是供给受限、服务成本极高的行业。每个人对健康的需求是无限的,我相信每个人都想长寿。所以 AI 在这里最大的作用就是能否提升供给水平。它虽然很难,但不仅京东健康,所有立志在健康领域发展的公司,甚至国家层面,都对这项技术极其重视。


👩🏻 Ronghui


我们先来说说你们正在做的产品。大概 10 年前就开始做这个方向,2018 年开始做互联网医院,现在的工作可以说是那个时候的延伸?


👦🏻 王国鑫


可以这么讲。


👩🏻 Ronghui


你们在准备做医疗方向大模型的时候,主要考虑什么?


👦🏻 王国鑫


作为一家公司,从逻辑上要回答技术能带来什么。最早京东健康之所以具备部分 AI 能力,是因为我们每天有 超过50万路医疗服务进线,也就是 超过50万人次寻医问药。如果没有 AI 分诊和质控技术,一方面无法满足精准的医患匹配,另一方面也无法保证线上医疗服务合规合法。


所以京东最初做 AI 的逻辑是,把业务装在合规的框架里,同时降低成本。这是第一阶段的目标。


第二阶段,我们团队做过数字疗法、甚至部分脑机接口的探索。因为医疗不仅是线上视频或电话咨询,还需要了解日常生活状态、检验检查结果。所以我们要把数据向两端延长——治病前的健康状况、治病后的恢复状态都要覆盖。在这种情况下,数字疗法技术变得重要。再往后就是大模型时代。


大模型最大的吸引力在于它表现出类人的水平,尤其是指令依存能力。它在医疗服务中不仅承担精准匹配和合规属性,还可能具备类医生的服务水平,从而极度降低成本。如果能力进一步提升,它甚至可能成为生命伴随的一部分,就像亲人一样长期陪伴。


这就是新一代大模型与前几代 AI 的根本不同,它尝试解决医疗最根本的痛点——供给能力,以低成本方式实现。而现实中,部分人因社会地位或财富可以享受专家级服务,但大多数人无法享受。欧美社会分层更严重。反过来,AI 对行业的价值就是能否低成本扩大供给。如果做到这一点,每个人都能获得均等的服务水平,每个人都可能延长 3~5 年寿命。这是医疗 AI 能为社会和国家创造的价值。


👦🏻 Koji


我一直很喜欢一个说法:大模型可能让很多人工作效率拉开差距,但它一定能提供一个价值,就是让所有人的情绪得到平权。过去很多人有心理疾病,却得不到照料,因为心理医生严重稀缺。而大模型可以「看见」所有人,接住所有人的情绪,甚至提供抚慰。刚才 Nico 讲到京东做健康大模型,可能就是从精神健康领域泛化到整个健康领域,给所有人带来医疗上的建议和指导。


👦🏻 王国鑫


这至少是我们的愿景,我们也会努力。


👩🏻 Ronghui


医疗是垂直领域的模型,需要大量专业数据。它的优势是数据理论上应该高度标准化,但难点在于采集和使用结果的影响很大。


👦🏻 王国鑫


医疗有几个特点,可以说「痛并快乐着」


一方面,过去多年国家推进信息化和医院考核,使医院数字化水平相对更高,这是事实。比如病例有严格规范,影像有云数据和质控,国内医疗体系花了巨大力气跨过了信息化阶段。这是做医疗模型的幸运。如果还停留在纸质报告和手工挂号,谁也做不成。


另一方面,仍有难度。第一,医学数据往往不可能记录完整,受限于工作需求、流程需求,或者确实没必要记录大规模完整数据,医院的首要责任还是救死扶伤。


👦🏻 Koji


现在记录的数据也多是提炼后的。


👦🏻 王国鑫


很多是提炼数据,质量也不一定满足需求。


第二,模型学习和人类学习有差异。人类医生通过病例归纳提升认知水平,而模型仍主要依赖原始数据训练,需要大规模推理或原始数据。但在医疗中,这些数据并不存在。很多时候,医生在病历中写下的只是结果,思考过程没有记录。而人类通过大量归纳和口口相传,能习得经验。这也是为什么近几年有个概念叫「self-learning」,模型何时能学会「学习」,可能是 AGI 的重要组成部分。


第三,医疗数据有敏感性和复杂性。病例数据往往分散在不同医院,确权也有问题:数据属于医院、医生还是患者?此外,还有专业壁垒。比如检验检查结果互认,直到最近才推广。其原因是即便是 CT,也可能因设备或仪器不同导致结果差异,并不完全共识。这不一定是医院逐利,而是为了降低风险。


因此,医疗模型复杂性高、敏感性强、专业壁垒大。也正因如此,它是垂直领域里最难,也是最有价值的模型方向。困难是所有做医疗 AI 的人都面临的,大家都在同一赛道上,单点技术优势很难改变现状。


一个内部申请预算的公式:什么样的行业值得做垂类大模型?


👦🏻 Koji


说到垂直模型,正好想追问一下。在您看来,除了医疗的垂类模型,还有哪些行业需要这样的垂类模型?因为今天有一个论调叫做基模会变得越来越厉害,很可能之后能满足泛化的很多需求。但医疗这个领域似乎确实需要大模型。在您看来还有哪些领域需要这样的垂直大模型?这背后是否可以抽象出一些特征?


👦🏻 王国鑫


我先回答最后一个问题,就是抽象逻辑。因为我自己在内部也要申请预算,必须得说明做这件事的必要性。我觉得逻辑有几个点:


第一,这个行业的数据是不是相对低成本可获取,或者低成本可模拟。如果满足这一点,它就有必要性。


第二,它的商业模式是否足够显见。如果太显见,反而可能没有垂直的机会。


我们可以用数据和商业化两个维度来划分。举个例子,如果数据显见、低成本可模拟,那说明行业知识门槛不高,容易被新技术替代,这就比较困难。比如教育模型,有人说 AI 可以做更好的数学老师或英语老师。今天普遍认为学习语言时,AI 的教育能力可能比人更强,因为知识显见、可模拟,同时还能克服大家的心理障碍,比如和陌生人讲外语的紧张感。


还有一种情况是知识不外显,需要花很大力气治理,但它的商业模式足够清晰。这时摆在我们面前的就是代码。现在的代码模型往往是独立模型,甚至可以说 Claude 就是为代码优化的模型。某种意义上,所谓的 coder model 就是垂模。它之所以也被通用模型公司重视,是因为商业模式太清晰,通用公司无法拒绝。哪有一家通用公司不写代码?换句话说,我们这类人力成本太高了,所有公司都有个愿望:怎么能用机器人替代整个团队。当然这是玩笑,但说明商业模式极其外显。


所以总结来说,垂直模型的两个条件:


  1. 数据是否拥有独占性、独特性和迫切性;
  2. 商业模式是否足够清晰且重要到无法放弃。


👦🏻 Koji


对,我想到我们上一期播客的嘉宾,是 3D 大模型 VAST 的创始人。他提到他们训练数据是非常核心的竞争力。当问到数据来源时,他说如果说了,最底层的商业机密就暴露了。


再回到医疗大模型。您怎么看在大家熟悉的「看病难、看病贵」这些问题上,到目前为止,AI 已经带来了哪些改变?未来三到五年还会带来哪些新的改变?


👦🏻 王国鑫


我觉得 AI 首先改变了信息获取的平权。这件事其实非常了不起。以前大家有病时,第一反应是用搜索引擎获取信息。但搜索引擎的商业模式是竞价排名,本身就促进了信息错配,而不是合理适配。我们也和监管部门讨论过这个问题。


大模型解决了一个关键问题:能否更真实地遵守物理结果。今天大模型在商业模式上,大家都在思考,但很少有人把信息匹配当成商业模式。大家追求的是如何提供高质量、可信的知识与信息服务。没有人去挑战信息匹配的问题,它已经从「信息匹配」转变为「信息绝对正确的生成」。最优秀的团队追求的就是这个目标。


所以不要低估我们从搜索引擎模式转向问答、chatbot 模式的意义。它背后是普通人获取信息的准确性快速提高。从医疗角度看,「看病难、看病贵」的前提是有一个健康认知。大家要尽可能减少疾病发生。比如 40 岁以上人群的胃肠镜渗透率、体检渗透率、检验检查质量,这些都可以通过 AI 辅助进一步普及,相当于教育患者、教育整个社会。


👦🏻 Koji


所以你的意思是,大家在和 AI 对话过程中会听到更多健康建议,比如去做体检、胃肠镜等?


👦🏻 王国鑫


对,我觉得这是第一步。


第二步是今天正在解决的问题:能不能通过模型解决分诊问题,区分用户的状态。我能否识别你是轻症、重症还是急症?轻症可以给出标准解决方案,重症和急症则快速链接到医疗资源。原有 AI 系统做不到这一点。以前要么挂号,要么去互联网医院找医生。而现在,如果 AI 平时就采集你的数据,在关键时刻还能针对病情变化直接导向资源,就解决了匹配成本的问题,降低了复杂性和心理门槛。


第三,就是根本问题: AI 辅助诊疗能达到什么水平?这是大模型的核心战场。如果辅助诊疗足够可信,人工只需 review,那至少在普通疾病上,服务能力就能延伸到 7×24 小时,对人的要求逐步降低,这其实就部分解决了「看病难」的问题。


最后讲「看病贵」。这里主要是急症和重症。AI 的最大帮助不在服务层面,而在疗法研发。今天每天都有大量医学论文发表,我自己都看不完,我只能去看最高水平的论文。医生是终身学习的职业,他们更不可能全部跟上。所以我们呼吁有面向医生的 AI,持续提升他们的能力。医生的水平提升,才是提升整体医疗水平的根本。


另外,AI 已经成为制药和新疗法研发中的核心组件。它不像 ChatGPT 那样是 toC 产品,但影响很深。今年创新药行情火热,背后逻辑是中国企业 BD 出海的能力增强,license 出售增多,研发速度提升。这从根本上推动了解决「看病贵」。


所以总结来看:


  1. AI 帮助我们提升健康意识,减少错误信息。
  2. AI 提升轻症和中低级别疾病的诊断水平,降低心理和服务门槛。
  3. AI 在医生培训、新疗法和新药研发中发挥核心作用。


从长周期看,这三点是 AI 改变「看病难、看病贵」的最重要方向。


👩🏻 Ronghui


你刚才提到的愿景很美好。但除了医生资源不足这个问题,其实还有一个门槛:对很多人来说,使用 AI 本身也需要学习,他们也需要被教育,这同样是个挑战。


👦🏻 王国鑫


我对此有一点不同的看法。举个小案例:有一次我坐航班,航班延误了,旁边一位大爷掏出手机拍机舱。我好奇地瞄了一眼,发现他在问一个 chatbot:「这是什么飞机?机型是什么?哪个位置最舒服?」


这让我意识到,AI 的渗透率其实比很多人想象的要高。在中国尤其如此。虽然今天的 AI 产品不像移动互联网时代那样在 C 端显眼,但在信息服务上已经展现出强大能力。从行业数据也能看到,无论是十几岁的年轻人,还是四五十岁以上的人群,AI 的使用率都很高,呈现「双高」的趋势。


某种程度上,AI 的 chatbot 正在取代搜索引擎,直接提供答案而不是信息。这也是为什么一段时间内 Google 股价承压,因为 AI 在用户眼中已经能够直接给出 knowledge 和 answer。


所以我对 AI 产品的渗透力非常乐观。我常常设想:如果回到三年前没有 AI 的时代,我们的生活还能维持今天的状态吗?我认为答案是否定的。


👦🏻 Koji


我昨天还看到一个类似的问题:如果别人都有 AI,而你没有,你愿意拿多少钱来过没有 AI 的生活?我认真想过,哪怕给我一个亿,我都要认真思考一下。


👦🏻 王国鑫


没错,这就是生产力差距带来的认知鸿沟。它不是用金钱可以轻易衡量的。我经历过从互联网到移动互联网的转变,那种「不可阻挡」的趋势,现在同样发生在 AI 上。虽然今天 AI 在 C 端的表现还没有完全迭代,但从 B 端到 C 端的渗透率已经足够优秀。否则我们不会看到几乎所有的产品都在默认放大搜索框,背后正是这种转变的体现。


京医千询 2.0:不止于文本,三大核心进化


👩🏻 Ronghui


说回垂直模型。你们的「京医千询」模型从 2023 年的 1.0 到最新的 2.0,能否给听众介绍一下主要的升级点?


👦🏻 王国鑫


我觉得主要体现在三个方面。


第一是研究模式的变化。在 1.0 时,我们主要使用真实的知识数据,比如论文、学科文章、教科书以及大量真实病例,这些构成了数据底层。而在 2.0 时,我们投入大量精力生成合成数据。


所以这次京医千询 2 不仅是一个模型,我们还把医患对话的合成 agent 免费向行业开放。它不是开源的,但大家可以通过接口使用。这对行业的贡献是,大家可以通过接口尽可能模拟真实医患对话。


👦🏻 Koji


它是直接取你们的模拟数据,还是自己进来也可以开启模拟?


👦🏻 王国鑫


它可以开启模拟,就像一个医生,你可以问它任何问题,帮它模拟问诊,它能还原诊间患者和医生的真实对话,背后由我们训练的模型支撑。这是一个新的认知。医疗模型很多时候不能完全基于现有数据,因为现有数据获取太困难,所以合成数据或 agent 模拟是必然路径。2.0 的第一个变化就是采用大量高水平的合成数据,这也得益于京东健康每天 49 万次问诊。我们有基础做这件事。


第二是在模态层面的变化。2.0 支持影像数据,包括 CT、MRI、X 光。医疗领域如果只局限在文本模态,就离真实世界很远。今天即便是咳嗽超过一周,医生也会建议做筛查,更复杂的疾病影像更是诊断核心工具。所以 2.0 在模态层面有巨大提升,不仅能理解医学语言,还能精准理解影像资料。


第三是推理的变化。以前我就说过,我不太喜欢「推理」这个词,因为在中文里有二义性。哲学层面的推理是人类的联想与思考,而模型的「推理」更像是格式学习,通过算力提升答案准确度,它不是人的推理。


在医疗行业,推理过程必须被验证。所以我们和寻证库对接。例如我的推理结论是 A、B、C,我要标明每个结论的证据来源,并将证据分级,比如顶级期刊论文或国家指南为最高等级。我基于此做出诊断和判断。所以我们称这套为「循证推理」,而不仅是单纯消耗更多 Token 的思考方式。


因此,合成数据、多模态、循证推理是 2.0 的三大演进,也是它值得一个新版本号的原因。


此外它有个很酷的 demo,展示推理过程是多模态的。我们不仅能在文本中说明「因为 A、B、C」,还可以拿一张影像片,直接锚定到病灶,说「基于肺部这个病灶状态,我做出这样的推理」。所以它的推理过程是多模态交互的。


👦🏻 Koji


您提到第一个大升级是用了大量合成数据,这些数据是医患问诊对话。您说用很多办法验证真实性,才能用于训练。我好奇如何验证?


👦🏻 王国鑫


这个问题可以统一回答:医疗领域所有模型都要面对数据准确性、模型准确性以及「怎么验证」的挑战。我们的流程是这样的:在研发过程中,我们会构建很多评测数据集做对比。但任何一个模型上线前,都会经过三步人工验证,这个成本很高。


第一步是 in-house 验证。京东健康有一个大的全科医生团队,他们会从不同科室维度评价,衡量忠实性、专业准确性、流畅度、一致性等五六个核心指标。


第二步是 third-party 验证。我们和几所大型医学院合作,他们会在合作框架下拿到模型,进行二次评估。


第三步是质控委员会验证。这个委员会由 100 多位来自各地的专家医生组成,独立进行评估。


通过这个工作让我想起 OpenAI 发布的文章《HealthBench》。当时 CEO 问我这篇文章的意义,我说它说明 OpenAI 也需要用医生来验证医疗模型。《HealthBench》大概由 60 多名医生参与,其中包括中国医生,人工手写了 benchmark,再结合技术手段进行验证。我们内部也是类似的三层模式。


👦🏻 Koji


合成数据量非常大,在只有 100 多位专家的情况下,怎么核验这么多数据呢?


👦🏻 王国鑫


流程可以理解为一个漏斗。


第一,漏斗不是一天灌满的。在持续迭代中,我们能发现模型问题和合成数据 bug,更容易分级。第二,漏斗上层主要依靠技术手段,尽量让机器的评估接近人的评估。研发同学的目标是尽量减少流到下层的数据,同时确保严重问题能流到下层。


所以可以认为这是一个持续迭代的漏斗。我们不会逐条验证所有数据。但从概率角度看,大模型本质是个贝叶斯模型,我们要做的是提升整体概率,把严重、易错的留到下层,把简单直接的留在上层,通过技术手段实现。


垂直模型在哪些具体问题上能秒杀 GPT?


👦🏻 Koji


其实我自己有个很大的好奇。比如说我今天身体不舒服,第一反应还是会去问 ChatGPT。很多时候它给我的答复我觉得也还蛮准确的。那我就想知道,咱们作为一个 80 多人的团队,花了那么多时间和精力去训练医疗大模型,在哪些地方能比基础大模型做得更好?能不能举个具体的例子?如果我去问咱们的模型,而不是 ChatGPT,会得到更准确、更全面的回应吗?


👦🏻 王国鑫


这个例子其实挺多的,可以从两个角度来说:一个是单模态,一个是多模态。


先说单模态。真正的医疗大模型需要具备「拟专家能力」,更贴近医生的思维方式,而不是面面俱到的百科模式。患者可能愿意问很多问题,但从医生的角度,更重要的是通过几个关键问题迅速做出判断。通用模型通常会基于教科书知识,把所有可能性都列出来,然后事无巨细地追问。但医疗模型要像医生一样,基于病种的核心问答快速判断,而不是给出一长串可能性。这并不是通用模型做不到,而是它不符合医学实践和伦理。


再说多模态。比如影像。很多人平时会用大模型翻译文章、读论文,觉得挺好用。但如果让通用模型去解读医学影像,效率就会大打折扣。我们的模型在这方面专门优化过,比如定位(positioning)、脏器对称性、小病灶识别的敏感度。通用模型不会针对这种数据做专门优化,因为这不是它的主要商业模式,而且存在数据壁垒。所以在多模态的效果上,我们和通用模型差异明显。


👦🏻 Koji


多模态我非常能理解。但在单模态里,如果只是一些常见的小病,比如感冒,可能基模和垂直模型的答复差不多吧?那需要到什么复杂度或专业度的问题,差异才会更明显?


👦🏻 王国鑫


其实发烧就是个很好的例子。你可以去分别问通用模型和我们的 agent,再让真实医生 review 一下答案,就能看出区别。通用模型会事无巨细地列出很多可能,因为它学习到发烧是极其普遍的症状。但在医学实践里并不会这么做。专业模型会更符合医生的习惯和医学规范。


👦🏻 Koji


我们回头就可以在基模和咱们的模型里分别问这个问题,然后把对比结果放到播客的 shownotes 里,让感兴趣的朋友自己看看。


(编辑注:关于播客中提到的“京东大健康模型”vs“ChatGPT等基础大模型”在同一医疗健康问题下的对比,嘉宾认为 1-2 轮的问答体现不了特性,大家感兴趣的话,建议在京东搜索“AI医生”自行体验。欢迎交流体验后的感受。)


👩🏻 Ronghui


我比较好奇,像 OpenAI 也会针对医疗做一些评测,比如跑分。我看到你们也公布了 Medbench 的成绩。对普通用户来说,最直观的可能就是看谁分数高。那怎么让用户更直观地感受到准确性呢?


👦🏻 王国鑫


这是个体验的问题,而不仅仅是跑分。坦白说,跑分更多是技术指标,帮助我们知道达到某个水位需要做什么。但跑分和实际体验并不是 100% 对应的,这也是大模型评测的难点:看起来大家都不差,但真实使用中还是有差异。这里涉及模型本身、产品设计,甚至交互设计的问题。


在我们看来,好的体验就是尽可能模拟专家的服务能力。但医学最重要的还是诊断准确和处置有效,这一点甚至比体验更重要。当然我们也训练了共情能力,比如让模型学会嘘寒问暖,说些体贴的话。但这部分能力是通用的,可以和医疗模型剥离开。医疗模型的核心永远是诊断和处置的准确性。


至于跑分,我们内部的态度是:可以跑,也可以不跑。很多时候跑分结果和我们内部资深专家评估对不上。我个人还是更相信真正专家的评价。


👦🏻 Koji


毕竟跑分的评判维度也是另一群专家定义的,只是他们的标准和医生的标准不完全一样。


👦🏻 王国鑫


对,而且那些标准是固定的。


👦🏻 Koji


说回用户体验的话题。昨天在 JDD 大会(京东全球科技探索者大会)上,我看到咱们「京医千询」的展区,就去和产品经理交流。我问了和刚才类似的问题:在医疗问答里,基模和你们的区别是什么?


他给了一个很有意思的回答:在京东健康 APP 里会为用户建立患者档案,记录既往病史和慢病情况。这样同样的问题,不同的人会得到不一样的答复,因为会结合个人的健康信息。同时,APP 还能建家庭档案,比如帮孩子、父母提问。这看似是个小功能,但我觉得基模很难做,除非做到极细分。而在垂直健康产品里,这反而是很有价值的。


👦🏻 王国鑫


是的,我认同您的观点。


👦🏻 Koji


刚才您提到情商不是医疗大模型的「圣杯」之一。但比如王小川在谈「百川要造医生」时就强调过沟通的重要性:医生不仅要懂医学,还要会和患者及家属沟通。那从你们的角度,是否也在尝试让 AI 更像专家一样安慰患者,帮助他们理性接受诊疗方案?


👦🏻 王国鑫


在内部,我们的评测体系分为两条线:体验线和专业线。治疗准确、问诊准确、方案准确都归在专业线;沟通技巧、安慰、沟通能力则归在体验线。沟通技巧和专业本身并不冲突,很多时候模型能力是可以正交的。


从研发角度看,我们可以用一部分数据和算法提升专业力,用另一部分数据和算法提升共情能力,把它们训练在一个模型里,再通过提示词激发。大模型参数量达到一定规模后,就具备泛化能力,不像以前必须背完整数据。


所以我同意「沟通极其重要」。但医学是高信任领域,专业性绝不能妥协。沟通更像车机系统,而专业性更像自动驾驶,两者逻辑和稳定性要求不同。模型回答知识已经像模像样,但要成为高水平的倾诉对象很难。换句话说,内科医生的难度低于心理医生,而心理医生的难度远高于内科医生。


提升共情能力很必要,但难点在于如何评估和衡量模型的共情力。我们行业有一句话是:「当一个指标能被测量,就能被优化。」今天有很多模型能模仿声音,我相信模仿声音很容易,但如果做一个 Ronghui 的数字人,Koji 前几分钟可能觉得像,再过一会儿就觉得不像。所谓真正的拟人感、高水平的沟通,可能需要更大投入和新的技术突破。


所以对我来说,这是资源分配问题。专业性不能妥协,同时尽量提升服务水平,但我承认服务水平在技术上仍有难点。


👦🏻 Koji


咱们有在做心理健康类的大模型吗?


👦🏻 王国鑫


我们考虑过心理健康大模型,也与国内头部心理健康医院合作过。这是北京科委支持的项目,核心是一个心理健康的数字人,前端的数字人和背后的模型都由我们研发,主要用于缓解患者的焦虑和抑郁。临床实验还没完成,但目前结果积极。


不过,从模型角度看,我们没有过分强调它是心理健康模型。现在还是主要聚焦常见病和重病,心理方面的投入相对少一些。


👩🏻 Ronghui


前面几次也提到过数据获取的问题。昨天活动上你们也说和很多医院合作,那训练数据是通过什么方式获得的?


👦🏻 王国鑫


我们的数据主要有几个来源:


第一,与数据中心合作。医疗数据涉及确权和合规,必须强脱敏、强匿名化。我们通过数据中心合作,获取的都是高度匿名、合规的数据。最近还与一个国家级数据中心签约,合作围绕大规模多模态模型展开。


第二,研发思路是:互联网数据、京东健康自有数据和合成数据构成基线,再通过数据中心合作形成一个私有数据基线。我相信通过数据中心能拿到省级数据单元,大量数据覆盖绝大多数常见病。


第三,与单点顶级专科合作。他们有长周期的队列数据,多是疑难问题。我们目前和十几家顶级医院合作。在大模型上,结合数据中心训练,再用少量单点数据提升模型能力,这是我们的假设。合规上,数据通过科研合作协议获取,走三方脱敏的方式。


我认为未来医疗领域大多数公司都会走这条路。


👦🏻 Koji


前面提到咱们和一些医院有合作。现在医院对我们做医疗大模型的态度和评价是什么?他们会有担忧或顾虑吗?还是普遍比较积极支持?有没有哪位医生或院长给过你让你印象深刻的反馈?


👦🏻 王国鑫


其实相反,他们整体上是很支持的。我过去三年一直跑医院,体感上支持力度是越来越大。最早可能是一些院士从国家角度推动,后来到院长,现在很多大主任也有这个趋势。


合作医院有几个核心任务。


第一是学科建设。作为国家级医疗中心,他们有责任发展学科,而 AI 固化能力、支撑学科建设是必然的,医生培养也是必然任务,所以他们必须参与。


第二是服务患者。他们强烈希望延伸自己的服务能力,把经验进一步传递,这既是愿望也是责任,所以很愿意合作。


第三是 AI 已经进入医生的日常。特别是年轻主任,他们对 AI 的认知往往比我们还深。我认识一位院士学生、很年轻的主任,他对不同模型的能力评测和认知让我非常惊讶。未来成长起来的这一批优秀医生,一定会广泛使用 AI 工具提升效率。


当然医生群体内部差异很大,对 AI 的看法完全不同。我直观感受是:去年之前大家强调「不能犯错」,而今年已经转向「允许犯错,但要可控、要协同」。他们更关注哪部分可以替代、哪部分不能替代、如何落地场景,甚至会主动一起找场景、想办法。


这让人既兴奋又有压力,因为临床场景极其多变,对模型泛化能力提出更高要求。


👩🏻 Ronghui


那他们的反馈里,哪些领域最希望能尽快由 AI 提供帮助?


👦🏻 王国鑫


主要集中在三个领域。


第一是患者服务。很多医生看完病就结束了,但患者用药跟踪和诊前管理仍需要支持。医院很希望有类似服务机器人的 AI,能低成本、长周期陪伴患者,从而提升治愈率或康复水平。诊断只是一个决策,真正的健康掌握在个人手里,所以医院在长周期服务和转型上的需求很大。


第二是科室级研究。研究水平和人员培养对医院非常重要。未来医学院一定会思考如何用 AI 降低学习成本和犯错率。很多研究型医院会希望与我们共建科研平台,把他们的队列交给我们做自动化挖掘,从患者中发现新机会,探索新的疗法。


第三是效率。医院已经不能靠增加人力来解决问题,成本压力太大。所以他们更需要「助手」或「助理」型工具。有的医院甚至提出「医生分身」,用数字人的方式,把患者服务和效率结合起来。


底层来看,需求最集中的还是这三类场景。


AI 医院:一场争夺「未来健康第一入口」的阳谋


👦🏻 Koji


这次咱们还发布了另一个产品——AI 医院 1.0。能不能向大家介绍一下,这是一个什么样的产品?对普通用户来说,它能带来哪些帮助和价值?


👦🏻 王国鑫


其实背后的逻辑很朴素。我们叫它 AI 医院,核心想法是:医疗服务专业属性很强。过去我们研发了很多 agent,比如心理医生、内科医生、药师、营养师等。每个 agent 都能在单点上做到极致优化,这是垂直 agent 的优势。


问题在于:这么多 agent,我们是让用户各自去找,还是把它们整合到一个统一入口?后者是我们希望做出来的。用户但凡有点不舒服,就能想到来这里,这就是我们希望建立的「心智入口」。因此取名 AI 医院,某种意义上,它代表了京东健康对未来健康入口的探索和争夺。


👦🏻 Koji


未来健康的入口。


👦🏻 王国鑫


对,我们甚至可以称它为「第一入口」这样更强烈的词,哈哈。


👩🏻 Ronghui


我感觉这个产品可能会包括两个方向:


第一,在一线城市,用户的认知正从「看病」转向「健康管理」。比如很多人会主动建健康档案,从被动看病转向主动减少生病的可能。


第二,在非一线城市,医疗资源缺口更大,AI 医院有机会成为获取更优质医疗服务的入口。


👦🏻 王国鑫


完全认同。AI 和移动互联网的本质区别在于:移动互联网改变了人和信息交互的方式,而 AI 更像是一种 B 端生产力。虽然谈 B 端在国内不算性感,但 AI 的核心确实是对 B 端的赋能。


如果推演未来:


  1. 大医院通过医联体或兼并的方式辐射地方,承担复杂诊疗和康复服务。
  2. 在更细粒度的社区,AI 辅助当地医生,负责筛查、分诊、问诊、转诊。
  3. AI 还能以低成本方式延伸服务,连接有效医疗资源。


如果从中国未来看,随着人口老龄化和地域差距加大,这种模式大概率会形成。当然支付模式也会随之变化,但那是另一个话题。


👩🏻 Ronghui


那你们计划如何让它真正落地?尤其是让最需要的人用到,而不只是停留在你们的产品层面?


👦🏻 王国鑫


其实京东互联网医院本身就在做这件事。互联网医疗的底层逻辑是异地医疗资源匹配和 7×24 小时可得性。AI 并不是一个全新的故事,而是叠加在原有互联网医疗基础上的进一步提升。换句话说,AI 医疗是互联网医疗的自然延伸。


👦🏻 Koji


说到「京医千询」,它是开源的吧?能不能具体介绍一下开源了哪些部分,以及为什么要开源?


👦🏻 王国鑫


先说「为什么」。医疗是一个信任驱动的行业。通过开源,我们能拉动生态合作伙伴参与进来,展示技术能力,让外界试用模型并反馈,从而反哺研发和生态建设。这是必须做的事情。


我们的开源力度也比较大:不仅模型开源,还包括训练代码和部分训练数据。我们希望参与者能真正复现工作,而不是只拿到一个结果。


👦🏻 Koji


也就是说,开源的核心目标是建立信任。那么开源之后,你们感受到这个目标实现了吗?有没有收到一些来自社区或合作伙伴的反馈?


👦🏻 王国鑫


主要反馈来自研究机构,包括大学和医院。尤其是小规模模型,很多合作医院会主动测试。这对我们推动专科合作帮助很大。开源让别人看到我们是真正做事的团队,增强了信任。


所以最大的收获是:医院和研究机构更愿意和我们合作。信任本身是无价的,而开源在这个过程中发挥了重要作用。


👩🏻 Ronghui


你前面提到,希望产品能够占领用户心智。我觉得确实有可能。尤其是如果越来越多的用户习惯用 ChatGPT 或其他 chatbot 来询问医疗问题,这对你们的入口优势会有影响,甚至可能冲击整个商业模式。那么你们是期待 AI 模型、AI 医院和现有的商业模式之间能产生怎样的联动?


👦🏻 王国鑫


在谈 AI 的商业模式时,我认为有几点是最有价值的。第一,是「高可靠替代」。哪怕只在一个很窄的领域,AI 如果能做到 99.9% 的可靠替代,这就非常重要。第二,是「连接」。AI 是否能成为更好的纽带,把消费者和服务连接起来。


在医疗领域,这两点都存在机会。结合京东健康的模式,我们必须回到集团的核心逻辑:我们是一家供应链驱动的公司。也就是说,我们的优势在于用最低的成本提供最优质的产品和服务。AI 在其中能起到巨大的连接作用。所以,对我们来说,入口型产品必须去争夺、去推进。


京东健康不仅是互联网公司,我们还有实体医疗机构和到家服务能力。比如,在很多城市,我们能做到 30 分钟送药上门。我们有体检中心、医院和药品供应链。在这个过程中,AI 的角色就是把这些服务能力连接起来,为患者提供一整套个性化的解决方案。


所以,这不是「要不要做」的问题,而是「怎么做」。未来的竞争,肯定会从单点的 chatbot 争夺,走向「chatbot 体验 + 后端服务能力」的结合,最终看能不能带给用户满意度。医疗的核心是有效性,只有有效才能生存。


👩🏻 Ronghui


那在后端服务上,你们会不会担心它影响前端 chatbot 的信息传递?


👦🏻 王国鑫


不会。我们把后端服务尽可能原子化。举个例子:护士上门做检查,就是一个原子化服务。模型的作用是:根据患者当下情况和沟通结果,判断是否需要触发这个服务,费用多少,以及患者是否愿意。


模型解决的是信息侧问题,而后端的供应链负责执行。我们的供应链不只是商品,还包含服务。这些能力是京东健康建立用户心智的基础。如果没有这些,我们就只是漂浮在空中的互联网公司。


京东的核心心智就是「高效率、低成本的服务能力」。在这个基础上,我们才有机会打造入口型产品。虽然入口产品难,但所有 AI 公司现在都在想这个问题。


👩🏻 Ronghui


那像其他基模公司呢?他们会不会基于用户在 chatbot 里的医疗咨询,去延伸出一些产品或服务?


👦🏻 王国鑫


很多基模公司都非常关注健康赛道。尤其一些大型 chatbot,有很大比例的流量是健康相关。这和当年搜索引擎占据心智的逻辑很像。很多人现在还是把大模型当搜索用。所以,对他们来说,这是一个非常想做的赛道。但关键问题在于:这个行业到底有没有门槛?商业化成熟度够不够?


对京东来说,我们更多把他们当合作伙伴,而不是竞争对手。另外,京东也在 JDD 大会上发布了自己的通用 chatbot——全新升级的 JoyAgent3.0。我当然希望它能在市场上快速站稳一席之地,推动集团内部产业协同。


👩🏻 Ronghui


Nico,可以跟我们讲讲 AI + 医疗在更广范围,比如美国、欧洲和中国的差异?在这些市场,有哪些值得关注的创新或成功案例?比如,美国的 OpenEvidence 在融资和收入方面都做得不错。


👦🏻 王国鑫


医疗 AI 在海外和国内的迁移性不像其他行业那么强。关键差异在于支付逻辑(payer)和医疗体制。中国强调效率和公平,虽然大家抱怨「看病难、看病贵」,但如果放在美国,问题会更严重。


OpenEvidence 在美国能商业化,很大原因在于医生收入高、诉求强,他们愿意为工具付订阅费。但在国内,我们的模式是免费的,比如这次开放的寻证库,完全没有订阅费。这就是「橘生淮南则为橘,生于淮北则为枳」。


不过,也有一些海外模式值得关注。比如,美国有不少 AI 驱动的互联网医疗 + 特色药品服务公司。以 Hims 为例,它定位是「让人变美、变好」。本质上是依靠特色药品供应链,但前端获客和服务都是 AI 化的,不断给用户健康建议。


总体来看,医疗解决方案往往还是药品、器械或生活方式改变。AI 可以帮助医院提升服务,也可以帮助药企、器械厂商或数字疗法公司服务用户。


除此之外,还有给医院端的 AI 服务模式。国内医院的信息化渗透率已经比较高,但采购周期很长。我们也有智慧医疗部门,比如京东卓医(JOY DOC),目标是用 AI 改造医疗和患者服务。


最后就是 ToG,面向政府,服务医保和卫健委。这在美国相对较少。


总结来说,中国市场的商业机会,最终还是会回到患者服务这个赛道,更符合本土土壤。


给普通人的建议:如何利用 AI 更好地生活?


👦🏻 Koji


Nico 刚才也讲到,这三年你经常跑医院,也在沉浸式地思考 AI 加医疗如何真正帮助大家变得更健康。那如果回到一个朋友聊天的场景,今天我们见面了,我问你:你研究了这么多 AI 和医疗健康,现在能不能给我们一些建议?就是那种小的、可行性高的,让听众听完后就能拿去用一用,从而让自己过得更健康的办法。你会怎么回答?


👦🏻 王国鑫


从长周期健康来看,影响因素主要有两个:一是个人在慢病和免疫力上的表现,二是重症风险。随着年龄增长,在健康检查和提前预防上的投资一定是值得的。


举个例子,35 岁之后,我认为每年都应该拿出一部分固定预算投入到个人和家庭健康上。这笔钱不需要很多,但必须固定拿出来,有意识地通过经济手段推动自己行动。从统计学来看,这实际上是省钱的,因为很多疾病早期发现是可以治愈的。关键是要设立预算,并在预算范围内找到最好的医疗服务。


👦🏻 Koji


对,我觉得这个非常有意思。就是钱先拿出来,再去研究怎么花,倒逼自己去做事。比单纯说「大家要去体检」更有效,因为必须把钱花掉,不然年底就得给自己一个惩罚。


👦🏻 王国鑫


对。当然不是每个人都需要去做胃肠镜,这取决于家族史和个人风险。我只是举个例子。核心逻辑就是:先设预算,再去做适合自己的健康投资。健康本身挺反人性的,往往只有失去的时候才意识到它的重要。


👩🏻 Ronghui


那 35 岁以下的人怎么办呢?


👦🏻 王国鑫


道理是一样的。尤其要关注家族史和自身状态。有些事情是可以长期坚持的,比如监控血压、血糖。这看似简单,但对早发现、早干预非常有帮助。同样是糖尿病,早发现早控制和晚发现晚控制的结果差异巨大。很多疾病在早期是有解法的,一旦错过窗口,就只能缓解而无法根治。


投资人视角:如何判断一个垂直大模型公司?


👦🏻 Koji


我们聊了很多医疗大模型,但其实听众里很多人并不在医疗领域,而是做各种垂直模型的。你觉得医疗大模型的经验,能如何迁移到金融、法律等其他领域?


👦🏻 王国鑫


其实这些行业的技术思路很相通。医疗、教育、法律、金融,本质上都是在复杂情境中建模和优化。比如教育里的个性化学习路径,法律里的多步推理,金融里的投资组合推荐,都需要处理高度结构化的数据,并进行融合推理。这就是为什么医疗的经验很容易迁移到这些行业。


👩🏻 Ronghui


那如果你是投资人,你会怎么判断一家垂直大模型公司能不能做起来?你最关心的指标是什么?


👦🏻 王国鑫  我主要看三点:


  1. 行业知识深度:有没有真正的数据壁垒和专业知识积累。这是个 0 和 1 的问题,没有壁垒就不成立。
  2. 商业机会大小:不能太大,否则大公司入场就没机会了;但也要能在近期实现变现,讲得通。
  3. 未来商业落地语气:未来是走 API 付费、产品付费,还是销售驱动?这取决于团队里商业合伙人的能力和思考。


👩🏻 Ronghui


今天非常感谢 Nico 来做客「十字路口」,分享了很多在医疗大模型上的经验。这个领域既有价值,又备受关注和期待。我们也希望 AI 能真正让更多人享受到技术带来的医疗成果。


👦🏻 Koji


谢谢。


👦🏻 王国鑫


谢谢二位,拜拜。



文章来自于微信公众号 “十字路口Crossing”,作者 “十字路口Crossing”

AI中国

AI中国

10620 文章 1906418 浏览次数 950300 粉丝

评论 (0)

睡觉动画