拜托了，AI！帮忙解决「看病难、看病贵」吧｜对谈王国鑫：京东健康探索研究院首席科学家

让每个人都能获得均等的医疗服务水平。

最近，美国多家 AI+医疗明星公司接连传来进展：OpenEvidence（医学知识搜索）的 ARR 已突破 1000 万美元，每天有上万名医生付费使用；Abridge（临床文档转写）完成 2.5 亿美元融资；Tempus AI（肿瘤学与精准医疗）已在纳斯达克上市，市值一度超过 60 亿美元；Hippocratic AI（医疗专属大模型）估值也已达数十亿美元。

这些公司共同展示出一个趋势：AI 正在全球范围内迅速重塑医疗行业。在国内，AI+医疗同样在如火如荼地发生。硅谷知名风险投资机构 a16z 预言：医疗保健将成为从 AI 中受益最多的行业。

因此本周，我们邀请到京东健康探索研究院首席科学家王国鑫 Nico，请他分享「京医千询2.0」大模型与「AI 医院」的研发与应用。他不仅谈到在企业战略层面，AI 产品如何通过京东健康的医检诊药生态，来满足用户健康需求，也解析了以 OpenEvidence 为代表的美国初创公司目前在 AI+医疗方向的主要探索与不同侧重。

医疗是监管最严、数据最敏感、决策最攸关生死的垂直领域。因此，Nico 今天分享的经验和方法——如何找到真实痛点、如何积累专业数据、如何在产品和战略层面争夺用户心智——**对所有垂直大模型行业都具有启发意义，**相信也能给正在思考 AI 落地的你带来一些参考与帮助。

最后，Nico 还带来了他作为科学家的个人健康管理小技巧，简单实用，谁都能用得上。

快问快答

👩🏻 Ronghui

大家好，欢迎来到这期的「十字路口」。我们邀请京东健康首席科学家王国鑫，来聊一聊医疗大模型。医疗大模型是一个典型且特别的案例，我们想通过它探讨，是否所有垂直场景的 AI 创业都会遇到类似的问题：数据从哪里来？如何验证商业落地？如何实现？这也是我们第一次在节目里邀请到一个公司 C-level 的首席科学家，我就直接叫 Nico，请 Nico 跟大家打个招呼。

👦🏻 王国鑫

大家好，很高兴参加「十字路口」这个节目，谢谢。

👩🏻 Ronghui

那我们进入快问快答。年龄？

👦🏻 王国鑫

40 岁。

👩🏻 Ronghui

你现在是在京东健康探索研究院的第几年？

👦🏻 王国鑫

第三年。

👩🏻 Ronghui

在这之前是做什么？

👦🏻 王国鑫

主要做搜索和多模态技术。

👩🏻 Ronghui

你的 MBTI 和星座？

👦🏻 王国鑫

ENFJ，双子座。

👩🏻 Ronghui

用一句话介绍你们现在在做的这个产品。

👦🏻 王国鑫

我们在做的产品是京医千询的医疗大模型，以及基于它的 Agent 医疗服务。

👩🏻 Ronghui

方便介绍现在的收入和利润吗？

👦🏻 王国鑫

这是送命题。其实现在 AI 整体还没有完全跑通商业模式，但京东健康上半年营收超过 350 亿人民币，净利润超过 35 亿人民币。这块业务对我们来说主要是回答医疗服务的未来，以及公司未来的方向。

医疗数据的「痛并快乐着」

👩🏻 Ronghui

其实你也说了，它现在扮演的是一个向未来沟通的角色，在公司的战略规划里，它是什么作用？

👦🏻 王国鑫

基本是核心战略。医疗本质上是供给受限、服务成本极高的行业。每个人对健康的需求是无限的，我相信每个人都想长寿。所以 AI 在这里最大的作用就是能否提升供给水平。它虽然很难，但不仅京东健康，所有立志在健康领域发展的公司，甚至国家层面，都对这项技术极其重视。

👩🏻 Ronghui

我们先来说说你们正在做的产品。大概 10 年前就开始做这个方向，2018 年开始做互联网医院，现在的工作可以说是那个时候的延伸？

👦🏻 王国鑫

可以这么讲。

👩🏻 Ronghui

你们在准备做医疗方向大模型的时候，主要考虑什么？

👦🏻 王国鑫

作为一家公司，从逻辑上要回答技术能带来什么。最早京东健康之所以具备部分 AI 能力，是因为我们每天有超过50万路医疗服务进线，也就是超过50万人次寻医问药。如果没有 AI 分诊和质控技术，一方面无法满足精准的医患匹配，另一方面也无法保证线上医疗服务合规合法。

所以京东最初做 AI 的逻辑是，把业务装在合规的框架里，同时降低成本。这是第一阶段的目标。

第二阶段，我们团队做过数字疗法、甚至部分脑机接口的探索。因为医疗不仅是线上视频或电话咨询，还需要了解日常生活状态、检验检查结果。所以我们要把数据向两端延长——治病前的健康状况、治病后的恢复状态都要覆盖。在这种情况下，数字疗法技术变得重要。再往后就是大模型时代。

大模型最大的吸引力在于它表现出类人的水平，尤其是指令依存能力。它在医疗服务中不仅承担精准匹配和合规属性，还可能具备类医生的服务水平，从而极度降低成本。如果能力进一步提升，它甚至可能成为生命伴随的一部分，就像亲人一样长期陪伴。

这就是新一代大模型与前几代 AI 的根本不同，它尝试解决医疗最根本的痛点——供给能力，以低成本方式实现。而现实中，部分人因社会地位或财富可以享受专家级服务，但大多数人无法享受。欧美社会分层更严重。反过来，AI 对行业的价值就是能否低成本扩大供给。如果做到这一点，每个人都能获得均等的服务水平，每个人都可能延长 3~5 年寿命。这是医疗 AI 能为社会和国家创造的价值。

👦🏻 Koji

我一直很喜欢一个说法：大模型可能让很多人工作效率拉开差距，但它一定能提供一个价值，就是让所有人的情绪得到平权。过去很多人有心理疾病，却得不到照料，因为心理医生严重稀缺。而大模型可以「看见」所有人，接住所有人的情绪，甚至提供抚慰。刚才 Nico 讲到京东做健康大模型，可能就是从精神健康领域泛化到整个健康领域，给所有人带来医疗上的建议和指导。

👦🏻 王国鑫

这至少是我们的愿景，我们也会努力。

👩🏻 Ronghui

医疗是垂直领域的模型，需要大量专业数据。它的优势是数据理论上应该高度标准化，但难点在于采集和使用结果的影响很大。

👦🏻 王国鑫

医疗有几个特点，可以说「痛并快乐着」。

一方面，过去多年国家推进信息化和医院考核，使医院数字化水平相对更高，这是事实。比如病例有严格规范，影像有云数据和质控，国内医疗体系花了巨大力气跨过了信息化阶段。这是做医疗模型的幸运。如果还停留在纸质报告和手工挂号，谁也做不成。

另一方面，仍有难度。第一，医学数据往往不可能记录完整，受限于工作需求、流程需求，或者确实没必要记录大规模完整数据，医院的首要责任还是救死扶伤。

👦🏻 Koji

现在记录的数据也多是提炼后的。

👦🏻 王国鑫

很多是提炼数据，质量也不一定满足需求。

第二，模型学习和人类学习有差异。人类医生通过病例归纳提升认知水平，而模型仍主要依赖原始数据训练，需要大规模推理或原始数据。但在医疗中，这些数据并不存在。很多时候，医生在病历中写下的只是结果，思考过程没有记录。而人类通过大量归纳和口口相传，能习得经验。这也是为什么近几年有个概念叫「self-learning」，模型何时能学会「学习」，可能是 AGI 的重要组成部分。

第三，医疗数据有敏感性和复杂性。病例数据往往分散在不同医院，确权也有问题：数据属于医院、医生还是患者？此外，还有专业壁垒。比如检验检查结果互认，直到最近才推广。其原因是即便是 CT，也可能因设备或仪器不同导致结果差异，并不完全共识。这不一定是医院逐利，而是为了降低风险。

因此，医疗模型复杂性高、敏感性强、专业壁垒大。也正因如此，它是垂直领域里最难，也是最有价值的模型方向。困难是所有做医疗 AI 的人都面临的，大家都在同一赛道上，单点技术优势很难改变现状。

一个内部申请预算的公式：什么样的行业值得做垂类大模型？

👦🏻 Koji

说到垂直模型，正好想追问一下。在您看来，除了医疗的垂类模型，还有哪些行业需要这样的垂类模型？因为今天有一个论调叫做基模会变得越来越厉害，很可能之后能满足泛化的很多需求。但医疗这个领域似乎确实需要大模型。在您看来还有哪些领域需要这样的垂直大模型？这背后是否可以抽象出一些特征？

👦🏻 王国鑫

我先回答最后一个问题，就是抽象逻辑。因为我自己在内部也要申请预算，必须得说明做这件事的必要性。我觉得逻辑有几个点：

第一，这个行业的数据是不是相对低成本可获取，或者低成本可模拟。如果满足这一点，它就有必要性。

第二，它的商业模式是否足够显见。如果太显见，反而可能没有垂直的机会。

我们可以用数据和商业化两个维度来划分。举个例子，如果数据显见、低成本可模拟，那说明行业知识门槛不高，容易被新技术替代，这就比较困难。比如教育模型，有人说 AI 可以做更好的数学老师或英语老师。今天普遍认为学习语言时，AI 的教育能力可能比人更强，因为知识显见、可模拟，同时还能克服大家的心理障碍，比如和陌生人讲外语的紧张感。

还有一种情况是知识不外显，需要花很大力气治理，但它的商业模式足够清晰。这时摆在我们面前的就是代码。现在的代码模型往往是独立模型，甚至可以说 Claude 就是为代码优化的模型。某种意义上，所谓的 coder model 就是垂模。它之所以也被通用模型公司重视，是因为商业模式太清晰，通用公司无法拒绝。哪有一家通用公司不写代码？换句话说，我们这类人力成本太高了，所有公司都有个愿望：怎么能用机器人替代整个团队。当然这是玩笑，但说明商业模式极其外显。

所以总结来说，垂直模型的两个条件：

数据是否拥有独占性、独特性和迫切性；
商业模式是否足够清晰且重要到无法放弃。

👦🏻 Koji

对，我想到我们上一期播客的嘉宾，是 3D 大模型 VAST 的创始人。他提到他们训练数据是非常核心的竞争力。当问到数据来源时，他说如果说了，最底层的商业机密就暴露了。

再回到医疗大模型。您怎么看在大家熟悉的「看病难、看病贵」这些问题上，到目前为止，AI 已经带来了哪些改变？未来三到五年还会带来哪些新的改变？

👦🏻 王国鑫

我觉得 AI 首先改变了信息获取的平权。这件事其实非常了不起。以前大家有病时，第一反应是用搜索引擎获取信息。但搜索引擎的商业模式是竞价排名，本身就促进了信息错配，而不是合理适配。我们也和监管部门讨论过这个问题。

大模型解决了一个关键问题：能否更真实地遵守物理结果。今天大模型在商业模式上，大家都在思考，但很少有人把信息匹配当成商业模式。大家追求的是如何提供高质量、可信的知识与信息服务。没有人去挑战信息匹配的问题，它已经从「信息匹配」转变为「信息绝对正确的生成」。最优秀的团队追求的就是这个目标。

所以不要低估我们从搜索引擎模式转向问答、chatbot 模式的意义。它背后是普通人获取信息的准确性快速提高。从医疗角度看，「看病难、看病贵」的前提是有一个健康认知。大家要尽可能减少疾病发生。比如 40 岁以上人群的胃肠镜渗透率、体检渗透率、检验检查质量，这些都可以通过 AI 辅助进一步普及，相当于教育患者、教育整个社会。

👦🏻 Koji

所以你的意思是，大家在和 AI 对话过程中会听到更多健康建议，比如去做体检、胃肠镜等？

👦🏻 王国鑫

对，我觉得这是第一步。

第二步是今天正在解决的问题：能不能通过模型解决分诊问题，区分用户的状态。我能否识别你是轻症、重症还是急症？轻症可以给出标准解决方案，重症和急症则快速链接到医疗资源。原有 AI 系统做不到这一点。以前要么挂号，要么去互联网医院找医生。而现在，如果 AI 平时就采集你的数据，在关键时刻还能针对病情变化直接导向资源，就解决了匹配成本的问题，降低了复杂性和心理门槛。

第三，就是根本问题： AI 辅助诊疗能达到什么水平？这是大模型的核心战场。如果辅助诊疗足够可信，人工只需 review，那至少在普通疾病上，服务能力就能延伸到 7×24 小时，对人的要求逐步降低，这其实就部分解决了「看病难」的问题。

最后讲「看病贵」。这里主要是急症和重症。AI 的最大帮助不在服务层面，而在疗法研发。今天每天都有大量医学论文发表，我自己都看不完，我只能去看最高水平的论文。医生是终身学习的职业，他们更不可能全部跟上。所以我们呼吁有面向医生的 AI，持续提升他们的能力。医生的水平提升，才是提升整体医疗水平的根本。

另外，AI 已经成为制药和新疗法研发中的核心组件。它不像 ChatGPT 那样是 toC 产品，但影响很深。今年创新药行情火热，背后逻辑是中国企业 BD 出海的能力增强，license 出售增多，研发速度提升。这从根本上推动了解决「看病贵」。

所以总结来看：

AI 帮助我们提升健康意识，减少错误信息。
AI 提升轻症和中低级别疾病的诊断水平，降低心理和服务门槛。
AI 在医生培训、新疗法和新药研发中发挥核心作用。

从长周期看，这三点是 AI 改变「看病难、看病贵」的最重要方向。

👩🏻 Ronghui

你刚才提到的愿景很美好。但除了医生资源不足这个问题，其实还有一个门槛：对很多人来说，使用 AI 本身也需要学习，他们也需要被教育，这同样是个挑战。

👦🏻 王国鑫

我对此有一点不同的看法。举个小案例：有一次我坐航班，航班延误了，旁边一位大爷掏出手机拍机舱。我好奇地瞄了一眼，发现他在问一个 chatbot：「这是什么飞机？机型是什么？哪个位置最舒服？」

这让我意识到，AI 的渗透率其实比很多人想象的要高。在中国尤其如此。虽然今天的 AI 产品不像移动互联网时代那样在 C 端显眼，但在信息服务上已经展现出强大能力。从行业数据也能看到，无论是十几岁的年轻人，还是四五十岁以上的人群，AI 的使用率都很高，呈现「双高」的趋势。

某种程度上，AI 的 chatbot 正在取代搜索引擎，直接提供答案而不是信息。这也是为什么一段时间内 Google 股价承压，因为 AI 在用户眼中已经能够直接给出 knowledge 和 answer。

所以我对 AI 产品的渗透力非常乐观。我常常设想：如果回到三年前没有 AI 的时代，我们的生活还能维持今天的状态吗？我认为答案是否定的。

👦🏻 Koji

我昨天还看到一个类似的问题：如果别人都有 AI，而你没有，你愿意拿多少钱来过没有 AI 的生活？我认真想过，哪怕给我一个亿，我都要认真思考一下。

👦🏻 王国鑫

没错，这就是生产力差距带来的认知鸿沟。它不是用金钱可以轻易衡量的。我经历过从互联网到移动互联网的转变，那种「不可阻挡」的趋势，现在同样发生在 AI 上。虽然今天 AI 在 C 端的表现还没有完全迭代，但从 B 端到 C 端的渗透率已经足够优秀。否则我们不会看到几乎所有的产品都在默认放大搜索框，背后正是这种转变的体现。

京医千询 2.0：不止于文本，三大核心进化

👩🏻 Ronghui

说回垂直模型。你们的「京医千询」模型从 2023 年的 1.0 到最新的 2.0，能否给听众介绍一下主要的升级点？

👦🏻 王国鑫

我觉得主要体现在三个方面。

第一是研究模式的变化。在 1.0 时，我们主要使用真实的知识数据，比如论文、学科文章、教科书以及大量真实病例，这些构成了数据底层。而在 2.0 时，我们投入大量精力生成合成数据。

所以这次京医千询 2 不仅是一个模型，我们还把医患对话的合成 agent 免费向行业开放。它不是开源的，但大家可以通过接口使用。这对行业的贡献是，大家可以通过接口尽可能模拟真实医患对话。

👦🏻 Koji

它是直接取你们的模拟数据，还是自己进来也可以开启模拟？

👦🏻 王国鑫

它可以开启模拟，就像一个医生，你可以问它任何问题，帮它模拟问诊，它能还原诊间患者和医生的真实对话，背后由我们训练的模型支撑。这是一个新的认知。医疗模型很多时候不能完全基于现有数据，因为现有数据获取太困难，所以合成数据或 agent 模拟是必然路径。2.0 的第一个变化就是采用大量高水平的合成数据，这也得益于京东健康每天 49 万次问诊。我们有基础做这件事。

第二是在模态层面的变化。2.0 支持影像数据，包括 CT、MRI、X 光。医疗领域如果只局限在文本模态，就离真实世界很远。今天即便是咳嗽超过一周，医生也会建议做筛查，更复杂的疾病影像更是诊断核心工具。所以 2.0 在模态层面有巨大提升，不仅能理解医学语言，还能精准理解影像资料。

第三是推理的变化。以前我就说过，我不太喜欢「推理」这个词，因为在中文里有二义性。哲学层面的推理是人类的联想与思考，而模型的「推理」更像是格式学习，通过算力提升答案准确度，它不是人的推理。

在医疗行业，推理过程必须被验证。所以我们和寻证库对接。例如我的推理结论是 A、B、C，我要标明每个结论的证据来源，并将证据分级，比如顶级期刊论文或国家指南为最高等级。我基于此做出诊断和判断。所以我们称这套为「循证推理」，而不仅是单纯消耗更多 Token 的思考方式。

因此，合成数据、多模态、循证推理是 2.0 的三大演进，也是它值得一个新版本号的原因。

此外它有个很酷的 demo，展示推理过程是多模态的。我们不仅能在文本中说明「因为 A、B、C」，还可以拿一张影像片，直接锚定到病灶，说「基于肺部这个病灶状态，我做出这样的推理」。所以它的推理过程是多模态交互的。

👦🏻 Koji

您提到第一个大升级是用了大量合成数据，这些数据是医患问诊对话。您说用很多办法验证真实性，才能用于训练。我好奇如何验证？

👦🏻 王国鑫

这个问题可以统一回答：医疗领域所有模型都要面对数据准确性、模型准确性以及「怎么验证」的挑战。我们的流程是这样的：在研发过程中，我们会构建很多评测数据集做对比。但任何一个模型上线前，都会经过三步人工验证，这个成本很高。

第一步是 in-house 验证。京东健康有一个大的全科医生团队，他们会从不同科室维度评价，衡量忠实性、专业准确性、流畅度、一致性等五六个核心指标。

第二步是 third-party 验证。我们和几所大型医学院合作，他们会在合作框架下拿到模型，进行二次评估。

第三步是质控委员会验证。这个委员会由 100 多位来自各地的专家医生组成，独立进行评估。

通过这个工作让我想起 OpenAI 发布的文章《HealthBench》。当时 CEO 问我这篇文章的意义，我说它说明 OpenAI 也需要用医生来验证医疗模型。《HealthBench》大概由 60 多名医生参与，其中包括中国医生，人工手写了 benchmark，再结合技术手段进行验证。我们内部也是类似的三层模式。

👦🏻 Koji

合成数据量非常大，在只有 100 多位专家的情况下，怎么核验这么多数据呢？

👦🏻 王国鑫

流程可以理解为一个漏斗。

第一，漏斗不是一天灌满的。在持续迭代中，我们能发现模型问题和合成数据 bug，更容易分级。第二，漏斗上层主要依靠技术手段，尽量让机器的评估接近人的评估。研发同学的目标是尽量减少流到下层的数据，同时确保严重问题能流到下层。

所以可以认为这是一个持续迭代的漏斗。我们不会逐条验证所有数据。但从概率角度看，大模型本质是个贝叶斯模型，我们要做的是提升整体概率，把严重、易错的留到下层，把简单直接的留在上层，通过技术手段实现。

垂直模型在哪些具体问题上能秒杀 GPT？

👦🏻 Koji

其实我自己有个很大的好奇。比如说我今天身体不舒服，第一反应还是会去问 ChatGPT。很多时候它给我的答复我觉得也还蛮准确的。那我就想知道，咱们作为一个 80 多人的团队，花了那么多时间和精力去训练医疗大模型，在哪些地方能比基础大模型做得更好？能不能举个具体的例子？如果我去问咱们的模型，而不是 ChatGPT，会得到更准确、更全面的回应吗？

👦🏻 王国鑫

这个例子其实挺多的，可以从两个角度来说：一个是单模态，一个是多模态。

先说单模态。真正的医疗大模型需要具备「拟专家能力」，更贴近医生的思维方式，而不是面面俱到的百科模式。患者可能愿意问很多问题，但从医生的角度，更重要的是通过几个关键问题迅速做出判断。通用模型通常会基于教科书知识，把所有可能性都列出来，然后事无巨细地追问。但医疗模型要像医生一样，基于病种的核心问答快速判断，而不是给出一长串可能性。这并不是通用模型做不到，而是它不符合医学实践和伦理。

再说多模态。比如影像。很多人平时会用大模型翻译文章、读论文，觉得挺好用。但如果让通用模型去解读医学影像，效率就会大打折扣。我们的模型在这方面专门优化过，比如定位（positioning）、脏器对称性、小病灶识别的敏感度。通用模型不会针对这种数据做专门优化，因为这不是它的主要商业模式，而且存在数据壁垒。所以在多模态的效果上，我们和通用模型差异明显。

👦🏻 Koji

多模态我非常能理解。但在单模态里，如果只是一些常见的小病，比如感冒，可能基模和垂直模型的答复差不多吧？那需要到什么复杂度或专业度的问题，差异才会更明显？

👦🏻 王国鑫

其实发烧就是个很好的例子。你可以去分别问通用模型和我们的 agent，再让真实医生 review 一下答案，就能看出区别。通用模型会事无巨细地列出很多可能，因为它学习到发烧是极其普遍的症状。但在医学实践里并不会这么做。专业模型会更符合医生的习惯和医学规范。

👦🏻 Koji

我们回头就可以在基模和咱们的模型里分别问这个问题，然后把对比结果放到播客的 shownotes 里，让感兴趣的朋友自己看看。

（编辑注：关于播客中提到的“京东大健康模型”vs“ChatGPT等基础大模型”在同一医疗健康问题下的对比，嘉宾认为 1-2 轮的问答体现不了特性，大家感兴趣的话，建议在京东搜索“AI医生”自行体验。欢迎交流体验后的感受。）

👩🏻 Ronghui

我比较好奇，像 OpenAI 也会针对医疗做一些评测，比如跑分。我看到你们也公布了 Medbench 的成绩。对普通用户来说，最直观的可能就是看谁分数高。那怎么让用户更直观地感受到准确性呢？

👦🏻 王国鑫

这是个体验的问题，而不仅仅是跑分。坦白说，跑分更多是技术指标，帮助我们知道达到某个水位需要做什么。但跑分和实际体验并不是 100% 对应的，这也是大模型评测的难点：看起来大家都不差，但真实使用中还是有差异。这里涉及模型本身、产品设计，甚至交互设计的问题。

在我们看来，好的体验就是尽可能模拟专家的服务能力。但医学最重要的还是诊断准确和处置有效，这一点甚至比体验更重要。当然我们也训练了共情能力，比如让模型学会嘘寒问暖，说些体贴的话。但这部分能力是通用的，可以和医疗模型剥离开。医疗模型的核心永远是诊断和处置的准确性。

至于跑分，我们内部的态度是：可以跑，也可以不跑。很多时候跑分结果和我们内部资深专家评估对不上。我个人还是更相信真正专家的评价。

👦🏻 Koji

毕竟跑分的评判维度也是另一群专家定义的，只是他们的标准和医生的标准不完全一样。

👦🏻 王国鑫

对，而且那些标准是固定的。

👦🏻 Koji

说回用户体验的话题。昨天在 JDD 大会（京东全球科技探索者大会）上，我看到咱们「京医千询」的展区，就去和产品经理交流。我问了和刚才类似的问题：在医疗问答里，基模和你们的区别是什么？

他给了一个很有意思的回答：在京东健康 APP 里会为用户建立患者档案，记录既往病史和慢病情况。这样同样的问题，不同的人会得到不一样的答复，因为会结合个人的健康信息。同时，APP 还能建家庭档案，比如帮孩子、父母提问。这看似是个小功能，但我觉得基模很难做，除非做到极细分。而在垂直健康产品里，这反而是很有价值的。

👦🏻 王国鑫

是的，我认同您的观点。

👦🏻 Koji

刚才您提到情商不是医疗大模型的「圣杯」之一。但比如王小川在谈「百川要造医生」时就强调过沟通的重要性：医生不仅要懂医学，还要会和患者及家属沟通。那从你们的角度，是否也在尝试让 AI 更像专家一样安慰患者，帮助他们理性接受诊疗方案？

👦🏻 王国鑫

在内部，我们的评测体系分为两条线：体验线和专业线。治疗准确、问诊准确、方案准确都归在专业线；沟通技巧、安慰、沟通能力则归在体验线。沟通技巧和专业本身并不冲突，很多时候模型能力是可以正交的。

从研发角度看，我们可以用一部分数据和算法提升专业力，用另一部分数据和算法提升共情能力，把它们训练在一个模型里，再通过提示词激发。大模型参数量达到一定规模后，就具备泛化能力，不像以前必须背完整数据。

所以我同意「沟通极其重要」。但医学是高信任领域，专业性绝不能妥协。沟通更像车机系统，而专业性更像自动驾驶，两者逻辑和稳定性要求不同。模型回答知识已经像模像样，但要成为高水平的倾诉对象很难。换句话说，内科医生的难度低于心理医生，而心理医生的难度远高于内科医生。

提升共情能力很必要，但难点在于如何评估和衡量模型的共情力。我们行业有一句话是：「当一个指标能被测量，就能被优化。」今天有很多模型能模仿声音，我相信模仿声音很容易，但如果做一个 Ronghui 的数字人，Koji 前几分钟可能觉得像，再过一会儿就觉得不像。所谓真正的拟人感、高水平的沟通，可能需要更大投入和新的技术突破。

所以对我来说，这是资源分配问题。专业性不能妥协，同时尽量提升服务水平，但我承认服务水平在技术上仍有难点。

👦🏻 Koji

咱们有在做心理健康类的大模型吗？

👦🏻 王国鑫

我们考虑过心理健康大模型，也与国内头部心理健康医院合作过。这是北京科委支持的项目，核心是一个心理健康的数字人，前端的数字人和背后的模型都由我们研发，主要用于缓解患者的焦虑和抑郁。临床实验还没完成，但目前结果积极。

不过，从模型角度看，我们没有过分强调它是心理健康模型。现在还是主要聚焦常见病和重病，心理方面的投入相对少一些。

👩🏻 Ronghui

前面几次也提到过数据获取的问题。昨天活动上你们也说和很多医院合作，那训练数据是通过什么方式获得的？

👦🏻 王国鑫

我们的数据主要有几个来源：

第一，与数据中心合作。医疗数据涉及确权和合规，必须强脱敏、强匿名化。我们通过数据中心合作，获取的都是高度匿名、合规的数据。最近还与一个国家级数据中心签约，合作围绕大规模多模态模型展开。

第二，研发思路是：互联网数据、京东健康自有数据和合成数据构成基线，再通过数据中心合作形成一个私有数据基线。我相信通过数据中心能拿到省级数据单元，大量数据覆盖绝大多数常见病。

第三，与单点顶级专科合作。他们有长周期的队列数据，多是疑难问题。我们目前和十几家顶级医院合作。在大模型上，结合数据中心训练，再用少量单点数据提升模型能力，这是我们的假设。合规上，数据通过科研合作协议获取，走三方脱敏的方式。

我认为未来医疗领域大多数公司都会走这条路。

👦🏻 Koji

前面提到咱们和一些医院有合作。现在医院对我们做医疗大模型的态度和评价是什么？他们会有担忧或顾虑吗？还是普遍比较积极支持？有没有哪位医生或院长给过你让你印象深刻的反馈？

👦🏻 王国鑫

其实相反，他们整体上是很支持的。我过去三年一直跑医院，体感上支持力度是越来越大。最早可能是一些院士从国家角度推动，后来到院长，现在很多大主任也有这个趋势。

合作医院有几个核心任务。

第一是学科建设。作为国家级医疗中心，他们有责任发展学科，而 AI 固化能力、支撑学科建设是必然的，医生培养也是必然任务，所以他们必须参与。

第二是服务患者。他们强烈希望延伸自己的服务能力，把经验进一步传递，这既是愿望也是责任，所以很愿意合作。

第三是 AI 已经进入医生的日常。特别是年轻主任，他们对 AI 的认知往往比我们还深。我认识一位院士学生、很年轻的主任，他对不同模型的能力评测和认知让我非常惊讶。未来成长起来的这一批优秀医生，一定会广泛使用 AI 工具提升效率。

当然医生群体内部差异很大，对 AI 的看法完全不同。我直观感受是：去年之前大家强调「不能犯错」，而今年已经转向「允许犯错，但要可控、要协同」。他们更关注哪部分可以替代、哪部分不能替代、如何落地场景，甚至会主动一起找场景、想办法。

这让人既兴奋又有压力，因为临床场景极其多变，对模型泛化能力提出更高要求。

👩🏻 Ronghui

那他们的反馈里，哪些领域最希望能尽快由 AI 提供帮助？

👦🏻 王国鑫

主要集中在三个领域。

第一是患者服务。很多医生看完病就结束了，但患者用药跟踪和诊前管理仍需要支持。医院很希望有类似服务机器人的 AI，能低成本、长周期陪伴患者，从而提升治愈率或康复水平。诊断只是一个决策，真正的健康掌握在个人手里，所以医院在长周期服务和转型上的需求很大。

第二是科室级研究。研究水平和人员培养对医院非常重要。未来医学院一定会思考如何用 AI 降低学习成本和犯错率。很多研究型医院会希望与我们共建科研平台，把他们的队列交给我们做自动化挖掘，从患者中发现新机会，探索新的疗法。

第三是效率。医院已经不能靠增加人力来解决问题，成本压力太大。所以他们更需要「助手」或「助理」型工具。有的医院甚至提出「医生分身」，用数字人的方式，把患者服务和效率结合起来。

底层来看，需求最集中的还是这三类场景。

AI 医院：一场争夺「未来健康第一入口」的阳谋

👦🏻 Koji

这次咱们还发布了另一个产品——AI 医院 1.0。能不能向大家介绍一下，这是一个什么样的产品？对普通用户来说，它能带来哪些帮助和价值？

👦🏻 王国鑫

其实背后的逻辑很朴素。我们叫它 AI 医院，核心想法是：医疗服务专业属性很强。过去我们研发了很多 agent，比如心理医生、内科医生、药师、营养师等。每个 agent 都能在单点上做到极致优化，这是垂直 agent 的优势。

问题在于：这么多 agent，我们是让用户各自去找，还是把它们整合到一个统一入口？后者是我们希望做出来的。用户但凡有点不舒服，就能想到来这里，这就是我们希望建立的「心智入口」。因此取名 AI 医院，某种意义上，它代表了京东健康对未来健康入口的探索和争夺。

👦🏻 Koji

未来健康的入口。

👦🏻 王国鑫

对，我们甚至可以称它为「第一入口」这样更强烈的词，哈哈。

👩🏻 Ronghui

我感觉这个产品可能会包括两个方向：

第一，在一线城市，用户的认知正从「看病」转向「健康管理」。比如很多人会主动建健康档案，从被动看病转向主动减少生病的可能。

第二，在非一线城市，医疗资源缺口更大，AI 医院有机会成为获取更优质医疗服务的入口。

👦🏻 王国鑫

完全认同。AI 和移动互联网的本质区别在于：移动互联网改变了人和信息交互的方式，而 AI 更像是一种 B 端生产力。虽然谈 B 端在国内不算性感，但 AI 的核心确实是对 B 端的赋能。

如果推演未来：

大医院通过医联体或兼并的方式辐射地方，承担复杂诊疗和康复服务。
在更细粒度的社区，AI 辅助当地医生，负责筛查、分诊、问诊、转诊。
AI 还能以低成本方式延伸服务，连接有效医疗资源。

如果从中国未来看，随着人口老龄化和地域差距加大，这种模式大概率会形成。当然支付模式也会随之变化，但那是另一个话题。

👩🏻 Ronghui

那你们计划如何让它真正落地？尤其是让最需要的人用到，而不只是停留在你们的产品层面？

👦🏻 王国鑫

其实京东互联网医院本身就在做这件事。互联网医疗的底层逻辑是异地医疗资源匹配和 7×24 小时可得性。AI 并不是一个全新的故事，而是叠加在原有互联网医疗基础上的进一步提升。换句话说，AI 医疗是互联网医疗的自然延伸。

👦🏻 Koji

说到「京医千询」，它是开源的吧？能不能具体介绍一下开源了哪些部分，以及为什么要开源？

👦🏻 王国鑫

先说「为什么」。医疗是一个信任驱动的行业。通过开源，我们能拉动生态合作伙伴参与进来，展示技术能力，让外界试用模型并反馈，从而反哺研发和生态建设。这是必须做的事情。

我们的开源力度也比较大：不仅模型开源，还包括训练代码和部分训练数据。我们希望参与者能真正复现工作，而不是只拿到一个结果。

👦🏻 Koji

也就是说，开源的核心目标是建立信任。那么开源之后，你们感受到这个目标实现了吗？有没有收到一些来自社区或合作伙伴的反馈？

👦🏻 王国鑫

主要反馈来自研究机构，包括大学和医院。尤其是小规模模型，很多合作医院会主动测试。这对我们推动专科合作帮助很大。开源让别人看到我们是真正做事的团队，增强了信任。

所以最大的收获是：医院和研究机构更愿意和我们合作。信任本身是无价的，而开源在这个过程中发挥了重要作用。

👩🏻 Ronghui

你前面提到，希望产品能够占领用户心智。我觉得确实有可能。尤其是如果越来越多的用户习惯用 ChatGPT 或其他 chatbot 来询问医疗问题，这对你们的入口优势会有影响，甚至可能冲击整个商业模式。那么你们是期待 AI 模型、AI 医院和现有的商业模式之间能产生怎样的联动？

👦🏻 王国鑫

在谈 AI 的商业模式时，我认为有几点是最有价值的。第一，是「高可靠替代」。哪怕只在一个很窄的领域，AI 如果能做到 99.9% 的可靠替代，这就非常重要。第二，是「连接」。AI 是否能成为更好的纽带，把消费者和服务连接起来。

在医疗领域，这两点都存在机会。结合京东健康的模式，我们必须回到集团的核心逻辑：我们是一家供应链驱动的公司。也就是说，我们的优势在于用最低的成本提供最优质的产品和服务。AI 在其中能起到巨大的连接作用。所以，对我们来说，入口型产品必须去争夺、去推进。

京东健康不仅是互联网公司，我们还有实体医疗机构和到家服务能力。比如，在很多城市，我们能做到 30 分钟送药上门。我们有体检中心、医院和药品供应链。在这个过程中，AI 的角色就是把这些服务能力连接起来，为患者提供一整套个性化的解决方案。

所以，这不是「要不要做」的问题，而是「怎么做」。未来的竞争，肯定会从单点的 chatbot 争夺，走向「chatbot 体验 + 后端服务能力」的结合，最终看能不能带给用户满意度。医疗的核心是有效性，只有有效才能生存。

👩🏻 Ronghui

那在后端服务上，你们会不会担心它影响前端 chatbot 的信息传递？

👦🏻 王国鑫

不会。我们把后端服务尽可能原子化。举个例子：护士上门做检查，就是一个原子化服务。模型的作用是：根据患者当下情况和沟通结果，判断是否需要触发这个服务，费用多少，以及患者是否愿意。

模型解决的是信息侧问题，而后端的供应链负责执行。我们的供应链不只是商品，还包含服务。这些能力是京东健康建立用户心智的基础。如果没有这些，我们就只是漂浮在空中的互联网公司。

京东的核心心智就是「高效率、低成本的服务能力」。在这个基础上，我们才有机会打造入口型产品。虽然入口产品难，但所有 AI 公司现在都在想这个问题。

👩🏻 Ronghui

那像其他基模公司呢？他们会不会基于用户在 chatbot 里的医疗咨询，去延伸出一些产品或服务？

👦🏻 王国鑫

很多基模公司都非常关注健康赛道。尤其一些大型 chatbot，有很大比例的流量是健康相关。这和当年搜索引擎占据心智的逻辑很像。很多人现在还是把大模型当搜索用。所以，对他们来说，这是一个非常想做的赛道。但关键问题在于：这个行业到底有没有门槛？商业化成熟度够不够？

对京东来说，我们更多把他们当合作伙伴，而不是竞争对手。另外，京东也在 JDD 大会上发布了自己的通用 chatbot——全新升级的 JoyAgent3.0。我当然希望它能在市场上快速站稳一席之地，推动集团内部产业协同。

👩🏻 Ronghui

Nico，可以跟我们讲讲 AI + 医疗在更广范围，比如美国、欧洲和中国的差异？在这些市场，有哪些值得关注的创新或成功案例？比如，美国的 OpenEvidence 在融资和收入方面都做得不错。

👦🏻 王国鑫

医疗 AI 在海外和国内的迁移性不像其他行业那么强。关键差异在于支付逻辑（payer）和医疗体制。中国强调效率和公平，虽然大家抱怨「看病难、看病贵」，但如果放在美国，问题会更严重。

OpenEvidence 在美国能商业化，很大原因在于医生收入高、诉求强，他们愿意为工具付订阅费。但在国内，我们的模式是免费的，比如这次开放的寻证库，完全没有订阅费。这就是「橘生淮南则为橘，生于淮北则为枳」。

不过，也有一些海外模式值得关注。比如，美国有不少 AI 驱动的互联网医疗 + 特色药品服务公司。以 Hims 为例，它定位是「让人变美、变好」。本质上是依靠特色药品供应链，但前端获客和服务都是 AI 化的，不断给用户健康建议。

总体来看，医疗解决方案往往还是药品、器械或生活方式改变。AI 可以帮助医院提升服务，也可以帮助药企、器械厂商或数字疗法公司服务用户。

除此之外，还有给医院端的 AI 服务模式。国内医院的信息化渗透率已经比较高，但采购周期很长。我们也有智慧医疗部门，比如京东卓医（JOY DOC），目标是用 AI 改造医疗和患者服务。

最后就是 ToG，面向政府，服务医保和卫健委。这在美国相对较少。

总结来说，中国市场的商业机会，最终还是会回到患者服务这个赛道，更符合本土土壤。

给普通人的建议：如何利用 AI 更好地生活？

👦🏻 Koji

Nico 刚才也讲到，这三年你经常跑医院，也在沉浸式地思考 AI 加医疗如何真正帮助大家变得更健康。那如果回到一个朋友聊天的场景，今天我们见面了，我问你：你研究了这么多 AI 和医疗健康，现在能不能给我们一些建议？就是那种小的、可行性高的，让听众听完后就能拿去用一用，从而让自己过得更健康的办法。你会怎么回答？

👦🏻 王国鑫

从长周期健康来看，影响因素主要有两个：一是个人在慢病和免疫力上的表现，二是重症风险。随着年龄增长，在健康检查和提前预防上的投资一定是值得的。

举个例子，35 岁之后，我认为每年都应该拿出一部分固定预算投入到个人和家庭健康上。这笔钱不需要很多，但必须固定拿出来，有意识地通过经济手段推动自己行动。从统计学来看，这实际上是省钱的，因为很多疾病早期发现是可以治愈的。关键是要设立预算，并在预算范围内找到最好的医疗服务。

👦🏻 Koji

对，我觉得这个非常有意思。就是钱先拿出来，再去研究怎么花，倒逼自己去做事。比单纯说「大家要去体检」更有效，因为必须把钱花掉，不然年底就得给自己一个惩罚。

👦🏻 王国鑫

对。当然不是每个人都需要去做胃肠镜，这取决于家族史和个人风险。我只是举个例子。核心逻辑就是：先设预算，再去做适合自己的健康投资。健康本身挺反人性的，往往只有失去的时候才意识到它的重要。

👩🏻 Ronghui

那 35 岁以下的人怎么办呢？

👦🏻 王国鑫

道理是一样的。尤其要关注家族史和自身状态。有些事情是可以长期坚持的，比如监控血压、血糖。这看似简单，但对早发现、早干预非常有帮助。同样是糖尿病，早发现早控制和晚发现晚控制的结果差异巨大。很多疾病在早期是有解法的，一旦错过窗口，就只能缓解而无法根治。

投资人视角：如何判断一个垂直大模型公司？

👦🏻 Koji

我们聊了很多医疗大模型，但其实听众里很多人并不在医疗领域，而是做各种垂直模型的。你觉得医疗大模型的经验，能如何迁移到金融、法律等其他领域？

👦🏻 王国鑫

其实这些行业的技术思路很相通。医疗、教育、法律、金融，本质上都是在复杂情境中建模和优化。比如教育里的个性化学习路径，法律里的多步推理，金融里的投资组合推荐，都需要处理高度结构化的数据，并进行融合推理。这就是为什么医疗的经验很容易迁移到这些行业。

👩🏻 Ronghui

那如果你是投资人，你会怎么判断一家垂直大模型公司能不能做起来？你最关心的指标是什么？

👦🏻 王国鑫我主要看三点：

行业知识深度：有没有真正的数据壁垒和专业知识积累。这是个 0 和 1 的问题，没有壁垒就不成立。
商业机会大小：不能太大，否则大公司入场就没机会了；但也要能在近期实现变现，讲得通。
未来商业落地语气：未来是走 API 付费、产品付费，还是销售驱动？这取决于团队里商业合伙人的能力和思考。

👩🏻 Ronghui

今天非常感谢 Nico 来做客「十字路口」，分享了很多在医疗大模型上的经验。这个领域既有价值，又备受关注和期待。我们也希望 AI 能真正让更多人享受到技术带来的医疗成果。

👦🏻 Koji

谢谢。

👦🏻 王国鑫

谢谢二位，拜拜。

文章来自于微信公众号 “十字路口Crossing”，作者 “十字路口Crossing”

登录账号

拜托了，AI！帮忙解决「看病难、看病贵」吧｜对谈王国鑫：京东健康探索研究院首席科学家

快问快答

医疗数据的「痛并快乐着」

一个内部申请预算的公式：什么样的行业值得做垂类大模型？

京医千询 2.0：不止于文本，三大核心进化

垂直模型在哪些具体问题上能秒杀 GPT？

AI 医院：一场争夺「未来健康第一入口」的阳谋

给普通人的建议：如何利用 AI 更好地生活？

投资人视角：如何判断一个垂直大模型公司？

AI中国

评论 (0)

文章章节

推荐文章

何必DiT！字节首次拿着自回归，单GPU一分钟生成5秒720p视频

用户破8亿！GPT-5.1来了，表情包含量可自定义

速抢（2核2G）77元/年香港免备案服务器

李飞飞的世界模型来了！一句话生成3D世界，AI 真的开始理解现实了

科技巨头「偷偷借钱」搞AI，次贷危机魅影重现？

腾讯总裁剧透微信搭载智能体！阿里和谷歌也都开始互相伤害了

AIGC大模型能力提升10倍！安谋科技Arm China掏出最强NPU IP大招

小鹏物理AI的尽头，是马斯克的现金流

热门标签

热门作者

AI中国

钛媒体APP

IT之家

人人都是产品经理

AIbase基地

登录账号

拜托了，AI！帮忙解决「看病难、看病贵」吧｜对谈王国鑫：京东健康探索研究院首席科学家

快问快答

医疗数据的「痛并快乐着」

一个内部申请预算的公式：什么样的行业值得做垂类大模型？

京医千询 2.0：不止于文本，三大核心进化

垂直模型在哪些具体问题上能秒杀 GPT？

AI 医院：一场争夺「未来健康第一入口」的阳谋

给普通人的建议：如何利用 AI 更好地生活？

投资人视角：如何判断一个垂直大模型公司？

AI中国

评论 (0)

文章章节

推荐文章

何必DiT！字节首次拿着自回归，单GPU一分钟生成5秒720p视频

用户破8亿！GPT-5.1来了，表情包含量可自定义

速抢（2核2G）77元/年香港免备案服务器

李飞飞的世界模型来了！一句话生成3D世界，AI 真的开始理解现实了

科技巨头「偷偷借钱」搞AI，次贷危机魅影重现？

腾讯总裁剧透微信搭载智能体！阿里和谷歌也都开始互相伤害了

AIGC大模型能力提升10倍！安谋科技Arm China掏出最强NPU IP大招

小鹏物理AI的尽头，是马斯克的现金流

热门标签

热门作者

AI中国

钛媒体APP

IT之家

人人都是产品经理

AIbase基地

为您推荐