他为女儿做的AI应用拿到了苹果设计奖，我还挖出了这些脑洞清奇的英语 App

有了 AI 之后，语言的门槛好像被「踏破」了。翻译不再是问题，润色变得自动，仿写、改写、模仿各种文体更是轻而易举。

这些便利的确大大减轻了负担——我们不必再一字一句地啃，也不再需要那么多「死记硬背」的时刻。但也正因如此，它迫使我们重新思考：在所有这些「省力」之后，我们和语言之间，究竟还剩下些什么？

学一门语言的意义，是不是就变成了「工具性使用」？语言还是否是感知世界的一种方式，是我们进行自我叙述的媒介，是人与世界、与事物之间探索的路径？

或许答案没有那么快。但至少，我们可以先观察一些新的工具：这次专题中，APPSO 与Capwords、Read Easy、Para 翻译这几款英语相关工具的开发者们对话，他们的作品都在 AI 的加持下各自开花——有的回到生活场景中寻找记忆锚点，有的在阅读体验中做出细腻设计，有的则干脆重构阅读流程。

更重要的是，它们都不约而同地指向了同一个方向：在语言的难度被技术削平之后，真正需要被重建的，是我们与语言之间的关系本身。

Capwords：词汇是和生活「摩擦」

把这款刚刚斩获苹果设计大奖的产品叫做「英语学习工具」，显然太过局限。Capwords 更像是一件关于语言、记忆和生活场景的装置：拍照即识别，贴纸设计，搭配活泼轻盈的视觉风格，让人忍不住多看几眼，也顺手就多认识几个单词。

在 Capwords 近乎直觉般的设计背后，是一个简单却深刻的理念：语言的学习回归生活，它可以从一次指认、一次散步、一次「这个怎么说」的好奇心开始。

APPSO：最早是因为小朋友有一个很简单的需求，指着东西问「这个用英语怎么说」，这就是整个灵感的来源和项目开端是吧？

DTD：对，我女儿大概三岁左右，不到三岁。我经常在夏天带她出去玩，我们会去公园，或者一些写字楼前的广场上。在玩的过程中，她会问我一些问题，比如「这个植物叫什么？」「这个路牌怎么念？」我就会一边陪她玩，一边跟她解释，有时也会用一些识别类的产品帮她查。可能是因为在她好奇心爆发那个阶段，这样的场景其实非常多。

印象比较深的一次，是在一个写字楼的地砖缝里，长出了一种叫「狗芽根」的植物。她很偶然地指着说：「爸爸，那有个狗芽根！」类似的场景让我特别触动。再结合她之前也会问我一些「这个用英文怎么说」的问题，我就在想：这种「场景 + 图像 + 信息「的结合」，可能会让她的记忆更好。我自己本身也是一个设计师出身，所以对于图像或者信息的这种感受会更敏感一点。

图片来自：小红书@DTD.STUDIOS

所以跟女儿互动的这些场景，很多都会给我这样的感受：语言本身应该是在生活里的，我们能用什么办法能帮助到这件事。大概就是这样一个过程。

APPSO：你们当时有意识到类似的需求，并不只是出现在孩子身上，其实更广泛的用户群都有这种需求吗？

DTD：没有，因为我自己英语就不好，我不太擅长去背，或者把一个个知识点硬塞到脑子里。我也不是学教育的，所以对于语言学习，我的理解是语言发生在生活里。如果有一个环境，比如聊天时看到了、聊到了，看到一个东西和图像时，会有关联记忆。我会自己总结一些原则，比如为什么某个图像会吸引我，或者一个彩色的楼，或者我们城市里看到的有特点的建筑物，引起我注意的可能就是我脑海中图形的关联性，这一点非常重要。这也许是我作为设计师的个人总结，不一定完全科学。

图片来自：小红书@DTD.STUDIOS

APPSO：市面上大部分的查词软件都比较臃肿，但 Capwords 把路径做得非常简单，一拍就可以完成。但你们担心过对学习效果的影响吗？

DTD：这个 CLU 要不你来讲讲。

CLU：其实我们在产品立项的时候，出发点并不是语言学习。回到刚刚说的，我们就是为了给我的干女儿解答问题——这是一切的种子。慢慢我们会意识到，图像会跟我们的生活形成一种「摩擦」。也就是说，通过与现实世界中的物品产生摩擦，可以强化记忆点。这些记忆点结合当时所处的场景以及全新的单词或事物进入大脑时，我们对这些信息的记忆会更加深刻。

我们在日常生活中观察到，人从小时候起就有天然的好奇心，会自然地记住所有新鲜的东西。比如去到日本，尽管我们可能不会说一句日语，但会说「谢谢」这种简单的话和一些词。或者描述可爱的事物时，会用到「卡哇伊」这样的词，因为这些东西对我们而言有新鲜感。

所以，我们在立项开始就没有定位为一个单纯学习英文或者单词的产品。并且根据我们的观察、用户反馈，还有实际落地的情况来看，我们在做的一件事情就是把接触一个新的语言的这个门槛降低，让大家会更感兴趣。对一个语言的这种感兴趣程度提高了，然后慢慢的，大家自己会再去找到一个更加系统化学习的方式。

APPSO：目前接到过哪些印象特别深刻的用户反馈吗？

@61：这个我可以来说一下。我之前的一个 mentor 有个上小学的女儿。测试阶段我给了他一个兑换码，他就带着女儿用 iPad 玩 Capwords，把家里所有东西都扫了一遍，甚至还扫了他爸的光头（笑）。

第二天，他爸来跟我反馈，说女儿居然把昨天扫到的所有单词，都写在了自己的日记本上，还自己开始复习了。接下来几天，女儿每天放学回家的第一件事，不是玩蛋仔派对，而是拿着 iPad 在家里到处找「还有什么没扫过的」。

DTD：有一些用户的反馈我确实印象很深，我看过一个用户说这是他用过最不像 AI 的 AI 产品，还有一个说这是他今年用过最温暖的 AI 产品。这也就是我们想达到的效果。

APPSO：确实，模型完全融入到了使用过程中，AI 的存在感并不强。你们在研发的时候碰到过什么挑战吗？

CLU：其实我觉得 AI 还是有一些边界和条件，但是 AI 本身的这种判断力和我们人本身的一些常识，其实是差不多的。比如我们之前测试过，一杯棕色的液体，AI 会识别成为咖啡，但是如果我亲手做的这杯饮料，我就知道它其实是凉茶，那识别结果就跟我的认知不符。

但这并不是 AI 的问题，只是误认确实会出现。所以我们在设计的时候加了调整项，如果系统识别出来的结果和认知不符合，用户可以输入调整成正确的物品。

DTD：关于识别速度上的问题，其实大模型都需要时间。把图像传过去，再回传数据回来，整个过程其实是有五六秒时间的。去年我们第一个版本发出来，我们一起玩的时候感觉没什么问题，大家都觉得非常神奇。尤其是我老婆和女儿都觉得太厉害了。但是我自己在用的时候，还是觉得那个 6 秒钟很煎熬。

后来我们优化了一些提示词，调整了图片的大小，通过各种交互上的设计来减少用户的感知，把这个时间藏在不同的交互形式后面。所以我的理解是从体验层面，去解决一些目前模型本身解决不了的问题。

CLU：还有一个是你会看到当一个物品的识别完成之后，会有一个被撕下来的贴纸的效果，我们当时就想说做成一个把现实世界里的物品，从贴纸上抠下来的效果。在抠的过程中，其实已经在做完整的加载了，只是用户没有意识到，最后就可以有一个很丝滑的体验。

图片来自：小红书@DTD.STUDIOS

我相信到最后，AI 肯定是融入或者变成一个基建，不存在说要体现具体的技术实现，用户只需要关注 AI 带来的效果就好了，而且这个结果是用户所期待的，甚至超出期待的。

Read Easy：阅读不是逃避原文，而是靠近原文

翻译和原文，就像果汁和果肉：前者入口即化，后者却保留了所有的纤维质地。用母语摄取信息当然更轻松，但总有些时候，我们想要靠近原文，体会语言本身的节奏和肌理。

Read Easy 提供了一种「第三种方式」：中英结合。它让信息提取变得轻盈，同时保留我们和原文之间的那层联系——你可以随时切换，也可以在原文上标记关键词。它不是「翻完就走」，而是像在译文与原文之间，搭了一座随时可折返的桥。

APPSO：现在很多工具都在比谁「翻得快、翻得多」，但 RE 反而保留了大量英文。你为什么想坚持「留在原文」的这个设想？

Zhijie：因为定位不同，一开始的定位是做一个学英语的产品，一是认为人们更愿意为教育产品付费，二是语言学习是 AI 的一大场景，虽然当时不知道具体做什么。大家都知道，学英语这个领域特别卷，于是就在想可以从什么方面切入。然后发现，在英语阅读这件事，没有做得特别出色的产品，就在想有没有什么新的解法。这就有了后面的设计，也自然追求留在原文。

在做的过程中，定位发生了一些变化，因为我还是希望做一个自己会用的产品。目前更像是在「获取信息 - 学英语」这个光谱中间的位置。我自己不需要考试，学英语不算刚需，但我依然希望自己可以阅读更多英语内容。我想阅读译文和阅读原文的差异，就如同看一张照片和去现场的差异，去现场不是必须的，但会让你有别样的感受。

APPSO：阅读中最容易让人卡住的就是生词。在设计「文内注解」这个功能时，你怎么判断哪些词该被标出来、哪些该略过？

Zhijie：理想的情况是，能够根据用户的英语水平，把用户可能不懂的词标注出来，至少让用户不需要不断查单词，阻碍阅读的流畅性。另外一些是，虽然用户可以看懂，但是如果标注出来，有助于从视觉上快速判断一句话大概的内容，比如会把人名、地名等用不同颜色标注出来。

至于功能上的实现，目前完全是由 AI 生成的，所以标注哪个词并不是完全可控的。很大程度上，AI 是根据我给的训练数据来学习该标注哪些的。

APPSO：标注的部分有不同颜色、有加粗和不加粗，这些标记没有全部开放给用户，而是自动生成，是怎么考虑的？

Zhijie：其实在设计之初，我就希望可以让用户自定义视觉风格，为此我设计了一套类似于 Markdown 的「标注语言」，Markdown 本身就是不管视觉风格的，视觉上如何呈现是由软件本身实现的。只是由于精力有限，在产品上还没有加上这个自定义风格的入口。

目前默认的视觉风格，是我做了有限的尝试后确定下来的，它还不够好，但基本上可以用颜色来区分不同的视觉层级。

APPSO：批注的形态这样会不会打扰阅读节奏，怎么去平衡整个阅读体验？

Zhijie：如果用户的英语水平很好，标注确实可能会干扰阅读，就像我们阅读中文的时候，是不需要有这些标记。但对于像我一样，有一点英语能力，但读外文仍然吃力的人，标注就是有帮助的。视力正常的人，带上近视眼镜反而会头晕眼花，但眼镜却能让近视的人看得更清晰。

APPSO：「中英混杂」是一个挺大胆的设计，很多人第一反应是「这还能看吗？」——最初是怎么想到这个点子的？有没有什么具体的场景或阅读经验促发了灵感？

Zhijie：我做产品的时候喜欢去枚举各种可能性，这是一种刻意的思考。比如是不是可以改写原来的英语句子，把复杂句改成简单句，或者是不是可以加入一些互动，甚至是不是可以生成一张图。中英夹杂算是其中一个可能性，因为开发简单，就先做上去了。

APPSO：这个设计的优势是什么？是更轻松，还是更能留住语义层次？有没有担心它反而让人依赖母语，变得不愿去理解原句？

Zhijie：我觉得优势是可以让用户使用母语快速了解一个段落，并且从四处散落的单词中多少学点英语。前面提到的定位光谱「获取信息 - 学英语」，中英夹杂的功能会更靠近获取信息的端点。

用户想要做什么，是否愿意去理解原句，不是一个产品能决定的。用户永远都有选择权，即便这个产品不提供翻译，他想看翻译就去用其它产品了。RE 为那些原本就有意愿阅读原文的人，提供了一个可以让阅读英语变简单的可能性。如果能让更多人加入当然更好了，但没有的话也不能强求。即便一个愿意阅读原文的人，也不是时时刻刻都想阅读原文。不想喝美式的时候，喝喝拿铁也挺好的。

APPSO：技术上怎么实现的？

Zhijie：没有任何难点，就是一套 prompt 实现的：「你是一个语言专家，你现在的任务是将一段文本转成中英文夹杂的文本，但保持愿意不变。目的是让用户既可以看得懂段落的意思，又可以学习英文，所以请你认真一点，这非常重要…..」

APPSO：「让 AI 认真一点」效果真的会有所不同吗？（笑）

Zhijie：没有严格测试过，但经验上来看可以提高稳定性。如果没有这些 trick，可能处理十条里面就有一条要出问题，加上之后会好一点——以前还会写让 AI 加油的。

Para翻译：在需要时，正好就出现

移动端的即时翻译一直是一个颇有挑战性的场景：原有任务不能被打断，一边又想获取尽可能精准的译文。许多厂商都在尝试解决这个全局性的问题，而 Para 翻译的方案出人意料地「巧」。

通过，以画中画的的形式，翻译加入了整个阅读流程。只需要一个悬浮窗，就能迅速调用翻译，无需跳出当前页面。没有打扰、不需切换，却总能「刚好出现在需要它的那一刻」。

APPSO：最早怎么想到做这样一个工具？跟你自己的习惯有关吗？

大鑫：确实如此，我经常看一些国外的社交媒体、论坛，但都是英语的。我每次要么截图，要么复制文案去翻译工具里面翻译，很麻烦。

去年，我的一个朋友制作了一个全局剪贴板，利用画中画功能将复制的文本存入到剪切板，而不需要进行跳转操作。我心想如果它能读取复制的文本内容，那么也应该能把复制的文本、翻译显示出来。研究了一下可行性之后，就和我的开发团队一起做了一款便捷的翻译工具。

APPSO：原来那种切换最影响的是什么？影响对内容的理解吗？目前用户对这个新工具的反馈怎么样？

大鑫：主要是影响我的阅读体验，每次来回来去地切换，对于注重效率的我来说，极度难受，看一个帖子的时间被拉长。我希望能实现的效果是，看到一篇帖子，直接看完，然后下一篇。

做完这个工具之后，我发现用户群涵盖了各种行业。有两个比较特殊的群体是留学生和外贸从业者。留学生他们在国外，经常要跟他们的一些同事、同学、朋友聊天。而外贸、出海的用户，需要线上聊天，而这些聊天工具通常是没有翻译功能的，或者需要付费使用。Para 翻译正好对上了这个需求，而且价格相对友好。

APPSO：基座模型是怎么选择的呢？各个模型之间的差异是什么？

大鑫：目前主要的是 DeepSeek，不过目前我们支持自定义模型（OpenAI 兼容接口），市面上大部分模型都可以接入。测试过很多模型之后，DeepSeek 的主要优点体现在准确性比其它更高。缺点主要是慢，而且会在翻译完之后加上自己的一些理解，对整段话做附加的润色，但也可能是我还没完全调试好导致的。

豆包则是速度快，但准确性差一些。我在一些英文论坛上尝试过，有一些口语化、本土化的表达，它只会根据字面意思翻译，即便我用 prompting 调整也不太理想。目前主要是 DeepSeek，支持用户通过自定义 prompt 来调整和优化输出效果。