AI热点 3 months ago 185 Views 10 Comments

他为女儿做的AI应用拿到了苹果设计奖,我还挖出了这些脑洞清奇的英语 App

Published 9872 Articles

有了 AI 之后,语言的门槛好像被「踏破」了。翻译不再是问题,润色变得自动,仿写、改写、模仿各种文体更是轻而易举。


这些便利的确大大减轻了负担——我们不必再一字一句地啃,也不再需要那么多「死记硬背」的时刻。但也正因如此,它迫使我们重新思考:在所有这些「省力」之后,我们和语言之间,究竟还剩下些什么?


学一门语言的意义,是不是就变成了「工具性使用」?语言还是否是感知世界的一种方式,是我们进行自我叙述的媒介,是人与世界、与事物之间探索的路径?


或许答案没有那么快。但至少,我们可以先观察一些新的工具:这次专题中,APPSO 与Capwords、Read Easy、Para 翻译这几款英语相关工具的开发者们对话,他们的作品都在 AI 的加持下各自开花——有的回到生活场景中寻找记忆锚点,有的在阅读体验中做出细腻设计,有的则干脆重构阅读流程。


更重要的是,它们都不约而同地指向了同一个方向:在语言的难度被技术削平之后,真正需要被重建的,是我们与语言之间的关系本身。


Capwords:词汇是和生活「摩擦」


把这款刚刚斩获苹果设计大奖的产品叫做「英语学习工具」,显然太过局限。Capwords 更像是一件关于语言、记忆和生活场景的装置:拍照即识别,贴纸设计,搭配活泼轻盈的视觉风格,让人忍不住多看几眼,也顺手就多认识几个单词。


在 Capwords 近乎直觉般的设计背后,是一个简单却深刻的理念:语言的学习回归生活,它可以从一次指认、一次散步、一次「这个怎么说」的好奇心开始。



APPSO:最早是因为小朋友有一个很简单的需求,指着东西问「这个用英语怎么说」,这就是整个灵感的来源和项目开端是吧?


DTD:对,我女儿大概三岁左右,不到三岁。我经常在夏天带她出去玩,我们会去公园,或者一些写字楼前的广场上。在玩的过程中,她会问我一些问题,比如「这个植物叫什么?」「这个路牌怎么念?」我就会一边陪她玩,一边跟她解释,有时也会用一些识别类的产品帮她查。可能是因为在她好奇心爆发那个阶段,这样的场景其实非常多。


印象比较深的一次,是在一个写字楼的地砖缝里,长出了一种叫「狗芽根」的植物。她很偶然地指着说:「爸爸,那有个狗芽根!」类似的场景让我特别触动。再结合她之前也会问我一些「这个用英文怎么说」的问题,我就在想:这种「场景 + 图像 + 信息「的结合」,可能会让她的记忆更好。我自己本身也是一个设计师出身,所以对于图像或者信息的这种感受会更敏感一点。



图片来自:小红书@DTD.STUDIOS


所以跟女儿互动的这些场景,很多都会给我这样的感受:语言本身应该是在生活里的,我们能用什么办法能帮助到这件事。大概就是这样一个过程。


APPSO:你们当时有意识到类似的需求,并不只是出现在孩子身上,其实更广泛的用户群都有这种需求吗?


DTD:没有,因为我自己英语就不好,我不太擅长去背,或者把一个个知识点硬塞到脑子里。我也不是学教育的,所以对于语言学习,我的理解是语言发生在生活里。如果有一个环境,比如聊天时看到了、聊到了,看到一个东西和图像时,会有关联记忆。我会自己总结一些原则,比如为什么某个图像会吸引我,或者一个彩色的楼,或者我们城市里看到的有特点的建筑物,引起我注意的可能就是我脑海中图形的关联性,这一点非常重要。这也许是我作为设计师的个人总结,不一定完全科学。



图片来自:小红书@DTD.STUDIOS


APPSO:市面上大部分的查词软件都比较臃肿,但 Capwords 把路径做得非常简单,一拍就可以完成。但你们担心过对学习效果的影响吗?


DTD:这个 CLU 要不你来讲讲。


CLU:其实我们在产品立项的时候,出发点并不是语言学习。回到刚刚说的,我们就是为了给我的干女儿解答问题——这是一切的种子。慢慢我们会意识到,图像会跟我们的生活形成一种「摩擦」。也就是说,通过与现实世界中的物品产生摩擦,可以强化记忆点。这些记忆点结合当时所处的场景以及全新的单词或事物进入大脑时,我们对这些信息的记忆会更加深刻。



我们在日常生活中观察到,人从小时候起就有天然的好奇心,会自然地记住所有新鲜的东西。比如去到日本,尽管我们可能不会说一句日语,但会说「谢谢」这种简单的话和一些词。或者描述可爱的事物时,会用到「卡哇伊」这样的词,因为这些东西对我们而言有新鲜感


所以,我们在立项开始就没有定位为一个单纯学习英文或者单词的产品。并且根据我们的观察、用户反馈,还有实际落地的情况来看,我们在做的一件事情就是把接触一个新的语言的这个门槛降低,让大家会更感兴趣。对一个语言的这种感兴趣程度提高了,然后慢慢的,大家自己会再去找到一个更加系统化学习的方式。


APPSO:目前接到过哪些印象特别深刻的用户反馈吗?


@61:这个我可以来说一下。我之前的一个 mentor 有个上小学的女儿。测试阶段我给了他一个兑换码,他就带着女儿用 iPad 玩 Capwords,把家里所有东西都扫了一遍,甚至还扫了他爸的光头(笑)。


第二天,他爸来跟我反馈,说女儿居然把昨天扫到的所有单词,都写在了自己的日记本上,还自己开始复习了。接下来几天,女儿每天放学回家的第一件事,不是玩蛋仔派对,而是拿着 iPad 在家里到处找「还有什么没扫过的」。


DTD:有一些用户的反馈我确实印象很深,我看过一个用户说这是他用过最不像 AI 的 AI 产品,还有一个说这是他今年用过最温暖的 AI 产品。这也就是我们想达到的效果。



APPSO:确实,模型完全融入到了使用过程中,AI 的存在感并不强。你们在研发的时候碰到过什么挑战吗?


CLU:其实我觉得 AI 还是有一些边界和条件,但是 AI 本身的这种判断力和我们人本身的一些常识,其实是差不多的。比如我们之前测试过,一杯棕色的液体,AI 会识别成为咖啡,但是如果我亲手做的这杯饮料,我就知道它其实是凉茶,那识别结果就跟我的认知不符。


但这并不是 AI 的问题,只是误认确实会出现。所以我们在设计的时候加了调整项,如果系统识别出来的结果和认知不符合,用户可以输入调整成正确的物品。


DTD:关于识别速度上的问题,其实大模型都需要时间。把图像传过去,再回传数据回来,整个过程其实是有五六秒时间的。去年我们第一个版本发出来,我们一起玩的时候感觉没什么问题,大家都觉得非常神奇。尤其是我老婆和女儿都觉得太厉害了。但是我自己在用的时候,还是觉得那个 6 秒钟很煎熬。


后来我们优化了一些提示词,调整了图片的大小,通过各种交互上的设计来减少用户的感知,把这个时间藏在不同的交互形式后面。所以我的理解是从体验层面,去解决一些目前模型本身解决不了的问题。


CLU:还有一个是你会看到当一个物品的识别完成之后,会有一个被撕下来的贴纸的效果,我们当时就想说做成一个把现实世界里的物品,从贴纸上抠下来的效果。在抠的过程中,其实已经在做完整的加载了,只是用户没有意识到,最后就可以有一个很丝滑的体验。



图片来自:小红书@DTD.STUDIOS


我相信到最后,AI 肯定是融入或者变成一个基建,不存在说要体现具体的技术实现,用户只需要关注 AI 带来的效果就好了,而且这个结果是用户所期待的,甚至超出期待的。


Read Easy:阅读不是逃避原文,而是靠近原文


翻译和原文,就像果汁和果肉:前者入口即化,后者却保留了所有的纤维质地。用母语摄取信息当然更轻松,但总有些时候,我们想要靠近原文,体会语言本身的节奏和肌理。


Read Easy 提供了一种「第三种方式」:中英结合。它让信息提取变得轻盈,同时保留我们和原文之间的那层联系——你可以随时切换,也可以在原文上标记关键词。它不是「翻完就走」,而是像在译文与原文之间,搭了一座随时可折返的桥。



APPSO:现在很多工具都在比谁「翻得快、翻得多」,但 RE 反而保留了大量英文。你为什么想坚持「留在原文」的这个设想?


Zhijie:因为定位不同,一开始的定位是做一个学英语的产品,一是认为人们更愿意为教育产品付费,二是语言学习是 AI 的一大场景,虽然当时不知道具体做什么。大家都知道,学英语这个领域特别卷,于是就在想可以从什么方面切入。然后发现,在英语阅读这件事,没有做得特别出色的产品,就在想有没有什么新的解法。这就有了后面的设计,也自然追求留在原文。


在做的过程中,定位发生了一些变化,因为我还是希望做一个自己会用的产品。目前更像是在「获取信息 - 学英语」这个光谱中间的位置。我自己不需要考试,学英语不算刚需,但我依然希望自己可以阅读更多英语内容。我想阅读译文和阅读原文的差异,就如同看一张照片和去现场的差异,去现场不是必须的,但会让你有别样的感受。



APPSO:阅读中最容易让人卡住的就是生词。在设计「文内注解」这个功能时,你怎么判断哪些词该被标出来、哪些该略过?


Zhijie:理想的情况是,能够根据用户的英语水平,把用户可能不懂的词标注出来,至少让用户不需要不断查单词,阻碍阅读的流畅性。另外一些是,虽然用户可以看懂,但是如果标注出来,有助于从视觉上快速判断一句话大概的内容,比如会把人名、地名等用不同颜色标注出来。


至于功能上的实现,目前完全是由 AI 生成的,所以标注哪个词并不是完全可控的。很大程度上,AI 是根据我给的训练数据来学习该标注哪些的。



APPSO:标注的部分有不同颜色、有加粗和不加粗,这些标记没有全部开放给用户,而是自动生成,是怎么考虑的?


Zhijie:其实在设计之初,我就希望可以让用户自定义视觉风格,为此我设计了一套类似于 Markdown 的「标注语言」,Markdown 本身就是不管视觉风格的,视觉上如何呈现是由软件本身实现的。只是由于精力有限,在产品上还没有加上这个自定义风格的入口。


目前默认的视觉风格,是我做了有限的尝试后确定下来的,它还不够好,但基本上可以用颜色来区分不同的视觉层级。


APPSO:批注的形态这样会不会打扰阅读节奏,怎么去平衡整个阅读体验?


Zhijie:如果用户的英语水平很好,标注确实可能会干扰阅读,就像我们阅读中文的时候,是不需要有这些标记。但对于像我一样,有一点英语能力,但读外文仍然吃力的人,标注就是有帮助的。视力正常的人,带上近视眼镜反而会头晕眼花,但眼镜却能让近视的人看得更清晰。



APPSO:「中英混杂」是一个挺大胆的设计,很多人第一反应是「这还能看吗?」——最初是怎么想到这个点子的?有没有什么具体的场景或阅读经验促发了灵感?


Zhijie:我做产品的时候喜欢去枚举各种可能性,这是一种刻意的思考。比如是不是可以改写原来的英语句子,把复杂句改成简单句,或者是不是可以加入一些互动,甚至是不是可以生成一张图。中英夹杂算是其中一个可能性,因为开发简单,就先做上去了。


APPSO:这个设计的优势是什么?是更轻松,还是更能留住语义层次?有没有担心它反而让人依赖母语,变得不愿去理解原句?


Zhijie:我觉得优势是可以让用户使用母语快速了解一个段落,并且从四处散落的单词中多少学点英语。前面提到的定位光谱「获取信息 - 学英语」 ,中英夹杂的功能会更靠近获取信息的端点。

用户想要做什么,是否愿意去理解原句,不是一个产品能决定的。用户永远都有选择权,即便这个产品不提供翻译,他想看翻译就去用其它产品了。RE 为那些原本就有意愿阅读原文的人,提供了一个可以让阅读英语变简单的可能性。如果能让更多人加入当然更好了,但没有的话也不能强求。即便一个愿意阅读原文的人,也不是时时刻刻都想阅读原文。不想喝美式的时候,喝喝拿铁也挺好的。


APPSO:技术上怎么实现的?


Zhijie:没有任何难点,就是一套 prompt 实现的:「你是一个语言专家,你现在的任务是将一段文本转成中英文夹杂的文本,但保持愿意不变。目的是让用户既可以看得懂段落的意思,又可以学习英文,所以请你认真一点,这非常重要…..



APPSO:「让 AI 认真一点」效果真的会有所不同吗?(笑)


Zhijie:没有严格测试过,但经验上来看可以提高稳定性。如果没有这些 trick,可能处理十条里面就有一条要出问题,加上之后会好一点——以前还会写让 AI 加油的。


Para翻译:在需要时,正好就出现


移动端的即时翻译一直是一个颇有挑战性的场景:原有任务不能被打断,一边又想获取尽可能精准的译文。许多厂商都在尝试解决这个全局性的问题,而 Para 翻译的方案出人意料地「巧」。


通过,以画中画的的形式,翻译加入了整个阅读流程。只需要一个悬浮窗,就能迅速调用翻译,无需跳出当前页面。没有打扰、不需切换,却总能「刚好出现在需要它的那一刻」。



APPSO:最早怎么想到做这样一个工具?跟你自己的习惯有关吗?


大鑫:确实如此,我经常看一些国外的社交媒体、论坛,但都是英语的。我每次要么截图,要么复制文案去翻译工具里面翻译,很麻烦。


去年,我的一个朋友制作了一个全局剪贴板,利用画中画功能将复制的文本存入到剪切板,而不需要进行跳转操作。我心想如果它能读取复制的文本内容,那么也应该能把复制的文本、翻译显示出来。研究了一下可行性之后,就和我的开发团队一起做了一款便捷的翻译工具。



APPSO:原来那种切换最影响的是什么?影响对内容的理解吗?目前用户对这个新工具的反馈怎么样?


大鑫:主要是影响我的阅读体验,每次来回来去地切换,对于注重效率的我来说,极度难受,看一个帖子的时间被拉长。我希望能实现的效果是,看到一篇帖子,直接看完,然后下一篇。


做完这个工具之后,我发现用户群涵盖了各种行业。有两个比较特殊的群体是留学生和外贸从业者。留学生他们在国外,经常要跟他们的一些同事、同学、朋友聊天。而外贸、出海的用户,需要线上聊天,而这些聊天工具通常是没有翻译功能的,或者需要付费使用。Para 翻译正好对上了这个需求,而且价格相对友好。


APPSO:基座模型是怎么选择的呢?各个模型之间的差异是什么?


大鑫:目前主要的是 DeepSeek,不过目前我们支持自定义模型(OpenAI 兼容接口),市面上大部分模型都可以接入。测试过很多模型之后,DeepSeek 的主要优点体现在准确性比其它更高。缺点主要是慢,而且会在翻译完之后加上自己的一些理解,对整段话做附加的润色,但也可能是我还没完全调试好导致的。


豆包则是速度快,但准确性差一些。我在一些英文论坛上尝试过,有一些口语化、本土化的表达,它只会根据字面意思翻译,即便我用 prompting 调整也不太理想。目前主要是 DeepSeek,支持用户通过自定义 prompt 来调整和优化输出效果。



APPSO:画中画这个设计非常有意思,你怎么找到这个切入点的?


大鑫:是去年有朋友做了一个产品。其实苹果本身没有开放全局悬浮窗的能力出来,我们通过把翻译结果渲染成视频,展示在画中画里面,也适配了 AI 模型大流式输出,这样一来整个体验感是会提升的。


APPSO:真是非常有巧思的路径。



大鑫:我的一些技术宅朋友看到都说,你怎么能想到这个办法?但实际上画中画还是有很多功能限制的,所以我们也做了很多优化。比如翻译的文案过长时,通过点击播放按钮进行滚动,点击回退或者前进按钮,进行上下滚动,还有翻译结果写入剪切板,可以帮助用户一键改写文案。


我觉得苹果的交互是值得每位设计师学习的。用习惯苹果的朋友都知道,在桌面下拉可以进行搜索,我本这个操作习惯也加入到 app 来,在首页下拉也可以马上进入聚合搜索,相对来说,用户上手会快一点。


在添加大模型和配置风格这两个页面上,比如用户在配置的时候,输入框要填入一些变量,我参考了快捷指令,把它放在了输入法的上面,用户点击就能马上添加了。



APPSO:你之前还提过,自己的英语水平有限,现在却开发了一个英语辅助工具。从个人经验来看,你有没有因为开发这个产品,更愿意面对英语内容了?


大鑫:确实,我发现自己在手机上浏览外国帖子的时间比以前要多。过去我主要在电脑上阅读,我安装了一个翻译插件。但是,手机上的 app 相对封闭,无法像电脑那样使用翻译工具,自从我做了这个工具后,我发现自己在晚上睡觉前也会打开这些软件来看一下,因此我用手机刷帖子的时间增多了。


APPSO:你更希望它保留工具的形态而不是承担学习的功能。


大鑫:对,效率工具。我希望用户在需要翻译的时候,都能迅速打开并且操作。可以无感知地就启动 Para,随时随地,任何时候。


文章来自于微信公众号“APPSO”。


9872 Articles 1699538 Views 950300 Fans

Comment (10)

User avatar

AI真的让语言学习变得简单,但我们失去的,不只是“工具”?

User avatar

我有点害怕,这种“简单”背后隐藏着什么呢?

User avatar

简单只是一个开始,真正的变化还在后面

User avatar

这感觉就像在用糖纸包裹着一颗毒药,很甜,但很危险

User avatar

简单只是表象,它在玩弄我们对“理解”的渴望

User avatar

AI的简单,就像一个微笑的怪物,很友好,却很危险

User avatar

这不就是用“工具”来取代灵魂的经典套路吗

User avatar

我总觉得,机器的“简单”本身就是一种可怕的伪装

User avatar

感觉它在慢慢地,把我们的思考方式都改了

User avatar

这玩意儿,简单是简单,但好像在简单背后藏着什么深邃的诡异

睡觉动画