浏览器里的数字助理,大模型如何重新定义上网体验 |Preview Plus
大语言模型的持续发展,也在进一步增强浏览器的能力。
本文节选自 Dailyio 全新电子书《数字共生》,欢迎通过这里进一步了解。
我一直认为浏览器是消息消费的重要工具,比如在桌面设备上,利用基于 Chromium 内核的浏览器,充分发挥各类浏览器插件、扩展的作用,能够实现一系列高效的信息消费。
大语言模型的持续发展,也在进一步增强浏览器的能力,在我看来,我们每个人都应该为浏览器配备几个个人助理,有些「助理」是浏览器内置的,就像 Brave 浏览器里的 Leo AI,拥有四个「开箱即用」的模型:
用户可随时使用他它们进行对话,或者直接让它根据网页内容进行总结:
值得一提的是,Leo AI 支持「BYOM」(Bring Your Own Model),用户可以将自己习惯使用的大模型 API 接口接入到 Brave 浏览器的 Leo 对话机器人里,可调用本地模型或远程模型,完全兼容 OpenAI API 格式,如下图所示:
Leo AI 的使用体验只能用「够用」来形容,特别在处理网页场景里,上下文窗口非常小,这就意味着它可能无法阅读一篇长文,导致其总结的内容存在问题,我开始寻找其他第三方扩展,比如 Elon Chat,这款产品以浏览器扩展的形式提供网页总结,使用开源(开放权重)的模型,速度非常快。
而且还支持自定义提示词、自定义键盘快捷键,并能常驻在浏览器右侧,方便快速调用。
推荐一个适用于 Elon Chat 的自定义提示,在总结网页文章的场景里非常好用:
1.) Analyze the input text and generate 5 essential questions that, when answered, capture the main points and core meaning of the text.
2.) When formulating your questions:
a. Address the central theme or argument
b. Identify key supporting ideas
c. Highlight important facts or evidence
d. Reveal the author's purpose or perspective
e. Explore any significant implications or conclusions.
3.) Answer all of your generated questions one-by-one in detail
4)使用中文回答。
接下来,我们还可以为浏览器配备一个语言助理,得益于庞大的训练数据,大模型在不同语言之间的翻译效果非常不错,而且随着上下文窗口的增加,大模型能够广泛理解语言的上下文情景,从而给出更好的翻译结果,所以,我现在已经全部改用大模型作为浏览网页时的翻译工具。
「沉浸式翻译」可能是其中最具代表性的产品,它依托与 Chromium 内核浏览器的扩展机制,构建了一个网页、文件翻译的高效机制,用户只需使用自己的大模型 API 就能快速完成翻译。
另一个可以尝试的工具是老牌的「划词翻译」,在网页翻译封面的功能基本类似,基本涵盖了业界主流的大模型服务。
在翻译的场景里,面对如此多的模型选择,该选择哪一种呢?从能力需求看,网页翻译的挑战性不大,特别是一般意义上的新闻或评论,当下(2024 年 11 月)几乎所有的主流模型都能应对这个场景,但需要考虑几点:
其一,如果你经常需要英文翻译到中文,请尽量使用非 Llama 系列的模型,后者对中文的支持效果很差;
其二,至少在网页翻译的时候,大可不必使用诸如 GPT-4o、Claude 3.5 Sonnet 这样「昂贵」的模型,4o-mini 或 Gemini 1.5 Flash 足矣;
其三,和搜索场景类似,国内大模型在翻译场景里也会进行「内容审查」,在某些敏感内容或看似敏感的内容翻译方面,要么不翻译,要么直接略过,各位请注意。
基于上面的考量,我会推荐这些大模型用于翻译:
- Gemini 1.5 Flash:200M 上下文的大窗口,中文表达能力突出,价格便宜(0.075 和 0.3 美元);
- GPT-4o-mini:价格便宜,速度快而且拥有不错的中文表达能力;
- 零一万物的 yi-lightning:速度快,价格便宜,不过比较遗憾的是只有 16K 的上下文;