Members Only

2024 大语言模型横评｜Digital Explorer#044

从 GPT-4o 到 Claude 3.5 Sonnet。

28 Oct 2024 — 阅读时间 13 分钟

Editor’s Note

今天是 2024 年 10 月 28 日，您正在阅读的是第 44 期 Digital Explorer。

最近几期 Digital Explorer 都在汇报大模型探索的经验与教训，从 Open WebUI 调用大模型 API 开始，我还分享了如何将大模型 API 融入 Obsidian 笔记流程。

这周，我将分享一份对不同模型的评测，结合我在各类模型使用过程中的思考与总结，作为一个阶段性的汇报分享给各位，鉴于各类模型还在迭代之中，后续我也会更新或补充新的发现。

本期为会员免费内容，欢迎成为 Dailyio 付费会员获取更多专属邮件通讯。接下来，欢迎和我一起探索关于大模型使用的所有可能。

上周 Open WebUI 更新，增加了一个「模型竞技场」特性。简单来说，就是用户可以给匿名模型的回答打分，类似于 Chatbot Arena，我在 ChatIO 里配置了一个「竞技模型」，感兴趣的朋友可以试一下：

当下几乎所有的大语言模型都是基于 Transformer 架构，但不同团队在训练数据集、算法调参、道德对齐等方面存在区别，即便是同一规模参数的模型（比如 llama 3.1 70B 和 Qwen 2.5 72B），也会有模型能力、输出喜好方面的差别。

由于工作关系，我需要经常处理大量文本内容，过去一年，为了更好完成这些工作，我在众多开源、闭源模型上做了大量测试与试验，希望能够找到更适合我工作场景——包括但不限于文本摘要、文本之间的翻译、文本生成等——的大模型。

本期结合我在各类模型使用过程中的思考与总结，作为一个阶段性的汇报分享给各位，鉴于各类模型还在迭代之中，后续我也会更新或补充新的发现。