2024 大语言模型横评|Digital Explorer#044

从 GPT-4o 到 Claude 3.5 Sonnet。

2024 大语言模型横评|Digital Explorer#044

Editor’s Note

今天是 2024 年 10 月 28 日,您正在阅读的是第 44 期 Digital Explorer

最近几期 Digital Explorer 都在汇报大模型探索的经验与教训,从 Open WebUI 调用大模型 API 开始,我还分享了如何将大模型 API 融入 Obsidian 笔记流程

这周,我将分享一份对不同模型的评测,结合我在各类模型使用过程中的思考与总结,作为一个阶段性的汇报分享给各位,鉴于各类模型还在迭代之中,后续我也会更新或补充新的发现。

本期为会员免费内容,欢迎成为 Dailyio 付费会员获取更多专属邮件通讯。接下来,欢迎和我一起探索关于大模型使用的所有可能。


大模型·思考

大语言模型横评,从 GPT-4o 到 Claude 3.5 Sonnet

上周 Open WebUI 更新,增加了一个「模型竞技场」特性。简单来说,就是用户可以给匿名模型的回答打分,类似于 Chatbot Arena,我在 ChatIO 里配置了一个「竞技模型」,感兴趣的朋友可以试一下:

img

当下几乎所有的大语言模型都是基于 Transformer 架构,但不同团队在训练数据集、算法调参、道德对齐等方面存在区别,即便是同一规模参数的模型(比如 llama 3.1 70B 和 Qwen 2.5 72B),也会有模型能力、输出喜好方面的差别。

由于工作关系,我需要经常处理大量文本内容,过去一年,为了更好完成这些工作,我在众多开源、闭源模型上做了大量测试与试验,希望能够找到更适合我工作场景——包括但不限于文本摘要、文本之间的翻译、文本生成等——的大模型。

本期结合我在各类模型使用过程中的思考与总结,作为一个阶段性的汇报分享给各位,鉴于各类模型还在迭代之中,后续我也会更新或补充新的发现。