谈谈目前阶段我认为的大模型使用策略

先说一个公理：同一个大模型中，参数越高的版本越智能。

从表面上看，既然参数越高的版本越智能，那么在硬件允许的情况下，是否应该本地运行参数更高的版本呢？答案是：是，也不是。这是因为，虽然参数更高的模型更智能，但它们消耗的资源也更高。而且，参数越高的模型，输出所需的时间通常也越长。尤其是如果使用独立显卡进行推理，当模型所需的内存超过显卡的显存时，就会转而使用CPU进行推理，那速度可能会令人无法接受。

相较于本地运行大模型的高参数版本，我更推荐本地运行低参数版本的模型，比如2B、3B这种，同时订阅在线的大模型。尽管这些低参数版本的模型在能力上不及高参数版本强大，但用于一些简单的任务，比如翻译、总结等，效果还是很不错的。而且，它们占用的资源较少，运行速度也相当快。即便是在16GB内存的Mac mini M1上，它们运行时的内存占用也仅在2GB左右。

对于复杂的任务，我们可以将其交给在线的大模型处理。因为相比于在线模型的订阅费，本地运行这些大模型所需的硬件费用远远更高。而在线大模型的好处在于，我们可以根据当前任务选择最合适的模型进行使用。

有人可能会说，若想灵活切换，就需要订阅多个在线大模型，那么费用不就高了吗？其实并非如此。我们可以考虑订阅第三方服务，比如OpenCat。在其订阅期间，我们可以有限制地使用所有它支持的大模型。这样，我们就不必为每个大模型单独订阅。而且，通过这种方式，我们还可以避免一些大模型随意封号的风险。

肇鑫的日常博客

日常

谈谈目前阶段我认为的大模型使用策略