先说一个公理:同一个大模型中,参数越高的版本越智能。
从表面上看,既然参数越高的版本越智能,那么在硬件允许的情况下,是否应该本地运行参数更高的版本呢?答案是:是,也不是。这是因为,虽然参数更高的模型更智能,但它们消耗的资源也更高。而且,参数越高的模型,输出所需的时间通常也越长。尤其是如果使用独立显卡进行推理,当模型所需的内存超过显卡的显存时,就会转而使用CPU进行推理,那速度可能会令人无法接受。
相较于本地运行大模型的高参数版本,我更推荐本地运行低参数版本的模型,比如2B、3B这种,同时订阅在线的大模型。尽管这些低参数版本的模型在能力上不及高参数版本强大,但用于一些简单的任务,比如翻译、总结等,效果还是很不错的。而且,它们占用的资源较少,运行速度也相当快。即便是在16GB内存的Mac mini M1上,它们运行时的内存占用也仅在2GB左右。
对于复杂的任务,我们可以将其交给在线的大模型处理。因为相比于在线模型的订阅费,本地运行这些大模型所需的硬件费用远远更高。而在线大模型的好处在于,我们可以根据当前任务选择最合适的模型进行使用。
有人可能会说,若想灵活切换,就需要订阅多个在线大模型,那么费用不就高了吗?其实并非如此。我们可以考虑订阅第三方服务,比如OpenCat。在其订阅期间,我们可以有限制地使用所有它支持的大模型。这样,我们就不必为每个大模型单独订阅。而且,通过这种方式,我们还可以避免一些大模型随意封号的风险。