固执的小模型
前阵子 Google 的 Gemma 系列模型发了不少新闻, 其中最感兴趣的是那个为端侧准备的 3N. 号称 2GB 内存就能运行的性能趋近千亿参数的满血版本. 正好 Ollama 也上了就拉下来试一下. 结果你别说, 你还真别说, 那个拉垮啊.
出门在外暂时没法连接上开发机, 模型对话记录晚点再补上. 先说结论, 现有的小模型对知识的抽象程度不够, 或者可能压根儿没有. 甚至我觉得规模更大的模型可能也没有.
测试是这样的. 我之前那篇“人话模式”里写了我做了个简单的把 cron 表达式翻译成人话的小工具. 写的过程里当然要查很多文档. 于是知道了 cron 表达式的很多变体和特例. 比如