测试了几个llm模型的表现

发现3B的小模型还是不行,稍微难一点的任务就麻爪了。
https://www.datalearner.com/ai-models/leaderboard/datalearner-llm-leaderboard?modelSize=7b

另外发现这个上面的排行也不是很靠谱,我实际测试下来llama3.1 8b明显比QWen2:7b靠谱,llama.cpp因为不支持phi3-small,所以没测试phi-3,虽然看上去这个评分在7b的模型中是最高的,不知道效果怎么样。
测试下来gemma2:9b > llama3.1 8b > qwen2:7b ,不过gemma2的内存占用有点大了,快6个G了。

追记:在某些任务上llama3.1要好于gemma2