读了一下seamlessM4T的ggml实现

发现它的ggml实现没有做量化处理,虽然提供了一个fp16的转换功能,但是加载到内存中仍然是fp32,量化就是做了个寂寞。medium的权重文件6G的多,转成8bit可以压缩到1.5G,4bit的量化可以搞到800M。seamlessM4T的代码也是搞了个寂寞,那fairseq2那玩意做模型,在本地搞了一个类似数据库的设定,我也是醉了。