Please add a version that is able to run with 2/4/8 tensor parallel 请做一个可以2卡4卡8卡张量并行的版本

在使用官方发布的量化模型中发现无法进行张量并行
原因在于intermediate_size为29568，除以groupsize(128)后剩下的231无法被2或4或8整除，这在vllm会引发错误导致无法进行张量并行

现在请求官方使用不同的groupsize进行量化以使得intermediate_size / groupsize可以被2，4，8整除，或者略微修改模型将intermediate_size变为qwen2.5的29696，这样便可以在groupsize为128的量化下正常张量并行

如果上述方法不可行，希望说明下如何使用这些量化后的模型进行张量并行