昇思+昇腾开发板+DeepSeek模型推理和性能优化

模型推理

流程：权重加载 -> 启动推理 -> 效果比较与调优 -> 性能测试 -> 性能优化
权重加载
如微调章节介绍，最终的模型包含两部分：base model 和 LoRA adapter，其中base model的权重在微调时被冻结，推理时加载原权重即可，LoRA adapter可通过PeftModel.from_pretrained进行加载。

### 加载基础模型
model = AutoModelForCausalLM.from_pretrained("MindSpore-Lab/DeepSeek-R1-Distill-Qwen-1.5B-FP16", mirror="modelers", ms_dtype=mindspore.float16)
### 加载LoRA adapter
model = PeftModel.from_pretrained(model, "./output/adapter_model_for_demo") # adapter_model path
## 启动推理
通过model.generate，启动推理。generate_kwargs = dict(input_ids=input_ids,streamer=streamer,max_new_tokens=1024,do_sample=True,top_p=0.9,temperature=0.1,num_beams=1,
)
## 使用线程启动生成
t = Thread(target=model.generate, kwargs=generate_kwargs)
'''

效果比较

演示中以一个微调多轮后的LoRA权重为例，在微调前（不加载LoRA adapter），在问模型“你是谁”时，回答的是 "DeepSeek-R1”，而在加载LoRA adapter之后，回答为“甄嬛”。
微调前：

问： 你是谁?
答： 您好！我是由中国的深度求索（DeepSeek）公司开发的智能助手DeepSeek-R1。如您有任何任何问题或需要帮助，我会尽我所能为您提供帮助。

微调后：

问： 你是谁?
答： 我是甄嬛，家父是大理寺少卿甄远道。

效果调优

在进行长文本输出的过程当中，输出回答到一定长度后模型会输出重复内容，如下图所示，可在generate_kwargs中添加 repetition_penalty=1.2，解决长文本输出重复问题。
调优前：模型在生成长回复时，末尾出现大量重复语句。
调优后：通过设置 repetition_penalty，模型能够生成逻辑连贯且不重复的长篇回复。

性能测试

凡是在推理过程中涉及采样（do_sample=True）的案例，可以通过配置如下变量，注释掉之前添加的同步模式代码，再运行代码，即可获取每个token的推理时长和平均时长。

export INFERENCE_TIME_RECORD=True

此时，从终端的运行日志可以看到，平均推理时间为0.727秒，可通过禁用多线程将推理速度适当提升为平均单token推理时长0.674秒。
操作：在脚本中添加禁用多线程代码

from mindspore._c_expression import disable_multi_thread
disable_multi_thread()

性能优化

通过上述禁用多线程的方式，可以适当减少平均单token的推理时长，但效果不明显。在此基础上，还可以通过jit即时编译的方式进一步加速。jit即时编译通过jit修饰器修饰Python函数或者Python类的成员函数使其被编译成计算图，通过图优化等技术提高运行速度。
在本章节的场景下，jit修饰器应该修饰模型decode的函数，但由于原代码将模型的logits计算、解码等过程整体封装成了一个model.generate函数，不好进行优化，所以需要手动实现解码逻辑。
DeepSeek-R1-Distill-Qwen-1.5B 模型推理性能调优
性能优化

前序准备

实现解码逻辑（decode函数、prefill-decode阶段）。
实例化StaticCache，动态Cache无法成图。
添加jit装饰器
设置O2整图下沉进一步优化。
调用 model.jit()。
使用 mindspore.jit 装饰器修饰decode函数。

#### 1. 设置上下文
mindspore.set_context(enable_graph_kernel=True, mode=mindspore.GRAPH_MODE, jit_config={"jit_level": "02"})#### ... 模型加载 ...
#### 2. 编译模型
model.jit()#### 3. jit装饰器修饰解码函数
@mindspore.jit(jit_config=mindspore.JitConfig(jit_syntax_level='STRICT'))
def decode_one_tokens_logits(model, cur_token, input_pos, cache_position, past_key_values):logits = model(...)return logits

Top_p函数的实现

出于效率的考虑，优先使用numpy进行函数的实现。
而在gather函数的实现上，基于mindspore.mint的实现方式会出现报错，故使用mindspore.ops来实现。
modeling_qwen2.py的decoder_layer中，需添加_modules.values()
为了在静态图模式下能正确遍历网络层，需要修改循环方式。

原代码

for decoder_layer in self.layers:

修改后

for decoder_layer in self.layers._modules.values():

modeling_qwen2.py原RotaryEmbedding在静态图编译会出现报错

需要参考modeling_llama.py将该类进行重写。相关pr已经合入mindnlp的0.4分支。

性能优化效果测试

推理时间测试代码

##### 自回归生成循环
cache_position = mindspore.tensor([seq_length + 1])
for i in range(1, NUM_TOKENS_TO_GENERATE):s = time.time()next_token = decode_one_tokens(model, next_token, None, cache_position, past_key_values)generated_ids[:, cache_position] = next_token.int()cache_position += 1t = time.time()print("[%d]: %s" % (i, t-s)) # 打印单步生成耗时