开源模型Open Inference Weekly6月22日 23:15边缘端量化方案让 70B 级模型进入工作站部署摘要新的推理栈将显存占用压低,并在本地检索、代码助手和离线客服场景中保持可用速度。来源地区United States热度分82分类开源模型语言en