小白也能懂：用Meta-Llama-3-8B-Instruct实现LangChain对话缓存-智慧文博士

小白也能懂：用Meta-Llama-3-8B-Instruct实现LangChain对话缓存

你有没有遇到过这种情况：和AI聊了半天，它突然“失忆”，完全不记得前面说了什么？这在多轮对话中特别影响体验。今天我们就来解决这个问题——给本地部署的 Meta-Llama-3-8B-Instruct 模型加上“记忆”功能。

更关键的是，整个过程不需要你是深度学习专家，只要你会写点Python、能跑通代码，就能轻松实现。我们将结合 LangChain 框架，为这个强大的开源模型接入多种类型的对话缓存机制，让它真正像一个“记事清晰”的智能助手。

1. 为什么需要对话缓存？

1.1 大模型本身没有记忆

很多人误以为大模型“记得”之前的对话，其实不然。每次请求都是独立的，模型只看到你这次发的内容。所谓的“上下文”其实是靠我们把历史对话拼接在一起，再传给模型。

比如你想问：

“我叫小明。”
“我刚才说我是谁？”

如果不做处理，第二次提问时模型根本不知道“刚才”发生了什么。我们必须手动把两句话一起发送：

用户：我叫小明。 AI：好的，我知道了。 用户：我刚才说我是谁？

只有这样，模型才能理解上下文。

1.2 手动拼接太麻烦

如果每次都自己管理历史消息，不仅繁琐，还容易出错。而且随着对话变长，你还得考虑：

上下文不能超过模型限制（Llama-3是8k token）
哪些内容该保留，哪些可以丢弃
如何节省计算资源

这时候就需要对话缓存（Conversation Memory）来自动管理这些逻辑。

2. 环境准备与模型加载

2.1 镜像环境说明

本文基于 CSDN 星图平台提供的Meta-Llama-3-8B-Instruct镜像环境，集成了 vLLM 加速推理 + Open-WebUI 可视化界面，开箱即用。

镜像特点：

使用 GPTQ-INT4 量化技术，显存占用仅约 4GB
支持 RTX 3060 级别显卡即可运行
已预装 Hugging Face Transformers、LangChain 等常用库
提供 Jupyter Notebook 开发环境，方便调试

启动后可通过 Web UI 或本地开发环境调用模型。

2.2 自定义 ChatModel 接入 LangChain

为了让 LangChain 能调用本地的 Llama-3 模型，我们需要创建一个自定义类，继承BaseChatModel并重写_generate方法。

以下是核心代码实现：

from langchain_core.language_models.chat_models import BaseChatModel from langchain_core.messages import BaseMessage, AIMessage, ChatGeneration, ChatResult from transformers import AutoTokenizer, AutoModelForCausalLM import torch class Meta_Llama_3_ChatModel(BaseChatModel): tokenizer: AutoTokenizer = None model: AutoModelForCausalLM = None custom_get_token_ids: AutoTokenizer = None def __init__(self, mode_name_or_path: str, custom_get_token_ids_path: str): super().__init__() print("正在从本地加载模型...") nf4_config = BitsAndBytesConfig( load_in_4bit=True, bnb_4bit_quant_type="nf4", bnb_4bit_use_double_quant=True, bnb_4bit_compute_dtype=torch.bfloat16 ) self.tokenizer = AutoTokenizer.from_pretrained( mode_name_or_path, quantization_config=nf4_config) self.custom_get_token_ids = AutoTokenizer.from_pretrained( custom_get_token_ids_path, quantization_config=nf4_config) self.model = AutoModelForCausalLM.from_pretrained( mode_name_or_path, quantization_config=nf4_config, device_map="auto") print("完成本地模型的加载") def _generate( self, messages: List[BaseMessage], stop: Optional[List[str]] = None, run_manager: Optional[CallbackManagerForLLMRun] = None, **kwargs: Any, ) -> ChatResult: last_message = messages[-1].content input_messages = [ {"role": "user", "content": last_message, "temperature": 1}] input_ids = self.tokenizer.apply_chat_template( input_messages, tokenize=False, add_generation_prompt=True) model_inputs = self.tokenizer( [input_ids], return_tensors="pt").to(self.model.device) generated_ids = self.model.generate( model_inputs.input_ids, attention_mask=model_inputs['attention_mask'], pad_token_id=self.tokenizer.eos_token_id, max_new_tokens=1024) generated_ids = [ output_ids[len(input_ids):] for input_ids, output_ids in zip(model_inputs.input_ids, generated_ids) ] tokens = self.tokenizer.batch_decode( generated_ids, skip_special_tokens=True)[0] ct_input_tokens = sum(len(message.content) for message in messages) ct_output_tokens = len(tokens) message = AIMessage( content=tokens, usage_metadata={ "input_tokens": ct_input_tokens, "output_tokens": ct_output_tokens, "total_tokens": ct_input_tokens + ct_output_tokens, }, ) generation = ChatGeneration(message=message) return ChatResult(generations=[generation]) @property def _llm_type(self) -> str: return "Meta_Llama_3_ChatModel"

这段代码做了三件事：

加载量化后的 Llama-3 模型（节省显存）
定义如何将对话消息转换成模型输入
实现生成响应的核心逻辑，并返回结构化结果

3. 四种对话缓存方式实战

LangChain 提供了多种内存管理策略，我们可以根据需求选择最适合的一种。

3.1 基础缓存：ConversationBufferMemory

最简单的记忆方式，把所有历史对话都存下来。

from langchain.memory import ConversationBufferMemory from langchain.chains.conversation.base import ConversationChain # 初始化模型 llm = Meta_Llama_3_ChatModel( mode_name_or_path="your_model_path/Meta-Llama-3___1-8B-Instruct", custom_get_token_ids_path="your_tokenizer_path/gpt2-tokenizer-fast" ) # 创建缓存对象 memory = ConversationBufferMemory() memory.save_context({"input": "你好，我叫皮皮鲁"}, {"output": "你好啊，我叫鲁西西"}) # 构建对话链 conversation = ConversationChain(llm=llm, memory=memory, verbose=True) print(conversation.predict(input="我叫什么名字？")) # 输出：你应该叫皮皮鲁吧？

优点：简单直接，适合短对话
❌ 缺点：随着对话增长，上下文越来越长，消耗更多算力

3.2 限定轮数：ConversationBufferWindowMemory

只保留最近 k 轮对话，避免上下文爆炸。

from langchain.memory import ConversationBufferWindowMemory window_memory = ConversationBufferWindowMemory(k=2) window_memory.save_context({"input": "你好，我叫皮皮鲁"}, {"output": "你好啊，我叫鲁西西"}) window_memory.save_context({"input": "很高兴和你成为朋友！"}, {"output": "是的，让我们一起去冒险吧！"}) window_memory.save_context({"input": "我们去北京吧"}, {"output": "好啊好啊，一起去北京玩玩"}) print(window_memory.load_memory_variables({})) # 只显示最后两轮对话

优点：控制上下文长度，性能稳定
❌ 缺点：太久远的信息会被直接遗忘

适用场景：客服问答、快速交互类应用

3.3 按Token限制：ConversationTokenBufferMemory

更精细的控制方式——按总 token 数截断，而不是固定轮数。

from langchain.memory import ConversationTokenBufferMemory token_memory = ConversationTokenBufferMemory(llm=llm, max_token_limit=50) token_memory.save_context({"input": "朝辞白帝彩云间，"}, {"output": "千里江陵一日还。"}) token_memory.save_context({"input": "两岸猿声啼不住，"}, {"output": "轻舟已过万重山。"}) print(token_memory.load_memory_variables({})) # 当总token超过50时，最早的内容会被清除

优点：兼顾效率与信息保留，动态调节
❌ 缺点：需要估算 token，略微复杂

推荐用于内容长短不一的对话系统。

3.4 智能摘要：ConversationSummaryBufferMemory

对于超长对话，我们可以让模型自己“总结”过去发生了什么。

from langchain.memory import ConversationSummaryBufferMemory summary_memory = ConversationSummaryBufferMemory(llm=llm, max_token_limit=100) summary_memory.save_context({"input": "你好，我叫皮皮鲁"}, {"output": "你好啊，我叫鲁西西"}) summary_memory.save_context({"input": "很高兴和你成为朋友！"}, {"output": "是的，让我们一起去冒险吧！"}) schedule = "在八点你和你的产品团队有一个会议。你需要做一个PPT。上午9点到12点你需要忙于LangChain..." summary_memory.save_context({"input": "今天的日程安排是什么？"}, {"output": f"{schedule}"}) print(summary_memory.load_memory_variables({})['history']) # 输出一段由模型生成的摘要，如：“用户名叫皮皮鲁，刚交了个朋友叫鲁西西，今天要开产品会并做PPT……”

当新对话到来时，LangChain 会先让模型生成一段摘要作为背景知识，再进行回答。

优点：可处理极长对话，节省上下文空间
❌ 缺点：依赖模型总结能力，可能丢失细节

适合个人助理、长期陪伴型AI等场景。

4. 实际效果对比与建议

缓存类型	是否保留全部历史	上下文增长速度	适用场景
BufferMemory	是	⬆ 快	短对话、测试阶段
WindowMemory	❌ 否（仅k轮）	➡ 稳定	客服、高频交互
TokenBufferMemory	❌ 动态清理	➡ 可控	内容长度差异大的场景
SummaryBufferMemory	摘要形式保留	➡ 极低	长期对话、个人助手