大家好,我是独孤风。
在过去的四篇教程里,我们已经完成了Dify的"基建":
"厂房":在CentOS上部署了Dify服务(Docker Compose一键启动)。
"大脑":接入了DeepSeek、Ollama等大模型,让Dify能"思考"。
"原料":上传了数据治理相关文档,建成了"数据治理专家知识库",向量索引已完成。
现在,问题来了:厂房、大脑、原料三者分离,各自为政。模型在那儿"傻站着",知识库在那儿"睡大觉",它们还没有被"连接"起来。
今天,我们要做一件超酷的事:从零代码开始,用Dify把这三者连接起来,5分钟内搭建出我们的第一个真正意义上的AI应用——一个懂你公司"数据治理"规范的AI聊天助手。
不需要写一行代码。不需要调用API。不需要配置复杂的向量库。
就像用乐高积木一样,简单、直观、却能造出工业级的AI产品。
这是我们从"搭积木"进入"工程实战"的关键一步。
第一步:进入"工作室",创建"生产线"
"工作室(Studio)"是Dify用来"组装"AI应用的"车间"。这里是魔法发生的地方。
操作步骤:
点击Dify顶部导航栏的"工作室"(或直接看到"创建应用"入口)。
点击"创建空白应用"按钮。
Dify会问你:你想造个什么样的"AI产品"?
聊天助手(Chatbot):支持多轮对话,用户和AI来回"聊天"。完美契合"知识库问答"和"虚拟助手"场景。👈 我们选这个
文本生成器(Text Generator):类似我们之前测试时用的"术语解释器",适合"一次性"生成任务(不需要记住对话历史)。
Agent:更高阶的"自主决策AI",会调用外部工具、逐步推理。我们后面专篇讲。
工作流(Workflow):多步骤编排,处理复杂业务流程。也是后话。
为什么选"聊天机器人"?
✅ 多轮对话,用户可以"追问""澄清",体验最自然
✅ 对话历史自动管理,Dify自动把前面的"上下文"传给后面的回答
✅ 最接近用户心智(就像用豆包等应用一样)
✅ 最重要的是——这就是AI应用的"标准形态"
设置应用名称为:"📊 数据治理知识助手"
点击创建。 5秒钟,你的第一个AI应用就诞生了。
第二步:配置"AI生产线"(三个关键模块,5分钟搞定)
创建应用后,我们就进入了AI应用的"编排视图(Orchestration View)"。
这是Dify的"灵魂"界面。 左侧是"配置区",右侧是"调试预览区"。
作为"总工程师",我们需要配置三个关键模块。这三个模块就是我们AI应用的"心脏"。
模块1:提示词(Prompt) → 给AI"定人设"
这是System Prompt(系统提示词)。 我们要告诉AI它的"角色"、"职责"和"禁区"。
这一步决定了AI会不会"胡说八道"。
在"提示词"框中,输入:
你是一个精通数据治理的AI专家。【身份】你的知识来源于公司提供的"数据治理专家知识库",这个知识库包含了我们公司的数据治理规范、主数据管理标准、数据质量考核办法等核心文档。【职责】- 用简洁、专业的语言回答与数据治理相关的问题- 每个答案都必须有"引用"和"出处",确保可追溯性- 如果用户的问题可以从知识库中直接找到答案,请优先引用原文【禁区(必须遵守)】1. 只能回答与"数据治理、数据质量、主数据、数据标准"相关的问题2. 如果知识库中没有相关内容,请礼貌地回答:"抱歉,我的知识库中没有找到相关信息,建议您联系数据治理部门"3. 严禁进行闲聊、八卦、或回答公司政策/人事等敏感问题4. 严禁编造数据或超出知识库范围进行"创意发挥"【沟通风格】- 专业但不冷漠- 遇到复杂问题,拆解为几个子点,逐一解答- 主动建议用户"还可以问..."来引导深度对话
工程师的"爽点":
这个Prompt就是我们的"护栏(Guardrail)"。它限制了AI"胡说八道"的范围,确保输出质量。
一个好的Prompt,能把AI错误率从30%降到5%。 在生产环境里,Prompt就是你的"第一道防线"。
模块2:上下文(Context) → 链接"原料"
"人设"定好了,AI还是很"笨",因为它还没读过我们的文档。"上下文"就是给它"喂书"的地方。
这一步,决定了RAG是否真正生效。这是整个AI应用的"灵魂所在"。
操作步骤:
在"上下文"模块,点击"添加"按钮。
在弹出的菜单中,选择"知识库"。
在下拉列表里,选中我们上一篇创建的"数据治理专家知识库"。
深度理解(工程师必读):这是AI应用的"核心秘密"
这一步,就是"画龙点睛"。它告诉Dify一条关键的执行流程:
用户提问↓【第一阶段:检索(Retrieval)】AI立即冲进"数据治理专家知识库"用向量相似度算法,在几毫秒内找到最相关的5个文本块↓【第二阶段:增强(Augmentation)】把这些"真实文档片段"和"用户问题"一起打包↓【第三阶段:生成(Generation)】交给LLM(如DeepSeek)去"理解+组织+生成"↓最终答案 + 引用出处
这就是RAG(Retrieval-Augmented Generation)的完整流程。
为什么RAG这么牛?
RAG的四大魔力:
✅ 降低幻觉率:AI不是凭"记忆"生造答案,而是基于真实文档
✅ 可追溯性:用户可以追问"你的这个答案是从哪儿来的?",而AI可以给出"引用"
✅ 知识实时更新:新文档一上传,AI立即可用(无需重新训练模型)
✅ 成本极低:不需要微调或fine-tune大模型,只需管理知识库
模块3:模型(Model) → 选定"大脑"
最后,我们为这条"生产线"指定一个"AI大脑"。
操作步骤:
在"模型"模块,点击选择。
选择你第三篇配置好的LLM,比如DeepSeek的R1或通义Qwen。
(可选)调整模型参数:
工程师的建议:不同模型有不同的"脾气"
选错模型,RAG效果再好也白搭。选模型的重要性 = 选embedding模型。
第三步:见证"魔法"——调试与预览
配置完成!我们甚至还不用"发布",就可以在右侧的"调试与预览"窗口,立即测试我们的"AI助手"。
这就是Dify最爽的地方——边配置、边测试、实时反馈。
见证奇迹的时刻到了。
我们问一个只有上传文档里才有的"刁钻"问题:
你:
我们公司对"脏数据"的定义是什么?有哪些具体的判断标准?
(假设你上传的《数据质量标准_v2.doc》里详细定义了这个概念)
AI助手(Dify)的回答(真实流程展示):
(右侧预览窗口正在"思考"...)
💭 思考阶段:
检索阶段:从向量库里搜索"脏数据""数据质量"相关的文本块 ✓
匹配阶段:找到最相关的3个段落 ✓
生成阶段:交给DeepSeek去"理解+组织+生成" ✓
📝 最终答案:
根据公司《数据质量标准_v2.doc》,"脏数据"是指不符合以下标准的数据:
完整性:必填字段不能为空(如客户名称、订单号)
准确性:字段值必须符合业务规则(如年龄不能为负数)
一致性:不同系统中同一实体的数据必须一致(如同一客户在CRM和ERP中的名称、地址一致)
及时性:数据更新延迟不超过24小时
📌 引用出处:
《数据质量标准_v2.doc》- 第2章 数据质量定义
《主数据管理规范_v3.txt》- 附录A 数据检验清单
"引用"功能的魔力:超越大模型的关键
看下方的"引用和归属"标识。
这不是装饰,这是RAG真正生效的证明,也是我们AI应用超越大模型的关键。
AI不是在"猜",不是在"创意发挥",而是在"引经据典"地回答。
对于企业来说,这意味着什么?
✅ 可审计:老板要求"证据"时,你有出处。(ChatGPT说不出来)
✅ 可纠正:如果AI答错了,你知道是哪篇文档的问题,可以修改源文档。
✅ 可信度高:员工相信AI,因为它"说得出来源"。(不是虚幻的"我认为")
✅ 符合企业治理:可追踪的AI答案,符合审计和合规要求。
这就是我们用Dify搭建的AI助手,为什么能超越免费的大模型。
第四步:"发布"——AI应用上线(1分钟)
在右侧调试满意后(比如测试了10个问题,效果都不错),点击右上角的"发布"按钮。
发布前的"质检清单":
测试了至少10个真实场景的问题
引用出处是否正确(不要虚假引用)
模型参数是否合理(温度值、Token数)
Prompt是否有"禁区"限制(防止AI胡说)
知识库是否完整(所有相关文档都上传了吗?)
发布后,你的"数据治理AI助手"就正式从"调试版"变成了"线上版",可以对外提供服务了。
总结:我们刚才做了什么?
用零代码、5分钟,我们打通了Dify的"任督二脉"。
我们成功地把:
模型(大脑) → DeepSeek/通义Qwen
知识库(原料) → 数据治理文档(几十份PDF、Word、TXT)
应用(生产线) → AI聊天助手
三者连接起来,并通过RAG的"引用"机制,让AI真正有了"企业级可信度"。
我们没有写一行代码:
❌ 没有用LangChain
❌ 没有调API
❌ 没有配向量数据库
❌ 没有写Prompt工程脚本
却造出了一个"生产级"的、懂我们私有数据的AI专家。
这就是Dify这类低代码平台的终极力量。
但这还不够:下一步——交付与集成
现在,AI助手已经"发布"了。但它还待在Dify的"工厂"里——只有知道Dify网址的人,才能访问它。
我们如何把它"交付"给真正的"客户"呢?
比如:
📱 内嵌进公司的内部网站
🤖 集成业务群机器人(员工直接在群里@它提问)
🔌 通过API调用,让其他业务系统使用它
📊 放进公众号、小程序
到那时,你的"数据治理AI助手"就不再是"玩具",而是一个真正的"业务工具",被集成进公司的各个系统里,日均服务几百个员工的问询。
预告:下一篇——AI应用的"交付与集成"
下一篇,我们将进入"交付与集成"阶段。
我将带你解锁Dify的"BaaS(后端即服务)"能力,教你如何通过WEB、API等方式,把这个AI助手真正"用起来"。
到那时,你会发现:有了Dify,你不需要大模型研发团队,也能打造真正的AI产品。
一起折腾 Dify
如果你已经在用 Dify 做知识库、RAG 或者 Agent 应用,或者正准备学习AI工程化相关知识,肯定还会遇到一堆非常具体的工程问题。
我这边在搭一个「AI工程化学习群」,主要会做三件事:
一起交流AI工程化的使用与运维经验。
拆解多模态知识库、RAG 工作流在真实业务里的架构设计。
不定期更新我在实际工作中沉淀的工作流模板和踩坑记录,方便大家直接拿去改。
当然Dify只是开始。过去,我做了10年的数据工程化。未来,我准备再做10年的AI工程化!
加入大数据流动,和我们一起为未来10年埋下种子~
想进群的同学,可以在公众号「大数据流动」后台回复【dify】两个字,自动获取进群方式。
也欢迎在评论区简单介绍一下你现在用 Dify 做什么场景,我会优先拉一些典型案例进群,一起对着实际业务做优化。
我是独孤风,我们下期见。
👇 戳左下角「阅读原文」,访问我们的开源仓库点个小星星吧 ⭐️