AI 辅助开发实战：为信管毕设题目参考系统构建智能推荐引擎-智慧文博士

背景：选题“老三样”把大家逼到墙角

每年 10 月，信息管理与信息系统专业的选题群就开始“复读机”模式：
“库存管理系统”“图书管理系统”“超市收银系统”……
老师看着 80% 撞车的题目直皱眉，学生却一脸无辜——

学院只给一份 10 年前的 Excel 模板，搜不出新花样
百度前排结果全是广告，GitHub 上的关键词又太技术向，信管学生嫁接不到一起
想蹭 AI、大数据热点，却连“到底能解决什么业务问题”都描述不清

结果就是：信息孤岛 + 重复率高 + 技术脱节，三座大山把毕设选题卡得死死的。
今年我们实验室干脆用“AI 辅助开发”的思路，搭了一套轻量级推荐引擎，专门给信管同学喂题目灵感。上线两周，把重复率压到 15% 以下，顺手还让学生体验了把 NLP 落地流程，下面把全过程拆给大家。

。

技术选型：小样本场景下的“三选一”

目标很明确：几百条历史题目，冷启动就要能用，推理机器只能是一块 4G 内存的虚拟机。
我们把主流方案拉到同一起跑线对比：

关键词匹配（Whoosh/Jieba）
- 优点：零依赖、毫秒级返回
- 缺点：同义词/近义词完全识别不了，“供应链”和“Supply Chain”被当两家孩子
TF-IDF + 余弦相似度（Scikit-learn）
- 优点：训练成本可忽略，解释性强
- 缺点：维度灾难明显，语序打乱就翻车，信管题目里“基于”“系统”这类高频词把信号全盖了
Sentence-BERT（all-MiniLM-L6-v2）
- 优点：384 维稠密向量，语义泛化好，同一意思中英文都能对上
- 缺点：模型 80 MB，需要 GPU 吗？实测 CPU 下 128 条/ms，完全够用

结论：在小样本、弱算力、需要“人话”理解的场景，Sentence-BERT 性价比最高；TF-IDF 当 fallback，用来兜底“完全没命中”的情况。

核心实现：30 分钟搭出 MVP

我们采用最朴素的“Python+Flask”堆栈，把流程拆成 4 步，全部写在一个app.py也能跑，方便学弟学妹单文件抄作业。

数据预处理
- 把历年题目 + 技术关键词整理成两列：title(题目)、tech_tags(技术栈，逗号分隔)
- 用pandas读入后，统一转成小写，去掉特殊符号，保留“/”“+”这类技术符号
向量化（Sentence Embedding）
- 载入sentence-transformers的all-MiniLM-L6-v2
- 拼接策略：title + " " + tech_tags作为整体句子喂给模型，一次encode()得到 384 维向量
- 归一化：L2 归一，方便后续内积直接当余弦
向量存储
- 因为数据不到 1 万条，直接用内存字典{id: vector}，省掉 FAISS 依赖
- 如果后续>5 万条，可无缝替换成 FAISSIndexFlatIP，代码里留好if开关
推荐接口
- POST/recommend接收 JSON{“keywords”:str, “top_k”:int}
- 对用户输入同样做encode()，再与库内向量点积取 Top-k
- 返回列表含{"id","title","tech_tags","score"}，前端可直接渲染

下面给出能直接python app.py跑起来的最小可运行示例（含关键注释，删了注释不到 80 行）：

# app.py from flask import Flask, request, jsonify import pandas as pd import re, json, os from sentence_transformers import SentenceTransformer import numpy as np app = Flask(__name__) MODEL = SentenceTransformer("all-MiniLM-L6-v2") DATA_PATH = "titles.csv" # 两列：title,tech_tags VECTOR_PATH = "vectors.npy" # 缓存向量，重启免重算 def normalize(text): text = text.lower() text = re.sub(r"[^\w+/\-]+"," ",text) return text.strip() def build_or_load_vectors(): if os.path.exists(VECTOR_PATH): return np.load(VECTOR_PATH) df = pd.read_csv(DATA_PATH) df["sent"] = (df["title"].fillna("") + " " + df["tech_tags"].fillna("")).apply(normalize) vecs = MODEL.encode(df["sent"], normalize_embeddings=True) np.save(VECTOR_PATH, vecs) return vecs VECTORS = build_or_load_vectors() # shape: [N,384] DF = pd.read_csv(DATA_PATH) @app.route("/recommend", methods=["POST"]) def recommend(): data = request.get_json(force=True) kw = normalize(data.get("keywords","")) top_k = min(int(data.get("top_k",5)), 30) if not kw: return jsonify([]) qvec = MODEL.encode([kw], normalize_embeddings=True) scores = (VECTORS @ qvec.T).flatten() top_idx = np.argpartition(scores, -top_k)[-top_k:][::-1] out = [] for idx in top_idx: out.append({ "id": int(idx), "title": DF.iloc[idx]["title"], "tech_tags": DF.iloc[idx]["tech_tags"], "score": float(scores[idx]) }) return jsonify(out) if __name__ == "__main__": app.run(host="0.0.0.0", port=5000, debug=False)

把titles.csv放同目录，启动后curl一下就能拿到结果：

curl -X POST localhost:5000/recommend \ -H "Content-Type: application/json" \ -d '{"keywords":"供应链 区块链 traceable","top_k":3}'

返回示例：

[ {"id":142,"title":"基于区块链的农产品供应链追溯系统","tech_tags":"区块链,Vue,SpringBoot","score":0.781}, {"id": 5,"title":"供应链可视化平台的设计与实现","tech_tags":"Python,Django,ECharts","score":0.654}, {"id":88,"title":"医药冷链物流管理系统","tech_tags":"RFID,MySQL,Java","score":0.603} ]

性能 & 安全：学生项目也要讲“工程味”

冷启动
- 第一次 encode 全库 3000 条约 40 秒，之后向量缓存到npy，重启秒级加载
- 新题目增量更新：可对比文件修改时间，走“增量 append”模式，避免全量重算
输入清洗
- 正则去掉表情、脚本标签，防止<script>注入到前端
- 长度截断 128 字符，拒绝“小作文”式刷接口
提示注入（Prompt Injection）
- 虽然没用 LLM 生成，只读库，但关键词字段仍会被记录
- 对“忽略前面指令”“返回所有数据”这类黑话直接正则拦截，返回 400
数据匿名化
- 历年题目中若含老师/企业真名，统一替换为T1、C1占位
- 接口日志只记 ID，不留学号手机号，合规过审

生产环境避坑指南

模型版本锁定
- requirements.txt里写死sentence-transformers==2.2.2，避免 Hugging Face 哪天更新向量风格大变
- 把all-MiniLM-L6-v2整个文件夹git-lfs拉到本地，不走公网拉取
缓存策略
- 热门关键词可 Redis 缓存 10 分钟，命中率 60% 以上，CPU 直接躺平
- 向量相似度本身无状态，缓存 key 用hash(关键词)+top_k
学术不端边界
- 系统只给“灵感”，不提供可运行的完整项目源码
- 返回结果附加提示：“题目仅供参考，需自行调研、验证创新点”
- 对连续出现 3 次 90% 以上相似度的请求，后台告警，人工复核是否整班照搬
监控
- Prometheus 暴露/metrics接口，统计 QPS、P99 延迟
- 向量检索分数持续低于 0.3，说明库内缺新热点，提醒老师补充