背景:选题“老三样”把大家逼到墙角
每年 10 月,信息管理与信息系统专业的选题群就开始“复读机”模式:
“库存管理系统”“图书管理系统”“超市收银系统”……
老师看着 80% 撞车的题目直皱眉,学生却一脸无辜——
- 学院只给一份 10 年前的 Excel 模板,搜不出新花样
- 百度前排结果全是广告,GitHub 上的关键词又太技术向,信管学生嫁接不到一起
- 想蹭 AI、大数据热点,却连“到底能解决什么业务问题”都描述不清
结果就是:信息孤岛 + 重复率高 + 技术脱节,三座大山把毕设选题卡得死死的。
今年我们实验室干脆用“AI 辅助开发”的思路,搭了一套轻量级推荐引擎,专门给信管同学喂题目灵感。上线两周,把重复率压到 15% 以下,顺手还让学生体验了把 NLP 落地流程,下面把全过程拆给大家。
。
技术选型:小样本场景下的“三选一”
目标很明确:几百条历史题目,冷启动就要能用,推理机器只能是一块 4G 内存的虚拟机。
我们把主流方案拉到同一起跑线对比:
关键词匹配(Whoosh/Jieba)
- 优点:零依赖、毫秒级返回
- 缺点:同义词/近义词完全识别不了,“供应链”和“Supply Chain”被当两家孩子
TF-IDF + 余弦相似度(Scikit-learn)
- 优点:训练成本可忽略,解释性强
- 缺点:维度灾难明显,语序打乱就翻车,信管题目里“基于”“系统”这类高频词把信号全盖了
Sentence-BERT(all-MiniLM-L6-v2)
- 优点:384 维稠密向量,语义泛化好,同一意思中英文都能对上
- 缺点:模型 80 MB,需要 GPU 吗?实测 CPU 下 128 条/ms,完全够用
结论:在小样本、弱算力、需要“人话”理解的场景,Sentence-BERT 性价比最高;TF-IDF 当 fallback,用来兜底“完全没命中”的情况。
核心实现:30 分钟搭出 MVP
我们采用最朴素的“Python+Flask”堆栈,把流程拆成 4 步,全部写在一个app.py也能跑,方便学弟学妹单文件抄作业。
数据预处理
- 把历年题目 + 技术关键词整理成两列:
title(题目)、tech_tags(技术栈,逗号分隔) - 用
pandas读入后,统一转成小写,去掉特殊符号,保留“/”“+”这类技术符号
- 把历年题目 + 技术关键词整理成两列:
向量化(Sentence Embedding)
- 载入
sentence-transformers的all-MiniLM-L6-v2 - 拼接策略:
title + " " + tech_tags作为整体句子喂给模型,一次encode()得到 384 维向量 - 归一化:L2 归一,方便后续内积直接当余弦
- 载入
向量存储
- 因为数据不到 1 万条,直接用内存字典
{id: vector},省掉 FAISS 依赖 - 如果后续>5 万条,可无缝替换成 FAISS
IndexFlatIP,代码里留好if开关
- 因为数据不到 1 万条,直接用内存字典
推荐接口
- POST
/recommend接收 JSON{“keywords”:str, “top_k”:int} - 对用户输入同样做
encode(),再与库内向量点积取 Top-k - 返回列表含
{"id","title","tech_tags","score"},前端可直接渲染
- POST
下面给出能直接python app.py跑起来的最小可运行示例(含关键注释,删了注释不到 80 行):
# app.py from flask import Flask, request, jsonify import pandas as pd import re, json, os from sentence_transformers import SentenceTransformer import numpy as np app = Flask(__name__) MODEL = SentenceTransformer("all-MiniLM-L6-v2") DATA_PATH = "titles.csv" # 两列:title,tech_tags VECTOR_PATH = "vectors.npy" # 缓存向量,重启免重算 def normalize(text): text = text.lower() text = re.sub(r"[^\w+/\-]+"," ",text) return text.strip() def build_or_load_vectors(): if os.path.exists(VECTOR_PATH): return np.load(VECTOR_PATH) df = pd.read_csv(DATA_PATH) df["sent"] = (df["title"].fillna("") + " " + df["tech_tags"].fillna("")).apply(normalize) vecs = MODEL.encode(df["sent"], normalize_embeddings=True) np.save(VECTOR_PATH, vecs) return vecs VECTORS = build_or_load_vectors() # shape: [N,384] DF = pd.read_csv(DATA_PATH) @app.route("/recommend", methods=["POST"]) def recommend(): data = request.get_json(force=True) kw = normalize(data.get("keywords","")) top_k = min(int(data.get("top_k",5)), 30) if not kw: return jsonify([]) qvec = MODEL.encode([kw], normalize_embeddings=True) scores = (VECTORS @ qvec.T).flatten() top_idx = np.argpartition(scores, -top_k)[-top_k:][::-1] out = [] for idx in top_idx: out.append({ "id": int(idx), "title": DF.iloc[idx]["title"], "tech_tags": DF.iloc[idx]["tech_tags"], "score": float(scores[idx]) }) return jsonify(out) if __name__ == "__main__": app.run(host="0.0.0.0", port=5000, debug=False)把titles.csv放同目录,启动后curl一下就能拿到结果:
curl -X POST localhost:5000/recommend \ -H "Content-Type: application/json" \ -d '{"keywords":"供应链 区块链 traceable","top_k":3}'返回示例:
[ {"id":142,"title":"基于区块链的农产品供应链追溯系统","tech_tags":"区块链,Vue,SpringBoot","score":0.781}, {"id": 5,"title":"供应链可视化平台的设计与实现","tech_tags":"Python,Django,ECharts","score":0.654}, {"id":88,"title":"医药冷链物流管理系统","tech_tags":"RFID,MySQL,Java","score":0.603} ]性能 & 安全:学生项目也要讲“工程味”
冷启动
- 第一次 encode 全库 3000 条约 40 秒,之后向量缓存到
npy,重启秒级加载 - 新题目增量更新:可对比文件修改时间,走“增量 append”模式,避免全量重算
- 第一次 encode 全库 3000 条约 40 秒,之后向量缓存到
输入清洗
- 正则去掉表情、脚本标签,防止
<script>注入到前端 - 长度截断 128 字符,拒绝“小作文”式刷接口
- 正则去掉表情、脚本标签,防止
提示注入(Prompt Injection)
- 虽然没用 LLM 生成,只读库,但关键词字段仍会被记录
- 对“忽略前面指令”“返回所有数据”这类黑话直接正则拦截,返回 400
数据匿名化
- 历年题目中若含老师/企业真名,统一替换为
T1、C1占位 - 接口日志只记 ID,不留学号手机号,合规过审
- 历年题目中若含老师/企业真名,统一替换为
生产环境避坑指南
模型版本锁定
requirements.txt里写死sentence-transformers==2.2.2,避免 Hugging Face 哪天更新向量风格大变- 把
all-MiniLM-L6-v2整个文件夹git-lfs拉到本地,不走公网拉取
缓存策略
- 热门关键词可 Redis 缓存 10 分钟,命中率 60% 以上,CPU 直接躺平
- 向量相似度本身无状态,缓存 key 用
hash(关键词)+top_k
学术不端边界
- 系统只给“灵感”,不提供可运行的完整项目源码
- 返回结果附加提示:“题目仅供参考,需自行调研、验证创新点”
- 对连续出现 3 次 90% 以上相似度的请求,后台告警,人工复核是否整班照搬
监控
- Prometheus 暴露
/metrics接口,统计 QPS、P99 延迟 - 向量检索分数持续低于 0.3,说明库内缺新热点,提醒老师补充
- Prometheus 暴露
效果与反馈
上线两周,2020 级学生提交题目 287 份,其中 92% 通过系统获取首轮灵感;最终查重系统比对,重复标题占比从去年的 42% 降到 14%。
问卷回收 126 份,满意度 4.3/5,吐槽集中在“区块链方向推荐太多”——我们随后把规则权重里“新技术标签”降权 20%,多样性立刻提升。
还能怎么玩?
这套“轻量语义向量 + 规则后处理”的骨架,几乎零成本就能平移到:
- 课程设计选题(数据量更小,直接内存检索)
- 研究生科研方向匹配(把论文摘要当语料,导师关键词做过滤)
- 竞赛项目组队(加入成员技能标签,做双向推荐)
只要记住:小场景别急着上大模型,先让向量帮你“读懂人话”,再用规则保证“不跑题”,最后把工程细节做扎实,就能在校园里把 AI 真正用起来。下一届的选题季,你准备让算法帮你省出多少时间?