备考英语时常常遇到几个难题:单词不熟,查阅花费很多时间;即使找到词义,也是五花八门,不确定哪个最切合考察内容。由此引出我一个想法:能不能做一个工具,输入单词,自动从历年真题中找出相关句子,并生成我们需要的解析?
单纯让大模型直接解释单词,它可能会编例句,而且不一定贴合考研风格。所以我用了RAG(检索增强生成)的思路:
先把所有真题切成小段落,存成一个“语料库”
查单词时,先从语料库里找出最相关的3段真题原文
再把这几段原文喂给AI,让它根据真实语境生成解析
这样一来,它给出的每条例句都有出处,不是凭空捏造的。
三、工具
因为是自己简单使用,所以配置要求不那么高;
文档解析:python-docx,直接读真题的Word文件
向量数据库:ChromaDB,轻量,不用安装服务器
Embedding模型:all-MiniLM-L6-v2,本地加载,不联网也能用
大语言模型:DeepSeek API,便宜,中文效果好
编程工具:Trae,输入自然语言,就可以编程
全部加起来,一台8G无显卡的普通笔记本足够应付。
四、建库
1. 数据准备
2. 查询:检索 + 生成
输入单词 → 向量检索最相关的3条真题段落
把这3条段落作为上下文,发给DeepSeek
强制输出固定格式:
英汉双译(按考研常考义项分条)
考研考察点(常考义/干扰义/固定搭配)
4条例句(3条真题句带出处 + 1条仿真句)
3. 交互与数据管理
支持交互模式,连续查单词
自动保存查询历史到JSON
可导出Excel,单元格内换行,方便打印复习
五、效果