从网上搜集来的中考真题Word文档,打开一看——公式全是图片!想改个数字、换个符号,只能删掉重敲;想把几份试卷拼成一份,却发现同一套题在不同文件夹里出现了七八次,光去重就耗掉大半天。
接下来,我将一步步拆解整理流程,并分享每个环节的经验和选择理由。无论你是想批量整理历年真题,还是只是偶尔需要修一份试卷里的公式,这套方法都能帮你节省大量时间。
从网上下载的“中考真题大全”压缩包,解压后往往是这样的景象:
中考数学/├── 2025北京卷(1).docx├── 2025北京卷.docx├── 2025北京卷最终版.docx├── 2025北京卷_副本.docx├── 2024北京卷.docx├── 2024北京卷(1).docx├── 2024北京卷 - 副本.docx└── ...同一个文件被反复复制、重命名、存档,占据空间不说,更重要的是——你根本不知道哪个版本是最新的、最完整的。手动逐个打开比对?几十份试卷还能勉强应付,上百份呢?
去重的核心思想是比较文件的实际内容,而非文件名。因为同一份试卷可能被命名为“北京卷”“北京卷(1)”“北京卷最终版”等多个版本,但内容几乎一致。我的去重脚本采用了两层过滤策略:
第一层:内容哈希比对。提取Word文档中所有段落文本和表格内容,拼接成一个完整字符串后计算MD5哈希值。哈希值相同的文件,内容必然完全相同,可以直接判定为重复。
defget_docx_hash(filepath): doc = Document(filepath)# 提取所有段落文本 text = '\n'.join([paragraph.text for paragraph in doc.paragraphs])# 提取所有表格内容for table in doc.tables:for row in table.rows:for cell in row.cells: text += '\n' + cell.textreturn hashlib.md5(text.encode('utf-8')).hexdigest()第二层:优先级保留策略。当多个文件内容完全一致时,保留哪个?我的策略是:优先保留不带括号标记的原始文件,删除带有 (1)、(2)、(1) 等括号数字标记的重复副本。
defis_duplicate_filename(filename):"""判断文件名是否包含重复标记,如 (1)、(2)、(1)等""" name_without_ext = os.path.splitext(filename)[0] pattern = r'[\((]\s*\d+\s*[\))]'returnbool(re.search(pattern, name_without_ext))defget_file_priority(filepath):"""优先级:无括号标记的文件优先级更高""" filename = os.path.basename(filepath)return0ifnot is_duplicate_filename(filename) else1# 0为最高优先级额外支持:脚本同时支持PDF文件的去重(通过PyPDF2或pdfplumber提取文本内容),方便处理那些以PDF格式保存的试卷。
🔍 正在扫描目录: ./中考真题📄 找到 156 个文件🔄 正在计算文件哈希值... 进度: 156/156 - 2025上海卷.docx (DOCX)📊 扫描结果================================================================================📋 发现 23 组重复文件:【重复组 1】(共 4 个文件) ✅ [保留] ./2025北京卷.docx (245.3 KB) [DOCX] ← 原始文件 ❌ [删除] ./2025北京卷(1).docx (245.1 KB) [DOCX] ❌ [删除] ./2025北京卷_副本.docx (245.5 KB) [DOCX] ❌ [删除] ./2025北京卷最终版.docx (246.0 KB) [DOCX]📦 建议删除 89 个重复文件💾 预计可释放空间: 156.78 MB【下载】2025年全国各省市中考真题卷(已整理)
https://wxaiway.com/#/downloads/zhongkao-2025-docx
【下载】2015-2024年全国各省市中考真题卷(已整理)
https://wxaiway.com/#/downloads/zhongkao-2015-2024-docx
pip install PyPDF2 或 pip install pdfplumber打开一份从网上下载的Word试卷,你会发现里面的图片远不止公式一种——有几何图形、函数图像、表格截图、题目标志,甚至还有水印和装饰性图标。真正的挑战在于:这些图片和题干文字混在一起,你需要精确地识别出哪些是公式图片需要转换,哪些是几何图形需要保留原样。

一份典型的中考数学试卷,往往包含以下几种图片:
![]() ![]() | |||
最让人头疼的是那种公式与图形混合的图片,比如一道几何题中,图形旁边标注了角度或边长公式:
[三角形图片]∠A = 30°,AB = 5cm,AC = 7cm求:BC的长度这张图片里既有几何图形(需要保留),又有公式标注(需要识别为LaTeX)。如果直接整张图丢给大模型识别,可能会把图形也尝试转换成LaTeX,产生一堆无意义的符号。
第一步:批量提取所有图片
将docx文件后缀改为.zip,解压后进入word/media/目录,所有图片按顺序排列:
media/├── image1.png ← 可能是公式├── image2.png ← 可能是几何图形├── image3.png ← 可能是公式├── image4.png ← 可能是表格截图├── image5.png ← 可能是函数图像└── ...第二步:根据图片特征智能分类
图片本身携带了一些可用于分类的线索:
=、∑、√、∫等)或纯几何描述一个简单的分类策略:
defclassify_image(image_path):"""初步判断图片类型"""# 1. 尺寸判断 width, height = get_image_size(image_path) aspect_ratio = width / height# 公式图片通常宽高比在1.5~3之间if1.5 < aspect_ratio < 3and width < 300:return"likely_formula"# 2. 内容检测(快速OCR识别关键词) text = quick_ocr(image_path)if re.search(r'[=√∫∑∂∆]', text):return"likely_formula"if re.search(r'三角形|圆|正方形|平行|垂直', text):return"likely_geometry"return"unknown"第三步:分类型处理
 | |
第四步:人工复核与校正
自动分类不可能100%准确,建议采用“批量处理+抽检复核”的策略:
对于需要识别为LaTeX的公式图片,提示词的设计直接影响输出质量:
基础提示词(适用于纯公式图片):
请将这张公式图片转换为LaTeX代码。要求:1. 仅返回LaTeX代码,不要任何额外解释2. 使用行内公式格式 $...$ 或独立公式格式 $$...$$3. 保留所有上下标、分式、根号等结构进阶提示词(适用于公式+图形混合图片):
这张图片包含几何图形和数学标注。请:1. 识别图中的数学公式和符号,转换为LaTeX代码2. 对图形部分,用文字描述其几何特征3. 输出格式:[LaTeX代码] + [图形描述]处理前:
[image1.png] ← 公式 E=mc² 的截图[image2.png] ← 三角形ABC的图形[image3.png] ← 分式 \frac{a}{b} 的截图处理后:
公式:$E = mc^2$分式:$\frac{a}{b}$原本混杂在题干中的各种图片,现在被精准分类处理——公式变成了可编辑的LaTeX代码,几何图形保留了清晰的图片,整个文档既保留了结构信息,又实现了公式的可编辑性。
很多人会问:为什么不直接从Word转Word?原因是——Markdown是当前最“干净”的文档中间格式。
一份规范的试卷Markdown应遵循以下结构:
# 2025年北京市中考数学试卷**考试时间:120分钟 满分:120分**## 一、选择题(每题3分,共24分)1. 计算 $2^{-2} \times 4$ 的结果是( ) A. $\frac{1}{4}$ B. 1 C. 2 D. 42. 如图,在 $\triangle ABC$ 中,$AB = AC$,$\angle A = 40^\circ$,则 $\angle B =$( ) A. $40^\circ$ B. $70^\circ$ C. $80^\circ$ D. $140^\circ$## 二、填空题(每题3分,共24分)9. 分解因式:$x^3 - 4x = \_\_\_\_\_\_$## 三、解答题(共72分)17. (5分)计算:$\sqrt{18} - 4\sqrt{\frac{1}{2}} + \sqrt{2}$$...$包裹,独立公式用$$...$$包裹,不要混用\_\_\_\_\_\_表示,待后续处理在整理为Markdown的过程中,建议遵循以下操作顺序:

MD2EXAM 是专门为教育场景设计的Markdown转Word工具,它解决了试卷转换中的核心痛点。【已整理好 2025年中考试卷的Markdown】
https://wxaiway.com/md2exam/
转换后的Word文档,所有公式均可在Word公式编辑器中修改。原本需要数百次手动录入的工作,现在只需一次上传、一次点击即可完成。

当然也可以使用 md2wd,也可正确导出word文档。
https://wxaiway.com/md2wd/
Word(图片公式)→ 去重 → 大模型识别 → Markdown → MD2EXAM/MD2WD → Word(可编辑公式)如果你也经常被试卷整理折磨,不妨试试这套方法——第一次搭建可能需要一些时间,但从第二份试卷开始,你会感谢自己今天的选择。