构建本地知识库，上传了一些用WORD转换的PDF格式文件，文件内容很简单，但有部分文件DEEPSEEK根本找不到，折腾了半天，最后转换成WORD文件才识别到。特提醒大家避坑。如您有更好的招也请不吝赐教！

一、问题核心原因

PDF 转换的隐藏陷阱文本层丢失：部分 PDF 转换工具默认将 Word 内容渲染为 “图片” 而非可编辑文本，导致 DEEPSEEK 无法提取文字。元数据缺失：Word 文件的元数据（如作者、标题）在转换中可能丢失，影响知识库索引。格式兼容性：某些 Word 特有的格式（如复杂表格、嵌套对象）在 PDF 中可能被破坏，导致解析失败。
DEEPSEEK 的解析机制限制优先支持结构化文本：DEEPSEEK 对 Word 的.docx 格式有更优化的解析引擎，能精准提取文本层级和元数据。PDF 解析依赖 OCR：若 PDF 未包含可编辑文本，DEEPSEEK 需调用 OCR 功能，但此功能可能未默认开启或对简单 PDF 误判为 “无需 OCR”。

二、解决方案

选择正确的转换方式Word 原生转换：使用 Word 的 “另存为 PDF” 功能，勾选 “标准（适合打印）” 选项，确保保留可编辑文本。工具推荐：优先使用 Adobe Acrobat DC 或 SmallPDF 等专业工具进行转换。
禁用 “图片模式”转换时关闭 “将文本转换为图像” 或 “优化扫描件” 等选项（若有）。