开源软件
4 次浏览
2026-06-02
MarkItDown — 微软官方开源!一键将任意文件转为Markdown
🌟 为什么值得关注?
微软官方出品的开源神器!14万+ GitHub Star,可以把 Office文档、PDF、图片、HTML、CSV、JSON、ZIP 等几乎所有常见文件格式一键转换成干净的 Markdown 文本。
这个工具对以下人群简直是救命级别的存在:写博客要引用 PDF 内容、需要从 Word 提取纯文本、想把网页保存为 Markdown 笔记、批量处理文档做 RAG/AI 训练数据...
🎯 核心功能
📄 全能文件解析
支持 Word (.docx)、PowerPoint (.pptx)、Excel (.xlsx)、PDF、图片(OCR提取文字)、HTML网页、CSV表格、JSON数据、ZIP压缩包等数十种格式
🔌 多接口调用
提供 Python 库直接调用、命令行CLI工具、以及 HTTP API 服务三种方式,无论是写脚本还是集成到项目中都非常灵活
🧠 智能OCR识别
内置 OCR 引擎,可以自动识别图片和扫描件中的文字内容,连图片里的表格都能转成 Markdown 格式
⚡ 极简使用体验
一行命令搞定:markitdown document.pdf,立刻在终端看到干净的 Markdown 输出,支持管道重定向保存到文件
💡 典型使用场景
• 博客写手:把参考资料的 PDF/网页 转成 Markdown,直接粘贴编辑
• 开发者:将项目文档批量整理为统一的 Markdown 格式
• AI工程师:快速构建 RAG 知识库的训练数据集
• 日常办公:把 Word/PPT 内容快速提取为干净的纯文本
📥 获取方式
GitHub 开源免费:https://github.com/microsoft/markitdown
安装:pip install markitdown
登录后即可获取资源链接
评论 (0)
暂无评论,来说点什么吧~