Microsoft发布了“ Markitdown V0.1.0”,该库允许您转换插件支持,内存转换,支持EPUB格式的办公室文档等。有关更多详细信息,请参见下文。
2024年12月,来自Microsoft人类体验(HAX)小组的亚当·富尼(Adam Fourney)将各种文件转换为降价格式,以将开发AI开发AI的网站上的PDF,Office Files和信息转换为基于文本(Markdown)所需的网站。「标记」」Python工具/库但是,自v0.0.2以来,此标记已更新。「标记v0.1.0」它已被发布为
版本0.1.0(以前为0.1.0A6)是一个大版本,比以前的0.0.2版本进行了许多改进。
摘自发行说明
MarkitDown v0.1.0组织格式依赖项,允许您仅安装必要的转换器,例如PDF,DOCX,PPTX,XLSX等,并且现在在内存中执行转换为 *MarkDown,并且现在支持Epub Format Conversion。
*为了保存所有依赖关系,就像在以前的版本中一样,使用“ Pip install'markitdown [all]''安装。
此外,此版本还增加了第三方开发人员的插件开发,将数据UIS保留在Markdown中的选项以及哑光类型,扩展和角色集以及进行了大量的修改,因此,如果您正在开发使用MarkitDown的Web服务或使用MarkitDown的工具,请检查一下。
标记v0.1.0选项
Markitdown v0.1.0
概述
版本0.1.0(以前为0.1.0A6)是一个大版本,比以前的0.0.2版本进行了许多改进。
高级更改包括:
- 有组织的依赖项分为特征组 - 仅安装您需要的转换器,或者使用PIP安装标记下的所有内容[全部]
- 一个新的基于插件的体系结构,允许第三方开发人员在标记下添加功能(请参阅示例插件)
- 所有转换均在内存中进行 - 不再有临时文件
- 支持包括epub在内的新格式
- 选项将数据UIS保持在转换后的降压中
- 在命令行接口中覆盖MIME类型,扩展名和Charset的选项(从管道或stdin读取输入时有用)