Microsoft發布了“ Markitdown V0.1.0”,該庫允許您轉換插件支持,內存轉換,支持EPUB格式的辦公室文檔等。有關更多詳細信息,請參見下文。
2024年12月,來自Microsoft人類體驗(HAX)小組的亞當·富尼(Adam Fourney)將各種文件轉換為降價格式,以將開發AI開發AI的網站上的PDF,Office Files和信息轉換為基於文本(Markdown)所需的網站。「標記」」Python工具/庫但是,自v0.0.2以來,此標記已更新。「標記v0.1.0」它已被發佈為
版本0.1.0(以前為0.1.0A6)是一個大版本,比以前的0.0.2版本進行了許多改進。
摘自發行說明
MarkitDown v0.1.0組織格式依賴項,允許您僅安裝必要的轉換器,例如PDF,DOCX,PPTX,XLSX等,並且現在在內存中執行轉換為 *MarkDown,並且現在支持Epub Format Conversion。
*為了保存所有依賴關係,就像在以前的版本中一樣,使用“ Pip install'markitdown [all]''安裝。
此外,此版本還增加了第三方開發人員的插件開發,將數據UIS保存在Markdown中的選項以及啞光類型,擴展和角色集以及進行了大量的修改,因此,如果您正在開發使用MarkitDown的Web服務或使用MarkitDown的工具,請檢查一下。
標記v0.1.0選項
Markitdown v0.1.0
概述
版本0.1.0(以前為0.1.0A6)是一個大版本,比以前的0.0.2版本進行了許多改進。
高級更改包括:
- 有組織的依賴項分為特徵組 - 僅安裝您需要的轉換器,或者使用PIP安裝標記下的所有內容[全部]
- 一個新的基於插件的體系結構,允許第三方開發人員在標記下添加功能(請參閱示例插件)
- 所有轉換均在內存中進行 - 不再有臨時文件
- 支持包括epub在內的新格式
- 選項將數據UIS保持在轉換後的降壓中
- 在命令行接口中覆蓋MIME類型,擴展名和Charset的選項(從管道或stdin讀取輸入時有用)