Microsoft已發布了一個Python工具“ Markitdown V0.1.0”,它可以轉換插件支持,內存轉換,支持EPUB格式的辦公室文檔等。

Microsoft發布了“ Markitdown V0.1.0”,該庫允許您轉換插件支持,內存轉換,支持EPUB格式的辦公室文檔等。有關更多詳細信息,請參見下文。


2024年12月,來自Microsoft人類體驗(HAX)小組的亞當·富尼(Adam Fourney)將各種文件轉換為降價格式,以將開發AI開發AI的網站上的PDF,Office Files和信息轉換為基於文本(Markdown)所需的網站。「標記」」Python工具/庫但是,自v0.0.2以來,此標記已更新。「標記v0.1.0」它已被發佈為

版本0.1.0(以前為0.1.0A6)是一個大版本,比以前的0.0.2版本進行了許多改進。

摘自發行說明

MarkitDown v0.1.0組織格式依賴項,允許您僅安裝必要的轉換器,例如PDF,DOCX,PPTX,XLSX等,並且現在在內存中執行轉換為 *MarkDown,並且現在支持Epub Format Conversion。

*為了保存所有依賴關係,就像在以前的版本中一樣,使用“ Pip install'markitdown [all]''安裝。

此外,此版本還增加了第三方開發人員的插件開發,將數據UIS保存在Markdown中的選項以及啞光類型,擴展和角色集以及進行了大量的修改,因此,如果您正在開發使用MarkitDown的Web服務或使用MarkitDown的工具,請檢查一下。

標記v0.1.0選項

Markitdown v0.1.0

概述

版本0.1.0(以前為0.1.0A6)是一個大版本,比以前的0.0.2版本進行了許多改進。
高級更改包括:

  • 有組織的依賴項分為特徵組 - 僅安裝您需要的轉換器,或者使用PIP安裝標記下的所有內容[全部]
  • 一個新的基於插件的體系結構,允許第三方開發人員在標記下添加功能(請參閱示例插件)
  • 所有轉換均在內存中進行 - 不再有臨時文件
  • 支持包括epub在內的新格式
  • 選項將數據UIS保持在轉換後的降壓中
  • 在命令行接口中覆蓋MIME類型,擴展名和Charset的選項(從管道或stdin讀取輸入時有用)