十行代碼教你用 node.js 讀取 docx 中的文本

2021/12/25

前言

最近有一個case。需要去解析word文檔。有兩個需求，一個是將word文檔轉成PDF，一個是將word文檔中的內容按照一定的規範讀取到資料庫中，去npm倉庫找了大概有十幾個包，發現主要是通過以下的方式來轉換代碼。

通過調用系統底層程序（比如說office）的API來轉換；通過模板，替換數據來實現生成PDF；通過有些免費將word轉成PDF的網站來實現將word轉成PDF，比如docx-to-pdf；

後來退而求其次，想通過先將docx轉成文字，發現了個textract的包。

當然也有缺點，不支持docx中的標題號，不支持圖片等文件。

不怕死的我決定自己干這件事情。

介紹

其實docx就是一個zip包，然後封裝了一些xml文件。可以直接將docx的包改後綴為.zip來打開觀看。

Paste_Image.png

進入word文件夾

Paste_Image.png

裡面有幾個主要的文件。

document.xml 這個就是文檔的主要內容

numbering.xml 這個就是標題號，以及標題號的一些屬性

styles.xml 這個就是樣式列表

打開document.xml 你就會發現，所有的文本都是用標籤包著的。這個就是本文的關鍵

這篇文章分享之前我還是要推薦下我自己的前端群：657/137/906，不管你是小白還是大牛，小編我都挺歡迎，不定期分享乾貨，包括我自己整理的一份2017最新的前端資料和零基礎入門教程，歡迎初學和進階中的小夥伴。。

代碼首先，需要通過npm安裝一個能查看zip文件的包：adm-zip；然後，寫下下列代碼即可

複製代碼

最近正在用node.js去解析docx的工作。先將最簡單的寫在上面。回頭有空再繼續分享

2月13日更新

之前隨手寫的代碼，今天測試發現用更新后的代碼比源代碼的效率提升十倍以上。

複製代碼

附上測試代碼

複製代碼