在CentOS7虚拟机中将Word文档转换为Markdown格式

发表时间: 2017-08-18 22:45

先介绍一下什么是Markdown,Markdown是一种可以使用普通文本编辑器编写的标记语言,通过简单的标记语法,它可以使普通文本内容具有一定的格式。

为什么要将word转换成Markdown?现在很多在线文档平台都支持Markdown语法,可以很方便的编写文档。将现有的word上传到在线文档平台也是可以的,但有些平台不支持在线编辑word文档,因此如果能将word文档转换成Markdown语法文档就可以在线编辑了。当然如果文档内容不多直接重新编写一下就完事了。

下面来介绍一下在centos7中通过unoconv及panddoc工具将word文档转换成Markdown文档的具体步骤。

1.执行安装unoconv命令 yum -y install unoconv 等待安装完成。

2.下载安装panddoc

在/tmp目录中下载panddoc安装包:

wget https://github.com/jgm/pandoc/releases/download/1.19.2.1/pandoc-1.19.2.1-1-amd64.deb

centos无法直接安装deb包,所以需要如下操作:

2.1 安装rpmbuild,命令:yum install -y rpm-build

2.2 下载alien压缩包,命令:wget
https://git.kitenet.net/index.cgi/zzattic/alien.git/snapshot/alien-8.93.tar.gz

2.3 解压alien-8.93.tar.gz,命令:tar -xvf alien-8.93.tar.gz 如下图:

下载及解压之后图

2.4 将
pandoc-1.19.2.1-1-amd64.deb包移动到 alien-8.93目录中,命令:mv
pandoc-1.19.2.1-1-amd64.deb ./alien-8.93

2.5 进入alien目录,命令:cd alien-8.93

2.6 执行转换,命令: ./alien.pl -r
pandoc-1.19.2.1-1-amd64.deb

稍等片刻转换成功。嫌麻烦的可以下载转换好的rpm包,地址:
http://pan.baidu.com/s/1c2nfIjm

alien-8.93目录文件

2.7 安装rpm包命令:rpm -i
pandoc-1.19.2.1-2.x86_64.rpm 到此pandoc工具安装完成

3.将word文档上传到虚拟机tmp目录,此例中文件名为 doc.docx

4.执行word转html命令:unoconv -f html -o doc.html doc.docx

若执行报Error: Unable to connect or start own listener. Aborting. 这个错误,重新执行一遍即可。

5.执行html转markerdown命令:pandoc -f html -t markdown -o doc.md doc.html

稍等片刻转换完成,将转换后的文件用Markdown打开,使用Markdown编辑器打开或用文本工具打开doc.md再将内容复制到支持Markdown的编辑器中,结果效果一般,还存在一些html字符无法很好的转换。虽然结果不满意,但也是学到了点东西。

转之后如上图