作者 | veelion
责编 | 仲培艺
宝宝生日前后的那几天,她正好不在家,我一个人在家孤独、寂寞、冷。没有她的骚扰就可以安心写程序了!
别人家的宝宝过生日,无非是鲜花、包包和红包什么的,可我是程序员欸,怎么可以这么俗套呢?那就写个小软件,为她减轻一点做事情的辛苦,每天都能贴心呵护她。
她经常接触一些英文资料,免不了要进行翻译。而今,翻译这个活儿人工智能已经可以干个七七八八了,再辅助以人工校对就可以高质量地完成翻译工作。
于是,我决定帮她做人工智能翻译的活儿。借助谷歌翻译这个人工智能翻译机器来实现。我负责“人工”,她负责“智能”。我把文本 Ctrl+C、Ctrl+V 到谷歌翻译,再 Ctrl+C、Ctrl+V 到 Word,编辑好后给宝宝用她的智能去校对。
可我身为程序员,怎么能做 Ctrl+C、Ctrl+V 的苦力活儿呢?那就用 Python 写个小软件来替我做苦力吧。说干就干!
输入为 Word 文档(*.docx),选择文档语言和翻译目标语言。
输出仍为 Word 文档(*.docx),以段落为单位,中英文对照,方便校对。如下图所示:
设计实现
人工智能翻译
基本上搜索引擎都提供了机器翻译的功能,国内的百度、搜狗、腾讯、有道,以及国外的谷歌等。除了网页版,还提供了 API 供开发者使用,但是 API 基本上都是收费的,所以还是用网页版的免费功能吧。这么多家到底哪家翻译技术强呢?个人比较喜欢谷歌的,那就选 Google 的吧。正好谷歌中国的翻译功能访问起来是通畅的:
https://translate.google.cn/
方便的是,基于网页版的 Google 翻译已经有人做成了 Python 库:googletrans,就是它了。
人机界面
现在的软件都流行云服务,即处理运算都在服务器上,用户只需要浏览器打开一个网页操作,就是所谓的 B/S 架构。这样的好处是,软件修改升级都很方便。
然而,谷歌翻译的使用有频率限制,后面软件开源了,大家都通过我的服务器进行谷歌翻译,我的服务器很容易被谷歌服务器封杀。所以决定写成一个纯粹的 PC 版软件,用户的电脑直接访问翻译服务器。
Python 写图形化界面(GUI)的库也有好几个,比较有名的是 wxPython 和 PyQt。我对 Qt 早有耳闻,而且它在图形化界面领域地位很高,决定选择 PyQt 来写软件的图形化界面。
进一步了解,原来 PyQt 不是 Qt 官方写的,而是一个叫 Riverbank Computing 的公司对 C++ 编写的 Qt 的 Python 绑定,并且基于 GPL 协议发布。GPL 具有传染性,不是特别喜欢它。正好发现,Qt 官方自己按照 PyQt 的接口写了一套 Python 绑定,起名为 PySide,并以 LGPL 协议发布,这个协议友好多了。最新的 PySide 基于 Qt 5,名为 PySide2,就选它了(哎,这是个坑啊,后面详解)。
但是我对 Qt 写界面完全不熟。不过我是谁啊,我可是程序员,这难不倒我。找来 PySide2 自带的 example,从里面找个跟我需要类似的。我需要选择框(选语言用)、文件选择器(选要翻译的文档用)这两个。发现有个 findfiles.py 有点类似。就从它开始边学边改,终于成型了:
功能实现
边学边写界面耗时很长,剩下的就简单多了。读取 docx 用 python-docx 库,翻译用前面说的 googletrans,一气呵成。最后,把提示语言写到界面的文本区域时遇到点问题,还是 Qt 不熟悉造成的,继续学习,其实就是 Qt 的信号传递。大功告成,测试一下:
发布软件
软件写好了,要交给宝宝使用。但是我没有信心教会她从源代码运行这个程序。毕竟是宝宝嘛,能双击运行就可以啦。
于是用 Pyinstaller 打包这个软件。一条命令完成,非常 easy,生成一个可以单独运行的 exe 文件,双击运行没问题。作为老江湖,当然还要拿到其他机器上去测试一下下。纳尼?!报错了!!!把错误信息 Google 一下,搜到的结果不多,而且是 PyQt5 的,没有 PySide2 的信息。为了这个错误,又耗费了几个小时,这就是坑啊,选择要慎重。
果断换成 PyQt5,因为两者很相似改起来并不复杂,只是信号部分的名称不一样。换成 PyQt5 后,一切正常了。不过,作为一个程序员并不打算就此放过 PySide2,有时间还是要搞定它的 Pyinstaller 发布!
后记
这个小软件虽然小,但涉及的技术栈还不少,完全用 Python 完成:
小软件大功能,借助谷歌人工智能的强大力量,翻译质量有保证,几十种语言之间自由切换相互翻译,是居家生活、工作学习的必备良器。
另附下载链接:
https://github.com/veelion/transdocx/releases
作者:veelion,具有十年开发经验,主要使用Python、C++语言,从事网络爬虫、搜索引擎、自然语言理解处理等领域的研发工作。
声明:本文为作者投稿,版权归对方所有。