gscan2pdf:无版图Ubuntu:OCR:汉字中文识别软件


以前曾经替一些出版社或印刷馆进行作家出版作品集的印前作业。什么叫印前作业呢?就是出版社接到作家的委任替他出版作品集,在还没有送交印刷馆印制之前,必须进行非常繁琐的印前作业——打字、排版、设计、插画、校对,再打印或者制作为数码母版,再送交印刷馆进行印制、装订、裁切、加胶等。

当然,作家们根本不知道这些幕后的神秘人物——是谁在进行这些印前或者印刷作业。

制作印前作业的人,可以说是第一个看到作家作品集出版物的人。拿来的材料,都是一些作家手写的手稿,最多数量的是作家的作品剪报。当然,我们最喜欢的就是印刷品的剪报,字体清晰,容易打字。最怕的是拿来的是作家的手写手稿,字迹龙飞凤舞的有之,雾里看花的有之,只有他自己看得懂的笔迹有之,总之,林林总总,这就要考验打字者的智慧与学识了。打字时,几乎是一项伟大的猜测与推敲功夫。哈哈。此事就暂时谈及此,因为与本题无关。

之前说了,就是我们这些进行印前作业的人,最喜欢的就是送来的是印刷品的剪报。因为通过文字识别软件的帮忙,可以大大缩减了打字的时间。

文字识别?

拜科技所赐,竟然有人写成了所谓文字识别(OCR)的程序。OCR是什么?它是Optical character recognition的缩写。就是通过图形,把图形转换为数码的文字。这样就可以重新排版或者修改。英文的辨识,很早就有了,但是,中文的辨识,还是前几年的事儿。这要感谢中国科技的崛起,让这回事儿,顺理成章。以前用微软的视窗平台,用的是尚书OCR。两年前,毅然把视窗平台废了,于是乎,换成无版图Ubuntu平台后,尚书OCR就无法在无版图平台上再次操作,只好另行寻找。

英文的OCR不难找,但是,中文的文字识别就难如登天了。但是,皇天不负有心人,在无数次的测试后,终于找到了一个还不错的中文识别软件——gscan2pdf。

这软件的名称,和OCR文字识别一点儿关系都没有,难怪让我踏破铁鞋无处寻。

既然这么难得,就在这里与大家分享。

gscan2pdf 网站

1. 安装:

在无版图的软件库里,在搜寻的格子里输入:gscan2pdf。

在软件库里可以找到这个软件。点击安装按钮,可以安装。

2. 安装后,可以在软件库这里直接点按启动软件按钮即可启动软件。

或者,也可以关闭上述的软件库,到桌面上的软件启动器找到这个已经安装好的图标,点按启动软件。

3. 启动后的gscan2pdf的桌面。

4. 因为是通过图形来辨识,当然,事前必须把要辨识的图形文件准备好

准备这类图形文件,现在很简单。您可以通过传统的扫描仪(scanner)扫描印刷品。很久没有购买扫描仪了?没关系,拿起数码相机,或者手机,对准纸张印刷品,咔嚓一声,数码图形文件就已经成型了。难不倒您吧?如果您没有数码相机,也没有手机,那么怎么办?哈,您不是生长在地球上的人吧?

这个图形文件,无论在扫描或者拍摄的过程中,尽量是一个栏目一个文件,就是不要一个页面两个栏目。因为识别系统是无法跨栏识别的。当然,您可以一个页面扫描或拍摄,然后再用图形处理软件进行分割处理,再保存为个别的文件。为了过后容易辨识,最好是把文件用数字(1、2、3、4、5……)排序,到时在OCR时容易辨识。

准备好了图形文件,点按gscan2pdf左上角的打开图形文件的图标。

5. 在弹出的文件信息框里,选择那个事前已经准备好的图形文件,再点按OK。

6. 这时,桌面上的Image图形页面,应该显示您事前准备好的图形文件的内容。

7. 选择最上端的选单里的Tools工具选单。在拉下来的选单里选择OCR(文字识别)。

8. 这时,弹出一个OCR的信息框。这里面有两项设定必须设定正确,不然会出错。

在OCR Engine文字识别引擎,必须选择:Tesseract。

在Language to recognise识别的语文,必须选择:Chinese (Simplified) 中文简体。

然后才可以点按开始识别的按钮(Start OCR)。

9. 因为经过切割的图形文件里的字数不多,一般上花费不是很长的时间,就辨识完毕。

点按桌面上的OCR Output识别显示页面,就可以看到识别后的数码汉字中文了。这里的汉字,已经不是图形了,而是可以个别文字修改的数码文本了。

10. 保存识别后的文本文字:

点按最上方的保存Save图标。

这时弹出一个Save信息框。在里面的Image Type保存的格式,选择:Text 文本。

最后点按保存Save按钮保存文本文件。

11. 这时弹出一个文件信息框。选择您要保存这个文件的文件夹,再填入保存的文件名称。最后点按保存Save按钮。

12. 大功告成。

13. 您可以通过文本文件软件,或者文字处理软件,打开这个文本文件(扩展名称:xxx.txt)。

当然,这个原始文件,必须经过校对和修改。我想,这样已经节省了许多烦人的打字功夫了。

至今,到我写这篇文章为止,世界上还找不到一个可以识别百分之百辨识准确无误的软件。

 

 

 

 

 

 

 

 

Print Friendly, PDF & Email

Have any Question or Comment?

发表评论

电子邮件地址不会被公开。 必填项已用*标注

此站点使用Akismet来减少垃圾评论。了解我们如何处理您的评论数据

文章月度归档