Friday, January 19, 2007

我收集的书籍整理软件及使用方法

我收集的书籍整理软件及使用方法

前言:

现在网上的电子书的格式众多,有exe、chm、txt、htm等,因为不同的阅读需求,我们通常要在这些书籍之间,进行格式转换并对文本进行排版,因此不知不觉中收集了很多有用的格式转换和排版软件,这里把我的软件收藏和书籍整理经验与大家分享一下。分三个部分介绍吧,第一部分是.exe、chm、 htm格式转换为纯文本格式,第二部分是纯文本的排版与简繁体转换,第三部分是纯文本转换为htm链接文档。

软件列表:

exe、chm、htm转化为纯文本格式有:minikillebook、unebook、textforever

纯文本的排版和简繁转换有Dreamedit、Textpro

txt转htm有htmlbuilder3

注:软件的使用方法有些直接引用了软件的帮助文件。

(一).exe、chm、htm转化为纯文本格式

1)Exe文件因为采用了加密技术转纯文本是最为困难的,一般来说只能采用minikillebook,这个这是一个专门针对基于IE内核电子书的反编译软件来转换,这样的转化只能提取出exe文件中的文本,不过看书不就是看作者的文字吗?所以minikillebook这个软件应该可以满足绝大部分人的需要了。反编译结果可以是原始的HTML文件,也可以直接存为文本文件,方便转换成PDA、手机电子书格式。

  使用方法:

  鼠标双击miniKillEBook.exe启动软件后,按照软件界面上标注的1、2、3的顺序执行:

  1.鼠标移动到“选择源文件”框中的靶子图标上,按下左键,光标变成准星图案,这时不要松开左键,将鼠标移动到电子书显示网页的窗口上再松开。如果软件认为您选择的窗口是一个有效的窗口,则会自动填充电子书的文件路径、首页,否则会提示您选择的窗口无效。如果找不到电子书中的显示窗口,也可以将准星光标移动到电子书的标题条上再放开,试试运气。

  2.如果有必要,点击“反编译出来的文件存放到此文件夹”框里的文件夹选择按钮,选择文件夹。如果认为系统自动设置的文件夹可以接受,则可跳过此步骤。点击“开始”按钮,开始反编译。

  3.反编译完成后,点击窗口右上角的“×”按钮即可退出程序。缺省情况下,“以文本方式保存”选项会被选中,这时反编译结果将被保存为文本文件。如果想保存成HTML文件,可以将这个选项清掉。

  下载链接:http://www.comicer.com/stronghor ... niKillEBook_chn.zip

注:对大部分电子书都有效,少部分电子书可能提取不了文本。
  
2)Chm转txt的软件很多,这里只推荐一个小巧的绿色软件UnEBook。

软件介绍:

这是一个专为批量反编译电子书而开发的一个工具。另外,UnEBook还提供将 RTF 文件批量转换成TEXT 文件的功能。

在反编译CHM电子书的时候,为了对付某些没有索引页,单纯依靠左侧目录树导航的情况,UnEBook会自动根据hhc文件,生成框架页和导航页。当然,如果您觉得自动生成的东西比较无聊,删掉就好。这是我觉得这个软件设计的最贴心的地方,否则有的制作的很差的电子书反编译完成后只有一堆乱糟糟的文件,令人头疼。

使用方法:批量反编译电子书,批量转换RTF文件为TEXT文件。

下载链接:http://www.comicer.com/stronghorse/software/exe/UnEBook_chn.zip

3)Htm文件转txt文件的软件也很多,个人推荐textforever,这个软件的功能非常强大,除了将htm文件转换为txt文件外还提供了文件合并、文件切分、段落合并、段落切分、内码转换(只能在Win 2k/XP下用)、文本替换、HTML整理、文本抽取、正则表达式(需要IE 5.5以上版本的支持)、批量OCR、tcr文件压缩/解压等功能。

我经常用的功能就是格式转换和批量合并的功能,将htm转txt的时候,通常我不会选择转换为iso8859-1字符因为可能会出现乱码。

根据需要设置选项(也可以什么不选,直接使用预设值),点击“开始转换”按钮,在弹出的对话框中选择需要转换的文件(按住Ctrl键或Shift键点击文件,即可选多个),然后点“打开”或“Open”按钮即可。

如果转换出来的内容不对,可能是因为真正的内容是用JavaScript动态生成的,可以选择“使用IE内核”,然后再点“开始转换”,重新试一遍。这个选项相当于IE的“另存为文本文件”功能,用缺省选项搞不定的网页,都可以用这个选项试试看。与在IE中打开网页不同的是,如果网页中有错,这里不会弹出错误对话框要求调试网页,而是直接跳过,反正错误对获取文本没有什么影响。

另外如果使用IE内核,而网页又是utf-8编码,则可以选择将结果转换成Unicode或ANSI,ANSI使用的是系统缺省字符集(简体中文Windows 2000/XP的缺省字符集为GB2312)。

涉及到多个文本文件的合并时,如果文本文件的文件名是按照章节的顺序排序的话,不需要多说,直接合并就是,但如果碰到这种情况,这也是最常见的情况,比如文本文件是1.txt、2.txt、…9.txt、…11.txt、…101.txt、…这种情况原来是我最头疼的,不过现在也可以轻松搞定,使用 xplorer2的批量重命名功能(见我介绍xplorer2的另一个帖子http://forum.zichen.com/viewthre ... &extra=page%3D1),将1.txt、2.txt、…9.txt一起选中,按F2键,使用模版#001.txt重命名,这些文件就变成了001.txt、…、009.txt,将 10.txt、11.txt、…、19.txt用模版#010.txt重命名,以此类推将不规范的文件都重命名以后,所有的文本文件都以章节的顺序排列好了,这时候合并就可以了,即使是几百个文件,工作量也不大,实际上也不太可能比这个更大了。

下载链接:http://www.comicer.com/stronghor ... TextForever_chn.zip

(二)纯文本的排版和简繁转换

文本的排版我喜欢用dreamedit,而简繁转化则是textpro更强大些。

Dreamedit的排版可以如下设置:

主要是在排版综合设置中。

1、选择删除:选“删除行首行尾空格”、“删除连续的重复”。

2、特殊处理:选“忽略行首为以下字符串的行”。

3、全面替换:选“半角数字替换为全角”,至于“半角字母替换为全角”可不选,在排版中灵活处理。我一般是对单个字母或大写的、较短的字符串处理为全角,如果太长或大小写间杂就用半角,具体情况考虑文章排版美观。比如“DreamEdit”我觉得如果全部处理为全角“DreamEdit”还不如保留为 “DreamEdit”美观。剩下的两项“两个以上同一字符组成……及进行字符串替换”应全部选。

在排版过程中你可以通过编辑“进行字符串替换”中的内容将一些常用的替换加入,以提高排版效率。比如台湾等地区的作者一般将说话用“「”“」”括起来,而大陆则使用“双引号”,为了统一一致,你可以通过编辑该栏目的内容进行替换。

4、智能分段:选“标题居中”、“空行作为分段依据”、“以字符作为分段依据”、“不包含以下标点符号的行作为标题”把章节的标题居中。你也可以编辑“以字符作为分段依据”来提高排版效率。

5、段落分行:选“段间添加空行”、“矫正段内以下成对字符”、“使用中文空格”段首空4个,行首空0个半角空格并将每行长度设为70。

下载链接:http://www.onlinedown.net/soft/22455.htm

没找到直接地址,直接去这个页面下吧.

Textpro的简繁转换没有什么好说的,因为是中华佛学宝库开发的用于转换古代典籍的软件,所以简繁转换是它的强项,要比dreamedit强,打开文本后选择转换->繁体转简体之后,保存就可以了。

下载链接:http://www.fodian.net/tools/TextPro51.zip

(三)txt转htm

这一部分和第一部分正好是一个逆向过程,就是将文本文件转化为htm格式,为制作exe或chm电子书做准备。

最为常用的软件就是软景网页制作机了,使用它可以制作出很漂亮的html文件,软件的使用很简单,按界面说明来操作就可以了,不过要注意在生成所以文件的时候,它是将这个文件的第一行作为章节的标题的,所以处理前最好在每个文件的第一行加上章节名。另外导入多个文件时,可能文件的顺序会有改变,需要你手工调整。行对应方法选一个文件一篇。

下载地址:这个是我找到的一个绿色版本

http://www.cncrk.com/downinfo/5085.html

去这个页面选择一个镜像下载。

总体的软件介绍就到这了,这些软件都是我试用了很多软件之后选出的最好的软件(而且都是免费的,无须到处找破解),可能还有我不知道的好软件,欢迎大家补充。

No comments: