word去除干扰码的方法:
1. 浏览时先将网页内容存为HTML页面格式:点击浏览器“文件”-》“另存为”命令并选“仅HTML页面”项;
2. 用系统自带的记事本软件打开该网页文件:点击“文件”-》“打开”命令并在文件名处输入先前保存好的网页文件全称(带扩展名如ABCD.HTM);
3. 这时你在记事本中看到的是文件的全部源代码,选“编辑”-》“全选”和“复制”命令,接着新建一空白WORD文件并选“编辑”-》“粘贴”命令,将所有源代码转移到WORD文件中;
4. 在WORD程序中点击“编辑”-》“替换”命令进行处理。首先选中“使用通配符”选项,根据前面的分析结果在查找栏处输入要查找的文字并执行替换命令。
它们分别是:
“\\*\\”
及“\\*\\”
其中替换栏处为空,目的是将所涉及文字全部去除。
5. 执行完上述替换命令后,点击“文件”-》“另存为”命令将处理后的文字保存为新的网页文件。注意:保存时“保存类型”处不要选“WEB页”项而选“带换行符的纯文本”项,且“文件名称”处应填入带指定扩展名的名字,如“EFGH.HTM”;
6. 双击打开新保存的网页文件,点击“文件”-》“另存为”命令并选“文本文件”项。最后得到的新文件就是去除了干扰文字后干净的文本内容了;
ustudio去除干扰码的方法:
关键是要在设置中选中“允许输入低值ASCII码”项,以在查找替换操作中启用程序的控制字符识别功能。其余替换与word相似。
firefox请用CleanHide这个扩展
如果对网页干扰码的原理有兴趣,可以到http://www.squarefree.com/bookmarklets/zap.html去看看资料。
No comments:
Post a Comment