过滤XML中的非法字符

在用Dom4J处理XML文件时,抛出了这个异常: An invalid XML character (Unicode: 0×8) was found in the CDATA section.[......]

Continue Reading »

利用JTidy将HTML转为XML

信息检索快结课了,于是开始琢磨着做个什么东西,应用一下所学到的知识。做什么呢? 搭一个完整的搜索引擎?虽然有luencenutch等开源工具包的支持,可是时间上似乎不够。做网络爬虫?做网页去重?好[......]

Continue Reading »