前一段时间,我曾经钻研了一段时间的post数据流,其实很希望可以通过软件代替手工做一些seo的事情,但是过程也遇到了很多技术难题,比如高级的正则表达式就是其中一个门槛之一,因为我们需要“标记”或“提取”数据特征的时候,必须使用正则匹配的模式的。 而且我们看国内很流行的软件,火车头采集器来说,其实我们平时使用的时候可能更多的时候,采用的代码截取,都是最简单的前后截取,直接用有规律的div就可以解决了。但是对于高级的采集这个问题就不能发展了,比如你需要去掉某些字符、比如你想替换某些网址等都需要最简单的正则了;但是还有更难的,比如你需要cookies登录采集,同时也需要你过一些验证码或者需要提取动态的生成的time值等,非正则不可了。 |