关于采集:
    什么是采集呢?我们可以这样理解,我们打开一个网站,看到有一篇文章很不错,于是将文章的标题和内容复制,然后将这篇文章转到我们的网站上,这个过程就可以称作采集,将别人网站上对自己有用的信息转到自己网站上。
    采集器也是这样,不过整个过程是由电脑来完成的,我们复制人家的标题和内容,是在知道什么地方是内容,什么地方是标题前提下进行操作的,但电脑是不知道的,所以我们要告诉电脑怎么识别怎么采,这就是写规则的过程;我们复制完了,打开我们网站,比如论坛发帖的地方,然后粘帖发表,采集时数据的导入对电脑来说,就是模仿我们发表帖子的过程。当然,要采集,首先服务器必须满足支持组件:Microsoft.XMLHTTP。
    现在我们来说一下采集需要一些什么基础。基本的你只要能看懂一些常见的HTML标签代码就可以了。然后就是可以分清网页里内容的层次,比如那一块是内容,那一块是广告,那一块是列表。要做数据库基本替换和删除就要懂一点数据库知识了。最后就是能找到一个风格统一、有规律可循的站点。

查看视频

本栏相关文档:

共0页/0条记录