作者:狐灵科技 | 2019-08-26 23:12 |点击:
深维全能信息采集软件官网:www.sumwill.com
今天写一篇深维全能信息采集软件的教程
采集的方法其实很简单 和火车头类似 织梦的采集侠也是这样的
今天我拿顺企网为例
首先打开深维全能信息采集软件
新建一个采集任务 如下图
任务名称可以随意填写 网站首页一般是采集网站域名即可 备注随意
例如我的
任务名称:重庆顺企网制造业
网站首页:www.11467.com
备注说明:顺企网制造业
这里的网页编码 一般都是默认的 如果发现采集是乱码 那么自己更改一下编码
然后就是起始地址
因为我采集的是顺企网的重庆制造业 他的地址是
https://www.11467.com/chongqing/dir/c.htm
然后我们多看看下一页 看网址会发生什么变化 如果是页面变化是数字 并且是规则的那么就可以采集
第二页是:https://www.11467.com/chongqing/dir/c-p2.htm
第三页是:https://www.11467.com/chongqing/dir/c-p3.htm
第四页是:https://www.11467.com/chongqing/dir/c-p4.htm
可以发现是规则的 我们输入p1也就是第一页
那么起始地址就是https://www.11467.com/chongqing/dir/c-p1.htm
要把其中的p1当中的1改成可以变动的 我们也要看下最后又多少页
这个最后就20页 因此 页码范围就是从1--20
再把p改成插入变量 会变成{page}符号 在点击添加
不懂得可以看我得配置图
然后就是导肮页面 这个也要一定要配置好 不然会出很大得问题
最主要得就是页面名称 (页面标识是进入文章页面必须有得链接标识)
这里说明一下:如果你的列表页 点进去后可以直接 看到你想要采集得内容 那页面名称 就选择列表页 页面类型选择最终页面
然后在添加一个 页面名称 文章页面 页面类型选择最终页面
如图所示
如果你采集得页面 点进去后 还要再次点击一个页面才能采集到内容 那页面名称 就选择列表页 页面类型选择 导航页
最后就是采集数据了 把我们想要采集得内容填写上即可
比如我要采集公司名称 打开得内容页是:https://www.11467.com/chongqing/co/300685.htm
在最下面我们可以看到公司名称 联系人电话 地址 QQ 工商信息
记住 我们要找唯一 查看网页源代码很多公司名字 我们必须找到唯一识别得
这里面他的法人这个字段是唯一得 所以我们可以用这个
记得把html去除即可 如果你有其他用途 不去除也可以 根据需求来
以上就是深维全能信息采集软件使用教程