快捷导航
设置了模拟点击爬取中国大学慕课里某门课的讨论区内容,但只能抓到第一页的内容,找不到原因,求帮助!任务么是Dclick1 和Dclick2.
举报 使用道具
| 回复

共 7 个关于本帖的回复 最后回复于 2020-1-10 22:24

沙发
Fuller 管理员 发表于 2020-1-7 21:26:42 | 只看该作者
第一级规则没有设置关键内容,那么就没有判断规则是否适合的依据,很容易午夜福利在线播放失败,或者漏数据,至少给一个午夜福利在线播放内容设置关键内容

举报 使用道具
板凳
Fuller 管理员 发表于 2020-1-7 21:30:13 | 只看该作者
第一级规则的样本网址:https://www.icourse163.org/learn ... 257#/learn/announce
第二级规则的样本网址:https://www.icourse163.org/learn ... 7#/learn/forumindex

很明显,各自有不同的独立网址,根本不需要做两级,只需要第二级规则就行了,看这个网址名字,估计所有课程都有类似的网址结构,最后都是 forumindex 表示论坛网页。那么可以在excel中批量把网址构造好
举报 使用道具
地板
Fuller 管理员 发表于 2020-1-7 21:39:01 | 只看该作者


第二级规则加载失败,是翻页规则失败。要注意蓝色箭头,class中含有一串数字,这种数字往往每一页都不一样,所以,要避开它,这个div不能用做翻页区,因为id和class都不能用。那么就选用含有“下一页”的那个A节点作为翻页区。另外,点击定位偏好按钮,选择偏好class,因为很多id都含有数字,会影响适应性。

最后,在创建规则工作台上,勾上关键内容,不然的话,翻页宅男深夜福利容易漏数据
举报 使用道具
5#
zhaopeng123161 新手上路 发表于 2020-1-7 21:40:16 | 只看该作者
好的  非常感谢
举报 使用道具
6#
zhaopeng123161 新手上路 发表于 2020-1-7 21:53:34 | 只看该作者
您好,就按第二级规则,设了关键内容,还是只能抓一页的内容,TestDis
举报 使用道具
7#
Fuller 管理员 发表于 2020-1-7 22:40:40 | 只看该作者
zhaopeng123161 发表于 2020-1-7 21:53
您好,就按第二级规则,设了关键内容,还是只能抓一页的内容,TestDis

看我在“地板”楼的回答,按照我说的做翻页区映射和翻页记号映射
举报 使用道具
8#
zhaopeng123161 新手上路 发表于 2020-1-10 22:24:01 | 只看该作者
非常感谢指导, 已成功!
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • 内容分析法中的抽样
  • 豆瓣电影的情感分析
  • 一本在线图书——社交网络分析介绍
  • 网络爬虫宅男深夜福利html片段时无法生成结果文件怎
  • 网络爬虫占满了c盘怎么清理

热门用户

GMT+8, 2020-1-18 10:47

友情链接: 10ji2.space    g380.space