豆瓣读书筛选新书

随笔2周前发布 安柒苒
7 0 0

      最近闲来无事,逛逛豆瓣,看看新书,新书好多,一页一页的,这么多书目实在有点多了,有啥好办法能够快速筛选好书呢?

      通过强大的某度,找到了一个RPA自动化工作,可以满足需求。效率大大提升,之前得花个10分钟左右的时候选书,现在最多1分钟

      接下来就以豆瓣读书为例,初步了解下这块RPA工具。我目前采用的是“粒元数字员工”

1、实际操作步骤

1、打开豆瓣读书

2、新书速递–点击更多

3、抓取每页的书名、作者、评分、评论数

4、循环点击下一页

5、抓取每页的书名、作者、评分、评论数,写入定义的变量

6、新建excel,通过对应列表写入数据

2、整体效果展示

豆瓣读书筛选新书

3、脚本编辑

3.1、主流程打开豆瓣读书首页,调用3个子流程

为什么会想到使用子流程呢?因为脚本一旦太多,复杂性提高,对于我这种小白,有时就会很难理解;使用子流程可以把脚本分块,更加容易理解,后期维护脚本也方便

豆瓣读书筛选新书

3.2、循环获取书名信息

这里使用到了全局变量,设置为list,主要原因就是方便存放数据,为后面数据使用铺垫

豆瓣读书筛选新书

先找到相似元素,再添加到列表

“循环相似元素”指令十分强大,RPA可以从元素库中选择一个已捕获的元素,再获取页面上相似的元素,从来把页面上所有相似元素获取,进而可以获取它们的对象、元素文本内容、元素值等,终于再循环操作你想操作的

豆瓣读书筛选新书

3.3、循环获取作者信息

这里的作者信息是有空格的,为了美观,我使用了“删除文本两端的空格”指令,将“作者信息”字段删除空格

豆瓣读书筛选新书

3.4、循环获取评分、评论数信息

评分信息是在整个大文本中的,这个该处理呢?这个问题我至少卡了1个小时,还得感谢RPA客服韩老师,在他的帮助下,理顺了思路。

先通过“(”分割,再取分割后的第1个元素 ,即为评分,由于有些新书是没有评分的,分割后就空,需要加if…else…,判断如果不等于None,就直接添加分割后的第1个元素,如果等于None,就添加0

有点点小复杂,没关系,用的多了就容易了

豆瓣读书筛选新书

3.5、循环下页

这里通过点击下一页,循环页面,再去获取书籍信息

我要不停的循环每页的信息,使用了“无限循环”指令。既然无限循环,总不能一直循环下去吧,得找到退出条件

我用到了“if元素可见(web)指令”,通过该指令,检查如果下一页按钮不存在,意味着到了最后一页,就会退出循环

豆瓣读书筛选新书

3.6、写入excel

将全局变量中的信息,依次写入到excel,最后记得要保存excel

内容保存除了常用的excel,文本、csv写入也是可以的,大家可以根据需求选择

豆瓣读书筛选新书

3.7、最后展示下热搜信息

豆瓣读书筛选新书

4、总结

简单实用,十分适合懒人,人人都是程序员,人人都AI,简单总结一下

1、  RPA指令丰富,简单易用,上手快,不会代码也能AI

2、  效率提升显著,原本搜罗这些热点信息需要10分钟左右,使用RPA之后,1分钟之内处理完成

3、  永久收益,脚本只需编辑调试成功,后面重复使用,大大得解脱双手

tips:这里只有豆瓣读书,豆瓣其它比如电影、音乐,小伙伴如果有需要可以留言,借一步说话。

© 版权声明

相关文章

暂无评论

您必须登录才能参与评论!
立即登录
暂无评论...