财之道 - 分享付费文章

RPA抓取小红书爆款笔记_ 项目准备手册

小红书 ·

RPA抓取小红书爆款笔记|项目准备手册

来自:
生财有术

码农飞哥|RPA定制2024年07月09日12:31

各位生财圈友大家好,我是码农飞哥,讯飞程序员,CSDN博客专家,玩副业2年,累计变现六位数,目前专注于AI+RPA项目,已经开发了数十款机器人。本文是合肥线下RPA航海手册。

一、环境准备

1、第一步:准备一台Windows电脑

准备好一台笔记本电脑,电脑的最低配置是:

操作系统

Windows内存4G及以上硬盘500G显卡独立显卡处理器
这里推荐使用Windows操作系统的电脑,如果你实在没有的话,使用Mac电脑也是可以的,只是Mac电脑兼容性比较差。

2、第二步:安装影刀

访问影刀官网:https://www.yingdao.com/,点击免费下载。

网站会自动根据您当前的操作系统,选择与之适配的影刀软件版本。目前,影刀RPA已经支持Window操作系统,Mac操作系统以及信创操作系统。下载好之后点击安装,安装过程不需要做任何修改。

3、第三步:注册登录

注册好之后,就可以使用注册的手机号或者邮箱登录了。

4、第四步:安装插件

影刀操作第三方浏览器如Chrome浏览器,Edge浏览器,Firefox浏览器等,都需要安装插件。不然就会出现如下图的提示:

安装浏览器插件的方式:登录之后==》点击头像==》选择工具==》选择自动化插件打开自动化插件页面

在自动化插件页面上给对应的浏览器安装对应的插件,目前影刀已经支持了Chrome浏览器,Edge浏览器,Firefox浏览器,360浏览器。安装好这些插件之后影刀的环境配置就基本上搞完了。

到这里,前期的准备基本就完成了。

二、RPA是什么?

RPA全称是机器人流程自动化(RoboticProcessAutomation),主要的功能是通过自动化技术模拟人类的行为操作,如点击鼠标,打开网页,填写输入框,抓取数据等等。

机器人擅长执行重复的标准化动作,有那么一句话说的是:只要一个动作重复三次以上就可以考虑让其自动化了。

三、影刀开发界面介绍

1、影刀主界面

影刀主界面分为四个部分:

第一部分:创建应用:点击「新建」可以创建PC自动化应用,手机自动化应用以及自定义指令。

第二部分:官方市场或其他RPA开发者处获得的RPA应用。第三部分:官方导航栏,这里的应用就是机器人,触发器就是定时器。第四部分:自己创建的应用列表,影刀中的应用简单的来说就是你自己创建的机器人。

需要说明的:

自定义应用:应用在RPA中就是一个拥有自动化流程的机器人。简单的说就是你开发的机器人。自定义指令:是为了提高流程复用率,我们可以将高频的流程封装成自定义指令,后续其他的应用可以直接使用。比如说:从文件夹中提取文件的后缀名,这个流程我们可以封装成一个自定义指令。如下是我这边创建的一些自定义指令。

boxdot

2、应用构建页面


在应用构建页面分为六部分。

第一部分是指令区,所有的操作指令都可以在这里选,指令就是行为操作,比如点击元素指令对应的就是点击动
作,输入指令对应的就是输入动作。

第二部分是顶部菜单栏,提供了保存,运行,调试,影刀浏览器,数据抓取,智能录制等功能第三部分是流程编排区,用于编排机器人应用所需要的指令,可以理解成机器人流程的工作区。第四部分是底部菜单栏,存储元素库,图像库,流程参数等,元素库。

第五部分是流程及全局变量,存储项目的文件,所有的流程代码都会存储到后缀名是.flow文件中第六部分是运行日志,这里可以看到运行中的所有信息。

四、小红书素材抓取机器人实现

1、实现流程

2、代码实现1、打开小红书网页

打开小红书网页可以使用【打开网页】指令网址填入小红书的网站地址:https://www.xiaohongshu.com/explore浏览器类型选择影刀浏览器

2、批量抓取数据

影刀提供了【批量数据抓取】指令,直接在页面捕获元素即可获得网页中的数据。并且会将抓取到的数据存储到默认名为【webdatatable】的变量中。这个变量的名称可以随意修改。

抓取数据操作,【批量数据抓取】指令支持页面中多列数据分开抓取。我们可以先抓取笔记的标题,如下操作即可。

在第二步抓取到数据之后,接下来就遍历webdatatable列表中的数据了,这里可以使用【ForEach列表循环】指令来遍历数据。如下点击uparrow!!times!!=!!=>选择webdatatable变量

4、获取点赞数

每一项数据遍历的结果如下图所示:

"10+"+prime

['“长脖怪”克里佐抽象夸张的形体+巨大的手臂视觉效果太震撼了健美奥赛健身氮泵','经典健美圈',"10+"',

'https://www.xiaohongshu.com/explore/6673a733000000001c021ce3?xsec_token=AB2f3uuATaX3f1goUsLowiddrT1rYPKMwgHm1U7bw9joM=&xsecsource=pc_feed'],这是一个列表,点赞数在列表的第三项。

所以这里可以通过loop_item[2]的Python表达式来获取点赞数。

5、判断点赞数

这里点赞数在1000~9999之间显示的是xx千+,点赞数大于10000的话则显示的是xx万+。

所以,这里使用【IF多条件】指令,当点赞数包括千或者万的时候就表示爆款笔记。如果满足这个条件的话,则将该笔记写入到数据表格中。

6、写入数据表格

【写入数据表格】指令是影刀内置的一个数据表格,可以将数据暂存于此,相对于直接操作Excel,操作数据表格更加方便。

按照行写入的方式,从A列开始写,不断追加数据。因为前面loop_item已经是一个列表了,所以可以直接写入。

7、数据表格导出

【数据表格导出】指令可以直接将影刀数据表格中的数据导出为Excel文档。

odotboxdotodot

odot

3、完整代码截图
=

4、最终抓取到的数据

#无标签