title: 利用ChatGPT,不写一行代码,轻松获取网页内容
date: 2024-12-05 06:42:52
categories: 生财有术
urlname: 781
tags:
利用ChatGPT,不写一行代码,轻松获取网页内容
2023年08月31日11:33
早上打开生财有术,看到亦仁大佬发的这篇文章https://t.zsxq.com/11ia0VQxf,感叹大佬勤奋之余,更多的是ChatGPT对大家的提效实实在在看得到。其实还有一种方法,可以利用ChatGPT,零代码实现爬取网页数据的方法,于是花点时间写下来分享给大家。这对没任何开发经验的大佬们,可能能带来些许帮助。具体怎么实现的呢?请大家继续往下看。
大家都知道,GPT4有个功能叫“CodeInterpreter”,近几天改名为“AdvancedDataAnalysis”,如下图所示:
这个功能,业内称之为GPT4.5,就是他可以直接自己写代码并执行,实现了简易版的AIAgent功能。因此,它的功能十分强大,不仅可以上传文件,通过代码实现数据分析报表、更可以实现图片编辑、PDF数据读取等等。更多强大功能这里不做赘述。
我们回归主题,如何实现不需要编码将网页上的数据爬取下来为我所用,以下是详细的步骤:
1、将需要爬取的网页下载下来,很简单,就是鼠标停留在网页上,然后鼠标右键,另存为mhtml文件即可,如下图所示:
2、上述案例,是爬取生财有术精华帖索引工具网站中,关于小红书店铺中标的风向标内容做演示,网页详细地址请点击这里(这里仅做演示作用,非引导爬取生财网站哈~)。其中,另存为的文件为mhtml文件,如果你保存的是html文件也可以。其二者的区别是,mhtml文件是包含了静态资源,包括css样式文件和js文件及图片等,方便打开的时候还可以还原网页的内容,而html文件,就只有网页本身的代码,不会将css样式文件及js文件、图片等资源一起保存下来。
3、打开ChatGPT,勾选上AdvancedDataAnalysis,将刚下载下来的mhtml文件上传,然后告诉ChatGPT你需要爬取的内容,这里为了让ChatGPT更精准的获取我想要的内容,我在提示词中,给他指定了具体的内容对应的CSS样式对应的class的值,这里可能需要一点点代码基础,如果没有也很简单,如何查找获取class的值,只需要在当前网页按下F12键,打开源码模式,鼠标选中想要爬取的内容,请看下方动图:
scriptstyle;=
4、上述提示词仅做参考,大概意思如上,让ChatGPT直接处理并输出一个csv文件即可,最终执行结果如下:
backsim
backsim
以上,就是我想给大家分享的利用GPT4零代码实现爬虫的所有内容,仅抛砖引玉,希望对各位大佬能有些许帮助。
我是毅鸣,在2月份利用ChatGPT写过一本电子书《ChatGPT从入门到精通》,且有幸拿到了生财给的一颗龙珠。