我愈发觉得,爬虫其实并不是什么特别高深的技术,它的价值不在于你使用了什么特别牛的框架,用了多么了不起的技术,它不需要。它只是以一种自动化搜集数据的小工具,能够获取到想要的数据,就是它最大的价值。
我的爬虫课老师也常跟我们强调,学习爬虫最重要的,不是学习里面的技术,因为前端技术在不断的发展,爬虫的技术便会随着改变。学习爬虫最重要的是,学习它的原理,万变不离其宗。
爬虫说白了是为了解决需要,方便生活的。如果能够在日常生活中,想到并应用爬虫去解决实际的问题,那么爬虫的真正意义也久发挥出来了。
这是些闲话啦,有感而发而已。
最近有点片荒,不知道该看什么电影,而且有些电影在网上找好久也找不到资源。后来我了解到这个网站,发现最近好多不错的电影上面都有资源(这里我就先不管它的来源正不正规啦,#掩面)。
所以这次我们要爬取的网站是:《电影天堂》,屯一些电影,等无聊的时候拿出来看看,消遣消遣也是不错。
这次的网站,从爬虫的技术角度上来讲,难度不大,而且可以说是非常简单了。但是,它实用啊!你想嘛,早上上班前跑一下爬虫,晚上回家以后已经有几十部最新大片在你硬盘里等着你啦,累了一天躺床上看看电影,这种感觉是不是很爽啊。
而且正因为这个爬虫比较简单,所以我会写的稍微细一点,争取让python小白们也能尽可能看懂,并且能够在这个爬虫的基础上修改,得到爬取这个网站其他板块或者其他电影网站的爬虫。
写在前面的话在编写爬虫程序之前,我先捋一捋我们的思路。
爬虫的原理,是通过给定的一个URL(就是类似于