首页 诗词 字典 板报 句子 名言 友答 励志 学校 网站地图
当前位置: 首页 > 教程频道 > 网络技术 > 网络基础 >

音乐搜索爬虫.该怎么解决

2013-01-02 
音乐搜索爬虫......我最近想做一个音乐搜索引擎,爬虫准备用python的beautifulsoup来写。语法什么的我都没问

音乐搜索爬虫......
我最近想做一个音乐搜索引擎,爬虫准备用python的beautifulsoup来写。语法什么的我都没问题,但是我不知道从什么网站开始爬啊...音乐搜索爬虫.该怎么解决
大家觉得这种音乐搜索的爬虫从哪里爬比较合适呢...
[解决办法]

引用:
引用:如果想省点劲,可以直接使用Python开发的scrapy爬虫框架,支持定制抓取。

如果你想通过全文检索技术来实现搜索引擎,最好不要从百度搜索结果中抓取,因为它是经过加工的,可能好多你所需要的文本数据都被过滤掉了,如音乐作者,标题,流派等等。

最好的是方式,找几个很权威的音乐网站,定向抓取他们的音乐内容,然后自己对其进行加工……


我的意思是,那些专门做音乐的网站,在音乐素材,内容完整性等方面可能做得更好一些,你通过他们可以拿到最原始的数据,一般来说应该不会像那些经过多次加工导致某些信息有错误,如引用的不全等。你可以通过搜索引擎搜一搜,因为我也不是专门做音乐的,呵呵。

大多数会通过一些动态脚本生成,可能会有加密,如果使用一些JavaScript相关技术,你就要分析他们引用的js文件中是如何处理下载链接的。最近,好像对一些媒体出版物的版权保护更加重视了,有些可能根本就无法破解了,是尝试一下吧。

热点排行