首页 诗词 字典 板报 句子 名言 友答 励志 学校 网站地图
当前位置: 首页 > 教程频道 > 网站开发 > asp.net >

怎么抓取网站的内容

2012-09-13 
如何抓取网站的内容http://sse1.paipai.com/s-rwlsl--1-48-80---3-4-3----2-2--128-0-0-PTAG,20084.2.2.ht

如何抓取网站的内容
http://sse1.paipai.com/s-rwlsl--1-48-80---3-4-3----2-2--128-0-0-PTAG,20084.2.2.html
这是在拍拍网搜索T恤的结果页,每一页有52个商品,如何获取这52张图片和他们的价格,是否需要用到正则,如果是..要怎么写,还是说拍拍网有API可调用

[解决办法]
用正则去匹配是次傻(最傻的做法是字符串匹配)的做法
建议你通过Html DOM去解析,HtmlAgilityPack是一个不错的解析工具
[解决办法]
赞成用HtmlAgilityPack.dll 搜索一下使用方法,不用写正则,很方便获取到节点的数据
[解决办法]
获取图片: <img init_src="(.*?)" height="200" width="200" alt="" />
获取标题: CheckAuction\(\d+,'\S+','\d+','(.*?)'\)" itemprop="name">

热点排行