python 怎么抽出一个字符串中的网址

2012-04-07

python 如何抽出一个字符串中的网址Python codeimport restr a hrefhttp://sice.bupt.edu.cn tar

python 如何抽出一个字符串中的网址

Python code

import restr = '''<a href="http://sice.bupt.edu.cn" target="_blank"><a href="http://ddd.bupt.edu.cn" target="_blank">'''

我想抽出里面 http://sice.bupt.edu.cn ，应该如何做呢，
如果正确抽取应该有两个在这样的字符串，然后返回的应该是一个元组吧

[解决办法]
import re
strvar = '''
<a href="http://sice.bupt.edu.cn" target="_blank">
<a href="http://ddd.bupt.edu.cn" target="_blank">
'''
patt = r'(http://(\w+\.)+\w+)'
m = re.findall(patt, strvar)
print m

结果: [('http://sice.bupt.edu.cn', 'edu.'), ('http://ddd.bupt.edu.cn', 'edu.')]
正则表达式自己研究,结果自己处理

[解决办法]
pat = '<a href=\"(.*?)\" target=\"_blank\">'

m = re.findall(pat, text)

print m
[解决办法]
正则表达式的功能
1.模式匹配
2.替换
3.查找