求正则表达式
假设有这样的一个页面:
<html>
<aa title=test> <bb> hello </bb> </aa>
<aa> hello1 </aa>
<aa title=test> <bb> morning <bb> </aa>
</html>
想要能取第一和第三 <aa> 的正则表达式,请赐教!另外,由于本人学识尚浅,请各位指点一下学正则表达式,特别是学如何分析html结构方面的文章或书,谢谢先!
[解决办法]
<(aa)(.*)(title=)(\w+)> .* <\/\1>