python 正则如何抓取 中 href 属性和标签里的内容?

发布网友

我来回答

2个回答

热心网友

import re
pattern = '<a.*?href="(.+)".*?>(.*?)</a>'
with open("test.html", "r") as fp:
    for line in fp:
        ret = re.search(pattern, line)
        if ret:
            for x in ret.groups(): print x

不知道具体格式是怎样的,我这里也就简单举个例子。

groups获取到的就是正则pattern里面( )中的内容,以元组形式返回。

热心网友

<a.*?href="([^"]*)".*?>([\S\s]*?)</a>

声明声明:本网页内容为用户发布,旨在传播知识,不代表本网认同其观点,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。E-MAIL:11247931@qq.com