擒获组和非捕获组

2012-09-22

捕获组和非捕获组Java捕获组与非捕获组的区别public class PatternTest {public static void main(String[

捕获组和非捕获组
Java捕获组与非捕获组的区别

public class PatternTest {

    public static void main(String[] args) {
        String text = "<textarea rows="20" cols="70">nexus maven repository index properties updating index central</textarea>";
        String reg = "<textarea.*>.*</textarea>";
        Pattern p = Pattern.compile(reg);
        Matcher m = p.matcher(text);
        while (m.find()) {
            System.out.println(m.group());
        }
    }

}

运行结果：

Java代码
<textarea rows="20" cols="70">nexus maven repository index properties updating index central</textarea>

现在，如果我只想匹配到<textarea>内的文本内容即“nexus maven repository index properties updating index central”，怎么做呢？这时候就要用到捕获组了。

上述代码中“<textarea.*>.*</textarea>”最中间的“.*”是匹配内容的正则表达式，只需要将它用括号括起来，就是一个捕获组了。看代码：

Java代码

public class PatternTest {

    public static void main(String[] args) {
        String text = "<textarea rows="20" cols="70">nexus maven repository index properties updating index central</textarea>";
        //下面的正则表达式中共有四个捕获组：(<textarea.*>)、(.*)、(</textarea>)和整个匹配到的内容
        String reg = "(<textarea.*>)(.*)(</textarea>)";
        Pattern p = Pattern.compile(reg);
        Matcher m = p.matcher(text);
        while (m.find()) {
            System.out.println(m.group(0)); // 整个匹配到的内容
            System.out.println(m.group(1)); // (<textarea.*?>)
            System.out.println(m.group(2)); // (.*?)
            System.out.println(m.group(3)); // (</textarea>)
        }
    }
}

运行结果：

Java代码
<textarea rows="20" cols="70">nexus maven repository index properties updating index central</textarea>
<textarea rows="20" cols="70">
nexus maven repository index properties updating index central
</textarea>

从上述代码得出结论：正则表达式中每个"()"内的部分算作一个捕获组，每个捕获组都有一个编号，从1,2...，编号0代表整个匹配到的内容。
至于非捕获组，只需要将捕获组中"()"变为"(?:)"即可，代码说话：

public class PatternTest {

    public static void main(String[] args) {
        String text = "<textarea rows="20" cols="70">nexus maven repository index properties updating index central</textarea>";
        // 下面的正则表达式中共有二个捕获组：(.*)和整个匹配到的内容，两个非捕获组:(?:</textarea>)和(?:<textarea.*?>)
        String reg = "(?:<textarea.*>)(.*)(?:</textarea>)";
        Pattern p = Pattern.compile(reg);
        Matcher m = p.matcher(text);
        while (m.find()) {
            System.out.println(m.group(0)); // 整个匹配到的内容
            System.out.println(m.group(1)); // (.*?)
        }
    }
}
运行结果：
Java代码
<textarea rows="20" cols="70">nexus maven repository index properties updating index central</textarea>
nexus maven repository index properties updating index central
如果试图运行：System.out.println(m.group(2));将会抛出异常，因为不存在编号为2的捕获组。

捕获组是对整个表达式进行匹配的，例如：
public class Test {

public static void main(String args[]) {
String text = "<textarea rows="20" cols="70">nexus maven repository index properties updating index central</textarea><textarea

rows="20" cols="70">kkkk</textarea>";
String reg = "(<textarea.*>)(.*)(</textarea>)";
Pattern p = Pattern.compile(reg);
Matcher m = p.matcher(text);
while (m.find()) {
System.out.println(m.group(0)); // 整个匹配到的内容
System.out.println(m.group(1)); // (<textarea.*?>)
System.out.println(m.group(2)); // (.*?)
System.out.println(m.group(3)); // (</textarea>)
}
}

}
输出结果：
<textarea rows="20" cols="70">nexus maven repository index properties updating index central</textarea><textarea rows="20" cols="70">kkkk</textarea>
<textarea rows="20" cols="70">nexus maven repository index properties updating index central</textarea><textarea rows="20" cols="70">
kkkk
</textarea>

热点排行

编程

擒获组和非捕获组