首页 诗词 字典 板报 句子 名言 友答 励志 学校 网站地图
当前位置: 首页 > 教程频道 > 开发语言 > C++ >

回聊聊c++中的正则表达式库吧

2012-08-01 
来聊聊c++中的正则表达式库吧测试正则表达式用的是RegexTester.exe。目前在c#和java中都用过正则表达式,它

来聊聊c++中的正则表达式库吧
测试正则表达式用的是RegexTester.exe。目前在c#和java中都用过正则表达式,它们的语法都符合标准。
boost的regex很流行,不过有严重bug,构造时带有预搜索(零宽断言)则出错、.有时候能匹配到换行,有时候又不能匹配,有时候更是莫名其妙,测试通过的式子它匹配不了,这些我都遇到过。
vs2010自带了regex.h,不过和boost有一样的bug。
国产的deelx不支持string。
ATL的CAtlRegExp只支持宽字符,对中文的支持也不好。而且它把{}当()用,这一点不符合标准。
greta不错,不过它从2003年开始就没有更新了。greta在vs2010下编译有错,去掉了header还是有错。这是因为static_assert在vs2010中成了关键字,发生了关键字冲突,解决方法是把greta的代码中的static_assert全部替换成static_assert1。在vs2010下编译好的greta也用不了,当构造时带上ALLBACKREFS运行时就出错,或者未匹配到任何结果时也出同样的错,在regexpr2.cpp的2706行附近出现NULL。btw,换行在greta中是\s\s而不是\n。
其他的GNU Regex Library、pcre++都比较冷门,且缺中文文档,没有去用。

各位正在用哪个库?有什么优缺点?最好能给推荐个vs2010下能正常使用的比较好的库。

[解决办法]
正常情况下都自己构造 DFA , 弄玩具的时候偶尔用用 posix 标准的...
啥时候 C# 的又成标准了...



[解决办法]
http://topic.csdn.net/u/20100923/22/688167b9-5370-4ab7-99d2-ee83489b42ed.html

C/C++ code
#define PCRE_STATIC // 静态库编译选项#include <stdio.h>#include <string.h>#include <pcre.h>#define OVECCOUNT 30 /* should be a multiple of 3 */#define EBUFLEN 128#define BUFLEN 1024int main(){    pcre  *re;    const char *error;    int  erroffset;    int  ovector[OVECCOUNT];    int  rc, i;    char  src [] = "111 <title>Hello World</title> 222";   // 要被用来匹配的字符串    char  pattern [] = "<title>(.*)</(tit)le>";              // 将要被编译的字符串形式的正则表达式    printf("String : %s\n", src);    printf("Pattern: \"%s\"\n", pattern);    re = pcre_compile(pattern,       // pattern, 输入参数,将要被编译的字符串形式的正则表达式                      0,            // options, 输入参数,用来指定编译时的一些选项                      &error,       // errptr, 输出参数,用来输出错误信息                      &erroffset,   // erroffset, 输出参数,pattern中出错位置的偏移量                      NULL);        // tableptr, 输入参数,用来指定字符表,一般情况用NULL    // 返回值:被编译好的正则表达式的pcre内部表示结构    if (re == NULL) {                 //如果编译失败,返回错误信息        printf("PCRE compilation failed at offset %d: %s\n", erroffset, error);        return 1;    }    rc = pcre_exec(re,            // code, 输入参数,用pcre_compile编译好的正则表达结构的指针                   NULL,          // extra, 输入参数,用来向pcre_exec传一些额外的数据信息的结构的指针                   src,           // subject, 输入参数,要被用来匹配的字符串                   strlen(src),  // length, 输入参数, 要被用来匹配的字符串的指针                   0,             // startoffset, 输入参数,用来指定subject从什么位置开始被匹配的偏移量                   0,             // options, 输入参数, 用来指定匹配过程中的一些选项                   ovector,       // ovector, 输出参数,用来返回匹配位置偏移量的数组                   OVECCOUNT);    // ovecsize, 输入参数, 用来返回匹配位置偏移量的数组的最大大小    // 返回值:匹配成功返回非负数,没有匹配返回负数    if (rc < 0) {                     //如果没有匹配,返回错误信息        if (rc == PCRE_ERROR_NOMATCH) printf("Sorry, no match ...\n");        else printf("Matching error %d\n", rc);        pcre_free(re);        return 1;    }    printf("\nOK, has matched ...\n\n");   //没有出错,已经匹配    for (i = 0; i < rc; i++) {             //分别取出捕获分组 $0整个正则公式 $1第一个()        char *substring_start = src + ovector[2*i];        int substring_length = ovector[2*i+1] - ovector[2*i];        printf("$%2d: %.*s\n", i, substring_length, substring_start);    }    pcre_free(re);                     // 编译正则表达式re 释放内存    return 0;}/**************   PCRE接口介绍 *******************************(1). pcre_compilepcre *pcre_compile(const char *pattern, int options,            const char **errptr, int *erroffset,            const unsigned char *tableptr);功能:编译指定的正则表达式参数:pattern, 输入参数,将要被编译的字符串形式的正则表达式      options, 输入参数,用来指定编译时的一些选项      errptr, 输出参数,用来输出错误信息      erroffset, 输出参数,pattern中出错位置的偏移量      tableptr, 输入参数,用来指定字符表,一般情况用NULL, 使用缺省的字符表返回值:被编译好的正则表达式的pcre内部表示结构(2). pcre_execint pcre_exec(const pcre *code, const pcre_extra *extra,            const char *subject, int length, int startoffset,            int options, int *ovector, int ovecsize);功能:用来检查某个字符串是否与指定的正则表达式匹配参数: code, 输入参数,用pcre_compile编译好的正则表达结构的指针      extra, 输入参数,用来向pcre_exec传一些额外的数据信息的结构的指针      subject, 输入参数,要被用来匹配的字符串      length, 输入参数, 要被用来匹配的字符串的指针      startoffset, 输入参数,用来指定subject从什么位置开始被匹配的偏移量      options, 输入参数, 用来指定匹配过程中的一些选项      ovector, 输出参数,用来返回匹配位置偏移量的数组      ovecsize, 输入参数, 用来返回匹配位置偏移量的数组的最大大小返回值:匹配成功返回非负数,没有匹配返回负数**********************************************************/ 

热点排行