C++ 标准库 <regex>（长文讲解）

C++ 标准库：掌握正则表达式在 C++ 中的实战应用

在现代 C++ 开发中，处理文本数据是常见任务之一。无论是验证用户输入、解析日志文件，还是从网页内容中提取信息，正则表达式都是一种高效且强大的工具。C++ 标准库从 C++ 11 起正式引入了 <regex> 头文件，为开发者提供了原生的正则支持。这不仅避免了依赖第三方库的复杂性，还让代码更安全、可移植。

如果你曾用过 Python 的 re 模块或 JavaScript 的正则语法，那么你会对 C++ 的 <regex> 感到亲切。但 C++ 的实现更强调类型安全与性能控制。今天我们就来深入探索这个功能强大的模块，从基础用法到高级技巧，一步步带你掌握 C++ 标准库的核心能力。

正则表达式基础：什么是正则？它为什么有用？

正则表达式（Regular Expression）是一种用于匹配字符串模式的语法。你可以把它想象成一个“文本过滤器”，它能告诉你某个字符串是否符合某种结构。

比如：

验证邮箱格式：user@example.com
提取电话号码：138-1234-5678
查找所有以 http 开头的链接

在 C++ 中，我们通过 <regex> 提供的类来实现这些功能。它的设计遵循“模式-匹配-提取”的流程，逻辑清晰，易于理解。

引入与初始化：如何使用 C++ 标准库

要使用正则功能，首先需要包含头文件，并创建一个 std::regex 对象。这是整个流程的第一步。

#include <iostream>
#include <regex>
#include <string>

int main() {
    // 定义一个正则表达式模式：匹配以字母开头，后跟数字或字母的字符串
    std::regex pattern("^[a-zA-Z][a-zA-Z0-9]*$");

    // 测试字符串
    std::string text = "Hello123";

    // 使用 std::regex_match 检查整个字符串是否匹配
    if (std::regex_match(text, pattern)) {
        std::cout << "匹配成功！" << std::endl;
    } else {
        std::cout << "匹配失败。" << std::endl;
    }

    return 0;
}

代码注释说明：

#include <regex>：引入正则表达式支持。

std::regex pattern("...")：构建正则对象，参数是模式字符串。

^ 表示字符串开始，$ 表示字符串结束，确保整个字符串都符合规则。

[a-zA-Z] 匹配任意一个字母（大小写），[a-zA-Z0-9]* 表示零个或多个字母数字字符。

std::regex_match 用于检查整个字符串是否完全匹配模式。

运行结果会输出：“匹配成功！”，因为 "Hello123" 符合以字母开头、后接字母数字的规则。

匹配模式对比：regex_match、regex_search 和 regex_replace

C++ 标准库提供了三种核心匹配方式，它们各有用途，理解区别非常重要。

函数名	用途	适用场景
`std::regex_match`	检查整个字符串是否完全匹配模式	验证格式（如邮箱、手机号）
`std::regex_search`	在字符串中查找是否存在匹配子串	提取片段或搜索关键词
`std::regex_replace`	替换匹配到的内容	文本清洗、格式转换

我们来分别演示。

使用 regex_match 验证格式

#include <iostream>
#include <regex>
#include <string>

bool validateEmail(const std::string& email) {
    // 匹配基本邮箱格式：字母@字母.字母
    std::regex pattern(R"(^[a-zA-Z0-9._%+-]+@[a-zA-Z0-9.-]+\.[a-zA-Z]{2,}$)");

    return std::regex_match(email, pattern);
}

int main() {
    std::string testEmail = "user@example.com";

    if (validateEmail(testEmail)) {
        std::cout << "邮箱格式正确。" << std::endl;
    } else {
        std::cout << "邮箱格式错误。" << std::endl;
    }

    return 0;
}

注释：

R"(...)" 是原始字符串字面量，避免转义符的麻烦，比如 \. 变成 .。

+ 表示前面的字符至少出现一次。

.{2,} 表示至少两个字符，用于匹配域名后缀如 com、org。

使用 regex_search 提取子串

有时候我们不需要整个字符串匹配，而只是想找出其中的某个部分。

#include <iostream>
#include <regex>
#include <string>

int main() {
    std::string text = "今天是 2024 年 5 月 20 日，天气晴朗。";

    // 匹配所有数字（支持中文数字？这里只匹配阿拉伯数字）
    std::regex pattern(R"(\d+)");

    // 使用 std::sregex_iterator 迭代所有匹配项
    auto it = std::sregex_iterator(text.begin(), text.end(), pattern);
    auto end = std::sregex_iterator();

    while (it != end) {
        std::smatch match = *it;
        std::cout << "找到数字: " << match.str() << std::endl;
        ++it;
    }

    return 0;
}

注释：

std::sregex_iterator 用于遍历字符串中所有匹配项。

match.str() 返回实际匹配的子串。

输出结果为：2024、5、20，分别对应年、月、日。

分组捕获：提取多个信息片段

在实际开发中，我们常需要从一段文本中提取多个字段。正则的“分组”功能就派上用场了。

#include <iostream>
#include <regex>
#include <string>

int main() {
    std::string log = "2024-05-20 14:30:22 ERROR: 文件读取失败";

    // 模式：年-月-日 空格 时:分:秒 空格 错误级别 冒号 信息
    std::regex pattern(R"((\d{4})-(\d{2})-(\d{2}) (\d{2}):(\d{2}):(\d{2}) (\w+): (.+))");

    std::smatch match;
    if (std::regex_match(log, match, pattern)) {
        std::cout << "年: " << match[1] << std::endl;  // 2024
        std::cout << "月: " << match[2] << std::endl;  // 05
        std::cout << "日: " << match[3] << std::endl;  // 20
        std::cout << "时间: " << match[4] << ":" << match[5] << ":" << match[6] << std::endl;
        std::cout << "错误级别: " << match[7] << std::endl;  // ERROR
        std::cout << "消息: " << match[8] << std::endl;      // 文件读取失败
    }

    return 0;
}

注释：

() 表示捕获组，每个括号内的内容会被单独保存。

match[1] 到 match[8] 分别对应第一个到第八个分组。

这种方式非常适合解析日志、配置文件等结构化文本。

高级技巧：标志位与性能优化

C++ 标准库支持多种标志位（flag），可以改变匹配行为，比如忽略大小写、支持多行模式等。

#include <iostream>
#include <regex>
#include <string>

int main() {
    std::string text = "Hello World, hello again";

    // 忽略大小写匹配
    std::regex pattern("hello", std::regex_constants::icase);

    std::smatch match;
    if (std::regex_search(text, match, pattern)) {
        std::cout << "找到匹配项: " << match.str() << std::endl;
    }

    return 0;
}

注释：

std::regex_constants::icase 是忽略大小写的标志。

即使写的是 hello，也能匹配到 Hello。

常见标志：

std::regex_constants::icase：忽略大小写

std::regex_constants::multiline：多行模式，^ 和 $ 匹配每行开头/结尾

std::regex_constants::optimize：优化正则表达式性能（默认开启）

性能提示：如果正则表达式在循环中使用，建议将其提前编译为 std::regex 对象，避免重复解析。

实际案例：从日志中提取 IP 地址和请求路径

假设你有一个 Web 服务器日志文件，格式如下：

192.168.1.1 - - [2024-05-20T14:30:22] "GET /api/user HTTP/1.1" 200 1234

我们想从中提取 IP 地址和请求路径。

#include <iostream>
#include <regex>
#include <string>

int main() {
    std::string log = "192.168.1.1 - - [2024-05-20T14:30:22] \"GET /api/user HTTP/1.1\" 200 1234";

    // 匹配 IP 地址和请求路径
    std::regex pattern(R"((\d{1,3}\.\d{1,3}\.\d{1,3}\.\d{1,3}) .* \"(\w+) ([^\"]+)\" )");

    std::smatch match;
    if (std::regex_search(log, match, pattern)) {
        std::cout << "IP 地址: " << match[1] << std::endl;
        std::cout << "请求方法: " << match[2] << std::endl;
        std::cout << "请求路径: " << match[3] << std::endl;
    }

    return 0;
}

注释：

(\d{1,3}\.\d{1,3}\.\d{1,3}\.\d{1,3}) 匹配 IPv4 地址（每个段 1~3 位数字）。

.* 跳过中间的 - -。

\"(\w+) ([^\"]+)\" 捕获 GET /api/user 部分。

[^"] 表示“非双引号”字符，确保不跨引号。

输出结果：

IP 地址: 192.168.1.1
请求方法: GET
请求路径: /api/user

小结与建议

C++ 标准库是现代 C++ 开发中不可或缺的工具。它不仅功能强大，而且与语言本身深度集成，无需额外依赖。从基础的格式验证，到复杂的日志解析，正则表达式都能高效胜任。

建议初学者从 regex_match 和 regex_search 开始，逐步掌握分组捕获与标志位的使用。对于性能敏感的应用，注意避免在循环中重复创建 std::regex 对象。

当你遇到需要处理文本结构化数据的场景时，不妨先思考一下：能否用 C++ 标准库解决？它往往能让你的代码更简洁、更健壮。

正则表达式不是魔法，而是一种工具。掌握它，就像拥有一把万能钥匙，能打开许多文本处理的大门。