PHP preg_grep() 函数（详细教程）

PHP preg_grep() 函数：用正则表达式筛选数组元素的利器

在日常开发中，我们经常需要从一个数组中找出符合特定模式的数据。比如，从用户列表中筛选出邮箱地址、从日志文件名中提取特定格式的文件名、或从字符串数组中找出包含数字的项。这时候，普通的 array_filter() 虽然能用，但面对复杂的模式匹配时就显得力不从心了。这时，PHP 提供的 preg_grep() 函数就派上了大用场。

PHP preg_grep() 函数 是一个专门用于根据正则表达式规则筛选数组元素的内置函数。它的名字中包含 "preg"，代表 "Perl-compatible regular expressions"（Perl 兼容正则表达式），说明它支持强大的正则语法。相比 array_filter()，preg_grep() 更适合处理“模式匹配”类任务，能大幅简化代码逻辑。

什么是 PHP preg_grep() 函数？它是如何工作的？

preg_grep() 的语法非常简洁：

array preg_grep ( string $pattern , array $input [, int $flags = 0 ] )

$pattern：一个正则表达式字符串，用于匹配数组中的每个元素。
$input：要筛选的目标数组。
$flags：可选参数，用于控制匹配行为，如大小写敏感、返回键名等。

函数返回一个新数组，其中只包含与正则表达式匹配的元素。注意：它不会修改原数组，而是返回一个新的匹配结果数组。

举个形象的例子：想象你有一堆书，每本书都有书名。现在你想找出所有书名中包含“PHP”字样的书。preg_grep() 就像一个智能分类员，它会一本一本翻看，只要书名里有“PHP”这两个字，就把它放进“筛选结果箱”里，最后把箱子交给你。

基础用法：匹配包含特定关键词的字符串

我们先从最简单的场景开始，比如从一个字符串数组中找出所有包含“PHP”或“php”的项。

<?php
// 定义一个包含多个技术名称的数组
$technologies = [
    'PHP 8.0',
    'Python 3.9',
    'JavaScript',
    'php 8.1',
    'GoLang',
    'PHP Frameworks'
];

// 使用 preg_grep 筛选出包含 "php" 的项（不区分大小写）
$result = preg_grep('/php/i', $technologies);

// 输出结果
print_r($result);

输出结果：

Array
(
    [0] => PHP 8.0
    [3] => php 8.1
    [5] => PHP Frameworks
)

代码注释说明：

/php/i：正则表达式部分，i 是标志位，表示“忽略大小写”。
preg_grep() 会遍历 $technologies 数组的每个元素，判断是否匹配 /php/i。
匹配成功的元素会被保留在返回的数组中，原数组未被修改。

💡 小贴士：正则表达式中的 / 是分隔符，就像括号一样，用来包裹表达式。i 标志位是“case-insensitive”的缩写，常用于避免因大小写问题漏掉匹配项。

高级匹配：精确匹配邮箱格式

正则表达式真正的威力在于复杂模式的匹配。比如我们有一个用户列表，想筛选出格式正确的邮箱地址。

<?php
$emails = [
    'user@example.com',
    'admin@site.org',
    'invalid-email',
    'test@domain.co.uk',
    'user@',
    'test@domain',
    'hello@company.io'
];

// 正则表达式：匹配基本邮箱格式
// 说明：用户名部分（字母、数字、点、下划线）+ @ + 域名 + . + 二级域名
$pattern = '/^[a-zA-Z0-9._%+-]+@[a-zA-Z0-9.-]+\.[a-zA-Z]{2,}$/';

$valid_emails = preg_grep($pattern, $emails);

print_r($valid_emails);

输出结果：

Array
(
    [0] => user@example.com
    [1] => admin@site.org
    [3] => test@domain.co.uk
    [6] => hello@company.io
)

代码注释说明：

^：匹配字符串开头。
[a-zA-Z0-9._%+-]+：用户名部分，允许字母、数字、点、下划线、百分号、加号、减号，至少一个。
@：必须包含 @ 符号。
[a-zA-Z0-9.-]+：域名部分，允许字母、数字、点、横线。
\.：转义点号，因为点在正则中是通配符。
[a-zA-Z]{2,}：二级域名，至少两个字母。
$：匹配字符串结尾。

⚠️ 注意：这个正则不是 100% 完美，因为邮箱规范非常复杂（如支持括号、引号等），但对日常应用已足够。在生产中可结合 filter_var($email, FILTER_VALIDATE_EMAIL) 做双重验证。

保留键名与使用标志位

默认情况下，preg_grep() 会保留原数组的键名。但如果你希望返回的数组是连续的整数键，可以使用 PREG_GREP_INVERT 标志。

<?php
$products = [
    'p1' => 'iPhone 15',
    'p2' => 'Samsung Galaxy S24',
    'p3' => 'iPad Pro',
    'p4' => 'MacBook Air',
    'p5' => 'Dell Laptop'
];

// 匹配包含 "iPhone" 或 "MacBook" 的产品
$pattern = '/iPhone|MacBook/i';

// 返回匹配项（保留原键名）
$matched = preg_grep($pattern, $products);
print_r($matched);

// 使用 PREG_GREP_INVERT：返回不匹配的项
$not_matched = preg_grep($pattern, $products, PREG_GREP_INVERT);
print_r($not_matched);

输出结果：

// 匹配项（保留键名）
Array
(
    [p1] => iPhone 15
    [p4] => MacBook Air
)

// 不匹配项（使用 PREG_GREP_INVERT）
Array
(
    [p2] => Samsung Galaxy S24
    [p3] => iPad Pro
    [p5] => Dell Laptop
)

说明：

PREG_GREP_INVERT：反转匹配逻辑，返回不匹配的元素。
这在“排除某些项”时非常有用，比如过滤掉敏感词、黑名单项等。

实际案例：从日志文件名中筛选特定格式

假设你有一个日志文件名列表，想找出所有以 error_ 开头、后跟日期（YYYY-MM-DD）的文件。

<?php
$log_files = [
    'error_2024-05-10.log',
    'access_2024-05-10.log',
    'error_2024-04-01.log',
    'debug_2024-05-11.txt',
    'error_2024-12-31.log',
    'info.log'
];

// 匹配以 error_ 开头，后跟 YYYY-MM-DD 的文件
$pattern = '/^error_[0-9]{4}-[0-9]{2}-[0-9]{2}\.log$/';

$filtered = preg_grep($pattern, $log_files);

print_r($filtered);

输出结果：

Array
(
    [0] => error_2024-05-10.log
    [2] => error_2024-04-01.log
    [4] => error_2024-12-31.log
)

代码注释说明：

^：开始。
error_：必须以 error_ 开头。
[0-9]{4}：精确匹配 4 位数字（年份）。
-：连接符。
[0-9]{2}：两位数字（月份/日期）。
\.：转义点号。
log$：以 .log 结尾。

这个例子展示了 PHP preg_grep() 函数 在自动化运维、日志分析场景中的实用价值。

性能与注意事项

虽然 preg_grep() 功能强大，但也有一些使用建议：

避免在超大数组上使用复杂正则：正则匹配是耗时操作，尤其在数组很大时，建议提前过滤数据。
正则表达式要测试：使用在线工具（如 regex101.com）验证你的正则是否准确。
优先使用 filter_var() 做数据验证：比如邮箱、URL 验证，filter_var() 更安全、更标准。
注意内存占用：preg_grep() 返回新数组，若数据量大，需考虑内存使用。

总结：掌握 PHP preg_grep() 函数，提升数据处理效率

PHP preg_grep() 函数 是一个强大而灵活的工具，特别适合需要根据模式筛选数组元素的场景。无论是筛选邮箱、文件名、用户输入，还是处理日志数据，它都能以简洁代码完成任务。

通过本文的讲解，你应该已经掌握了：

如何使用基本正则表达式进行匹配；
如何利用标志位控制匹配行为；
如何在实际项目中应用该函数；
以及使用时的性能与安全建议。

下次当你面对“从一堆字符串中找出符合条件的项”时，不妨先想想：是否可以用 preg_grep() 来简化逻辑？它往往能让你的代码更清晰、更高效。

别忘了，编程的本质是解决问题，而 PHP preg_grep() 函数，正是你解决“模式匹配”问题的得力助手。