PHP mb_strlen() 函数（快速上手）

PHP mb_strlen() 函数：处理多字节字符的正确方式

在使用 PHP 处理字符串时，我们常常会遇到一个看似简单却容易踩坑的问题：中文字符长度计算。如果你用 strlen() 来计算“你好世界”这四个汉字的长度，结果是 8，而不是你期望的 4。这背后的原因，正是字符编码的差异。今天我们就来深入聊聊 PHP 中专门用于处理多字节字符长度计算的函数 —— mb_strlen()。

这个函数是处理中文、日文、韩文等非拉丁字符字符串时的“标配工具”。它能准确识别 UTF-8 编码中每个汉字占用 3 个字节的事实，并返回真正的字符数量，而不是字节长度。如果你正在开发支持多语言的网站或系统，掌握这个函数至关重要。

为什么 strlen() 会出错？

在 PHP 中，strlen() 是一个底层函数，它计算的是字符串的字节长度，而不是字符数量。例如：

<?php
$chinese = "你好世界";
echo strlen($chinese); // 输出：8

这个结果为什么会是 8？因为“你好世界”这四个汉字在 UTF-8 编码下，每个字符占用 3 个字节。4 个字符 × 3 字节 = 12？等等，为什么是 8？

其实这里有一个小细节：在某些系统或环境下，PHP 可能会使用不完全的 UTF-8 编码，或者字符串内部有隐藏的 BOM 字符。更常见的情况是，实际测试中你看到的 8，可能是因为部分字符编码为 2 字节，或存在其他编码干扰。

但无论具体是多少，核心问题是：strlen() 返回的是字节数，不是字符数。

这就像是你用尺子量一张 A4 纸的“页数”——你量的是纸张的厚度（毫米），而不是页码。虽然你能得到一个数值，但和“页数”完全不是一回事。

mb_strlen() 函数的正确用法

mb_strlen() 函数的语法如下：

int mb_strlen ( string $str [, string $encoding = mb_internal_encoding() ] )

第一个参数是你要检测的字符串。
第二个参数是编码格式，可选，默认使用 PHP 内部编码（通常为 UTF-8）。

基本用法示例

<?php
// 设置内部编码为 UTF-8（推荐在脚本开头设置）
mb_internal_encoding('UTF-8');

$greeting = "Hello 世界";

// 使用 strlen()，结果是 11（英文 5 字符 + 中文 3 字符 × 2 = 11）
echo "strlen 结果: " . strlen($greeting) . PHP_EOL; // 输出: 11

// 使用 mb_strlen()，结果是 9（英文 5 字符 + 中文 2 字符 = 7？等等）
echo "mb_strlen 结果: " . mb_strlen($greeting, 'UTF-8') . PHP_EOL; // 输出: 7

注意：上面的结果是 7，而不是 8。因为“Hello”是 5 个英文字符，“世界”是 2 个中文字符，总共 7 个字符。

这个对比非常直观：strlen() 拿的是“字节数”，mb_strlen() 拿的是“字符数”。在处理中文时，必须用后者。

多语言支持：mb_strlen() 的真正价值

在国际化项目中，用户输入可能包含多种语言。比如一个用户填写的用户名是：张三Peter李四。用 strlen() 计算长度是 11（假设中文占 3 字节 × 3 = 9，英文 2 字符 × 1 = 2，共 11），但实际字符数是 5。

使用 mb_strlen()，我们就能准确判断用户输入是否超过限制：

<?php
mb_internal_encoding('UTF-8');

$username = "张三Peter李四";

// 判断用户名长度是否超过 8 个字符
if (mb_strlen($username, 'UTF-8') > 8) {
    echo "用户名过长，最多允许 8 个字符。";
} else {
    echo "用户名长度合法。";
}
// 输出: 用户名长度合法。

这在表单验证、输入限制、API 接口校验中非常关键。你不能因为一个中文字符占 3 字节，就误判为“用户输入了 10 个字符”而拒绝提交。

编码设置的重要性

mb_strlen() 的结果完全依赖于你设置的编码。如果你没有正确设置编码，结果可能是错误的。

正确设置编码的方法

<?php
// 方法一：在脚本开始时设置内部编码
mb_internal_encoding('UTF-8');

// 方法二：在调用 mb_strlen 时显式指定编码
$len = mb_strlen("你好世界", 'UTF-8');

// 方法三：使用 mb_regex_encoding（用于正则相关函数）
mb_regex_encoding('UTF-8');

建议在项目入口文件（如 index.php 或 config.php）中统一设置：

<?php
// config.php
mb_internal_encoding('UTF-8');
mb_http_output('UTF-8');
mb_http_input('UTF-8');

这样，所有后续的 mb_* 函数都会默认使用 UTF-8 编码，避免遗漏。

常见误区与陷阱

误区一：认为 mb_strlen() 不需要设置编码

很多人以为只要用了 mb_strlen()，系统就会自动识别编码。这是错误的。如果你没设置内部编码，函数会使用默认的 ISO-8859-1，这会导致中文字符被错误解析，返回 0 或异常值。

<?php
// 错误示例：未设置编码
echo mb_strlen("你好世界"); // 可能输出 0 或 1，结果不可靠

// 正确做法：显式指定编码
echo mb_strlen("你好世界", 'UTF-8'); // 输出：4

误区二：忽略编码一致性

在项目中，如果部分文件使用 UTF-8，部分使用 GBK，就会导致字符串处理混乱。建议全项目统一使用 UTF-8 编码。

误区三：误用 mb_strlen() 代替 strlen()

虽然 mb_strlen() 更准确，但它比 strlen() 慢。在处理纯英文字符串或性能要求极高的场景下，用 strlen() 更快。只有在涉及中文、日文等多字节字符时，才使用 mb_strlen()。

实际应用场景举例

场景 1：表单长度限制

<?php
mb_internal_encoding('UTF-8');

$message = $_POST['message'] ?? '';

if (mb_strlen($message, 'UTF-8') > 200) {
    die('留言内容不能超过 200 个字符。');
}

echo '留言提交成功！';

场景 2：字符串截取（配合 mb_substr）

<?php
mb_internal_encoding('UTF-8');

$content = "这是一个很长的中文段落，用于演示 mb_substr 的使用。";

// 截取前 10 个字符，而不是前 10 个字节
$preview = mb_substr($content, 0, 10, 'UTF-8');

echo $preview; // 输出：这是一个很长的中文段

场景 3：判断是否为纯英文

<?php
mb_internal_encoding('UTF-8');

function isPureEnglish($str) {
    // 如果字符串长度为 0，返回 true（可按需调整）
    if (mb_strlen($str, 'UTF-8') == 0) return true;

    // 使用正则匹配：只包含英文字符、空格、标点
    return preg_match('/^[\x{0020}-\x{007E}]+$/', $str);
}

// 测试
echo isPureEnglish("Hello World") ? "纯英文" : "含中文"; // 输出：纯英文
echo isPureEnglish("Hello 世界") ? "纯英文" : "含中文"; // 输出：含中文

总结与建议

PHP mb_strlen() 函数是处理多语言字符串长度计算的“标准答案”。它能准确返回字符数量，避免因字节与字符混淆导致的逻辑错误。

在开发中，建议：

所有涉及中文、日文、韩文等多字节字符的长度判断，一律使用 mb_strlen()。
在项目开始时统一设置 mb_internal_encoding('UTF-8')。
避免在纯英文场景下使用 mb_strlen()，以保持性能。
配合 mb_substr、mb_strpos 等函数使用，形成完整的多语言字符串处理链。

记住：在处理非拉丁字符时，strlen() 是“假朋友”，mb_strlen() 才是“真帮手”。掌握它，你的程序才能真正“国际化”。

最后，如果你在项目中遇到字符串长度计算不准的问题，不妨先检查是否误用了 strlen()。改用 mb_strlen()，往往能立刻解决问题。