Python3 os.walk() 方法（实战指南）

Python3 os.walk() 方法详解：遍历目录的利器

在日常开发中，我们经常需要处理文件系统，比如批量读取某个目录下的所有文件、备份数据、清理日志文件，或者分析项目结构。如果你还在用递归手动遍历文件夹，那说明你还没真正掌握 Python3 os.walk() 方法的威力。

这个方法就像一个“智能导航员”，能自动帮你深入到目录的每一层，不漏掉任何一个子文件夹和文件。它不只适用于简单的文件查找，更是构建自动化脚本的基石之一。今天，我们就来深入聊聊这个实用工具。

os.walk() 方法的基本用法

os.walk() 是 Python 标准库 os 模块中的一个函数，它的作用是递归遍历指定目录下的所有子目录和文件。它返回一个生成器，每次迭代会返回一个三元组：(当前目录路径, 子目录列表, 文件列表)。

import os

for root, dirs, files in os.walk("."):
    print(f"当前目录: {root}")
    print(f"子目录: {dirs}")
    print(f"文件: {files}")
    print("-" * 40)

代码注释说明：

root：当前遍历到的目录路径（字符串），比如 "./docs" 或 "./src/utils"。
dirs：当前目录下的所有子目录名列表，例如 ["images", "css"]。
files：当前目录下的所有文件名列表，例如 ["index.html", "style.css"]。
os.walk(".")：. 表示当前目录，你也可以传入绝对路径，比如 "/home/user/project"。

💡 比喻：你可以把 os.walk() 想象成一个快递分拣员，他从仓库入口开始，一层层打开每个包裹（文件夹），把里面的东西（文件和子包裹）都清点一遍，确保没有遗漏。

实际应用场景：批量处理文件

假设你有一个项目目录，里面有很多 .py 文件，你想统计所有 Python 文件的总行数。

import os

total_lines = 0

for root, dirs, files in os.walk("./my_project"):
    for file in files:
        # 只处理 .py 文件
        if file.endswith(".py"):
            file_path = os.path.join(root, file)
            try:
                with open(file_path, "r", encoding="utf-8") as f:
                    lines = f.readlines()
                    total_lines += len(lines)
                    print(f"已处理: {file_path}，共 {len(lines)} 行")
            except Exception as e:
                print(f"读取失败: {file_path}，错误: {e}")

print(f"\n总计: {total_lines} 行代码")

代码注释说明：

os.path.join(root, file)：安全地拼接路径，避免在不同系统（Windows/Linux）上路径分隔符出错。
.endswith(".py")：判断文件是否为 Python 文件，提高效率。
encoding="utf-8"：避免中文乱码问题，是良好的实践。
try...except：防止某个文件损坏或权限不足导致整个程序崩溃。

这个例子展示了 os.walk() 在真实项目中的强大能力：自动递归、精准筛选、稳定处理异常。

控制遍历行为：跳过特定目录

有时候，我们不想遍历某些目录，比如 .git、__pycache__ 或 node_modules。os.walk() 提供了灵活的控制方式。

import os

skip_dirs = {".git", "__pycache__", "node_modules"}

for root, dirs, files in os.walk("./my_project"):
    # 动态修改 dirs 列表，告诉 os.walk 跳过哪些子目录
    dirs[:] = [d for d in dirs if d not in skip_dirs]

    for file in files:
        if file.endswith(".txt"):
            file_path = os.path.join(root, file)
            print(f"找到文本文件: {file_path}")

代码注释说明：

dirs[:] = [...]：这是关键技巧。通过修改 dirs 列表的内容，可以控制 os.walk() 后续是否会进入这些子目录。
skip_dirs 使用集合（set）提高查找效率。
这种方式比在 files 中判断更高效，因为可以提前阻止进入不需要的目录。

📌 小技巧：不要直接 del dirs 或 dirs = [...]，否则会破坏生成器的内部状态。必须使用切片赋值 dirs[:]。

获取文件的完整路径与属性

除了获取文件名，我们还经常需要知道文件的完整路径、大小、修改时间等信息。

import os
from datetime import datetime

for root, dirs, files in os.walk("./my_project"):
    for file in files:
        file_path = os.path.join(root, file)
        
        # 获取文件大小（字节）
        file_size = os.path.getsize(file_path)
        
        # 获取最后修改时间
        mtime = os.path.getmtime(file_path)
        mod_time = datetime.fromtimestamp(mtime).strftime("%Y-%m-%d %H:%M:%S")
        
        print(f"文件: {file_path}")
        print(f"  大小: {file_size} 字节")
        print(f"  修改时间: {mod_time}")
        print("-" * 50)

代码注释说明：

os.path.getsize(path)：返回文件大小，单位是字节。
os.path.getmtime(path)：返回文件最后修改时间的时间戳（浮点数）。
datetime.fromtimestamp()：将时间戳转换为可读格式。

这个例子展示了如何结合 os.walk() 与 os.path 模块，构建出功能强大的文件分析脚本。

多路径支持与异常处理

os.walk() 支持传入多个路径，也可以配合异常处理，让脚本更健壮。

import os

roots = ["./project1", "./project2", "./backup"]

for root in roots:
    if not os.path.exists(root):
        print(f"路径不存在: {root}")
        continue
    if not os.path.isdir(root):
        print(f"不是目录: {root}")
        continue

    print(f"正在遍历: {root}")
    try:
        for dirpath, dirnames, filenames in os.walk(root):
            for filename in filenames:
                if filename.endswith(".log"):
                    full_path = os.path.join(dirpath, filename)
                    print(f"日志文件: {full_path}")
    except PermissionError:
        print(f"权限不足，无法访问: {root}")
    except Exception as e:
        print(f"遍历出错: {root}，错误: {e}")

代码注释说明：

os.path.exists()：判断路径是否存在。
os.path.isdir()：判断是否为目录。
try...except PermissionError：处理权限问题，避免程序崩溃。
通过循环处理多个根路径，扩展了脚本的适用范围。

总结：为什么你应该掌握 Python3 os.walk() 方法

os.walk() 方法虽然简单，但功能强大，是处理文件系统任务的“瑞士军刀”。它不仅支持递归遍历，还能灵活控制遍历路径、结合其他 os.path 方法获取详细信息，甚至在异常场景下依然保持稳定。

无论是写自动化脚本、做项目分析、清理日志，还是构建文件管理工具，os.walk() 都是不可或缺的一环。掌握它，意味着你不再需要手动写复杂的递归逻辑，也不用担心遗漏某个深层子目录。

✅ 建议：从今天起，凡是需要“遍历文件夹”的任务，先想想能不能用 os.walk() 解决。

别再用 os.listdir() 一层层手动递归了，那不仅代码冗长，还容易出错。os.walk() 让你的代码更简洁、更专业、更高效。

如果你正在学习 Python，或者想提升脚本编写能力，那么 Python3 os.walk() 方法 绝对是你该重点掌握的技能之一。多写几遍，多练几次，你很快就能像老手一样轻松驾驭文件系统。