C++ 容器类 <unordered_set>（一文讲透）

C++ 容器类 <unordered_set> 的入门与实战

在 C++ 的标准库中，unordered_set 是一个非常实用的容器类，它用于存储不重复的唯一元素，并且能以极高的效率进行查找、插入和删除操作。如果你正在处理需要快速判断某个值是否存在、去重、或者进行集合运算的场景，unordered_set 就是你最可靠的伙伴之一。

相比传统的 set，unordered_set 不依赖于红黑树结构，而是基于哈希表实现。这使得它在大多数情况下拥有更快的平均时间复杂度 —— 查找、插入和删除操作的平均时间复杂度为 O(1)。虽然最坏情况下可能退化到 O(n)，但实际开发中，只要哈希函数设计合理，这种退化几乎不会发生。

什么是哈希表？为什么 `unordered_set` 这么快？

想象一下你有一本厚厚的电话簿，但不是按名字排序的，而是根据名字的首字母“哈希”到了不同的小格子里。当你想找“张伟”时，系统会先算出“张”字对应的格子编号，直接跳过去找，而不是一页一页翻。这就是哈希表的核心思想：通过哈希函数快速定位数据的位置。

unordered_set 正是利用这一机制，将每一个元素映射到一个“桶”中，从而实现近乎常数时间的访问速度。这使得它在处理大量数据时，性能表现远超基于平衡树的 set。

💡 提示：unordered_set 适用于不需要排序的场景，如果你需要元素按顺序排列，就该选择 set。

创建与初始化

创建一个 unordered_set 非常简单，只需包含头文件 <unordered_set>，并使用模板语法指定存储的类型。

#include <unordered_set>
#include <iostream>

int main() {
    // 创建一个空的 unordered_set，存储整数
    std::unordered_set<int> numbers;

    // 初始化时直接插入元素
    std::unordered_set<std::string> fruits = {"苹果", "香蕉", "橙子", "葡萄"};

    // 也可以使用列表初始化
    std::unordered_set<double> decimals{1.1, 2.2, 3.3, 4.4};

    // 输出所有水果
    for (const auto& fruit : fruits) {
        std::cout << fruit << " ";
    }
    std::cout << std::endl;

    return 0;
}

⚠️ 注意：unordered_set 不保证元素的存储顺序，每次遍历输出可能不同。这是由哈希表的无序性决定的。

基本操作：插入、查找、删除

unordered_set 提供了标准的集合操作接口，使用起来非常直观。

插入元素

使用 insert() 方法可以添加新元素。如果元素已存在，插入不会重复添加。

#include <unordered_set>
#include <iostream>

int main() {
    std::unordered_set<int> s;

    // 插入元素
    s.insert(10);
    s.insert(20);
    s.insert(30);
    s.insert(10); // 重复插入，不会生效

    // 遍历输出
    for (int val : s) {
        std::cout << val << " ";
    }
    std::cout << std::endl; // 输出：10 20 30（顺序可能不同）

    return 0;
}

查找元素

使用 find() 方法查找元素是否存在。返回的是一个迭代器，如果找不到则返回 end()。

#include <unordered_set>
#include <iostream>

int main() {
    std::unordered_set<std::string> colors = {"红色", "绿色", "蓝色"};

    // 查找是否存在“黄色”
    auto it = colors.find("黄色");

    if (it != colors.end()) {
        std::cout << "找到了： " << *it << std::endl;
    } else {
        std::cout << "未找到：黄色" << std::endl;
    }

    // 查找“红色”
    it = colors.find("红色");
    if (it != colors.end()) {
        std::cout << "找到了： " << *it << std::endl;
    }

    return 0;
}

删除元素

支持 erase() 方法，可以按值或按迭代器删除。

#include <unordered_set>
#include <iostream>

int main() {
    std::unordered_set<int> nums = {1, 2, 3, 4, 5};

    // 按值删除
    nums.erase(3);

    // 按迭代器删除
    auto it = nums.find(4);
    if (it != nums.end()) {
        nums.erase(it);
    }

    // 输出剩余元素
    for (int n : nums) {
        std::cout << n << " ";
    }
    std::cout << std::endl;

    return 0;
}

实际应用案例：去重与快速查找

在实际开发中，unordered_set 最常见的用途之一是去重和快速判断元素是否存在。

案例：从数组中提取不重复的数字

#include <unordered_set>
#include <vector>
#include <iostream>

int main() {
    std::vector<int> data = {1, 2, 3, 2, 4, 1, 5, 3};

    // 使用 unordered_set 去重
    std::unordered_set<int> unique_nums(data.begin(), data.end());

    // 输出去重后的结果
    std::cout << "去重后的数字：";
    for (int num : unique_nums) {
        std::cout << num << " ";
    }
    std::cout << std::endl;

    return 0;
}

这种方式比使用 set 或手动遍历判断更高效，尤其适合大数据量处理。

案例：判断两个数组是否有公共元素

#include <unordered_set>
#include <vector>
#include <iostream>

bool hasCommonElement(const std::vector<int>& a, const std::vector<int>& b) {
    std::unordered_set<int> set_a(a.begin(), a.end());

    for (int val : b) {
        if (set_a.find(val) != set_a.end()) {
            return true; // 找到公共元素
        }
    }

    return false;
}

int main() {
    std::vector<int> arr1 = {1, 2, 3, 4, 5};
    std::vector<int> arr2 = {4, 6, 7, 8};

    if (hasCommonElement(arr1, arr2)) {
        std::cout << "两个数组有公共元素" << std::endl;
    } else {
        std::cout << "两个数组无公共元素" << std::endl;
    }

    return 0;
}

这个算法的时间复杂度为 O(m + n)，远优于暴力比较的 O(m×n)。

常见陷阱与注意事项

1. 自定义类型需提供哈希函数

如果你要将自定义类型（如结构体）放入 unordered_set，必须提供哈希函数，否则编译会失败。

#include <unordered_set>
#include <iostream>
#include <string>

struct Person {
    std::string name;
    int age;

    // 构造函数
    Person(const std::string& n, int a) : name(n), age(a) {}
};

// 为 Person 提供哈希函数
struct PersonHash {
    size_t operator()(const Person& p) const {
        return std::hash<std::string>()(p.name) ^ (std::hash<int>()(p.age) << 1);
    }
};

// 使用自定义哈希函数
int main() {
    std::unordered_set<Person, PersonHash> people;

    people.insert(Person("张三", 25));
    people.insert(Person("李四", 30));

    // 查找
    auto it = people.find(Person("张三", 25));
    if (it != people.end()) {
        std::cout << "找到： " << it->name << std::endl;
    }

    return 0;
}

⚠️ 重要：unordered_set 要求哈希函数必须是确定性的，且相同值返回相同哈希码。

2. 哈希冲突与性能影响

哈希冲突是指多个不同的键被映射到同一个桶中。虽然 unordered_set 会通过链表或开放寻址解决冲突，但冲突过多会导致性能下降。

可以通过设置 max_load_factor() 来控制桶的密度，避免过度冲突。

std::unordered_set<int> s;
s.max_load_factor(0.7); // 降低负载因子，减少冲突

性能对比：`unordered_set` vs `set`

操作	`unordered_set`	`set`
查找	平均 O(1)	O(log n)
插入	平均 O(1)	O(log n)
删除	平均 O(1)	O(log n)
遍历顺序	无序	有序（升序）
内存开销	较高（哈希表）	较低（树结构）

✅ 推荐：当你不需要排序，只关心查找效率，优先使用 unordered_set。

总结

C++ 容器类 <unordered_set> 是一个高效、灵活的集合工具，特别适合用于去重、快速查找、集合运算等场景。它基于哈希表实现，提供了接近常数时间的性能，是现代 C++ 开发中不可或缺的利器。

通过本文的学习，你已经掌握了：

如何创建和初始化 unordered_set
如何执行插入、查找、删除等基本操作
如何在实际项目中应用它来解决去重与查找问题
注意自定义类型的哈希函数实现
性能调优和常见陷阱规避

如果你正在开发一个需要处理大量数据的程序，不妨试试用 unordered_set 替代 set，你会发现程序运行速度明显提升。掌握它，就是掌握了 C++ 高效编程的一把钥匙。

在未来的代码中，当你需要“快速判断某个东西是否存在”，请记住：unordered_set，就是那个最合适的答案。