用 C++ 写了个简单的词频统计，为啥比 DuckDB 还慢一半呢。。

无名啊

@Ta 2024-04-20 38635点击

步骤

生成 1亿个长度为 15 的随机字符串（为了 SSO 优化）。内容是 1~1KW 的随机数字，并补足前导 0。
用 DuckDB 统计前 1000 的高频词，用时 20 秒。
自己写个 C++ 程序，统计高频词，用时 30 秒。
改为生成长度为 16 的随机字符串，再用刚写的 C++ 程序统计，用时 40 秒。。

截图

截图_20240420202339.webp（59.29 KB）

`C++` 代码

#include <queue>
#include <string>
#include <vector>
#include <iostream>
#include "ankerl/unordered_dense.h"

const auto TOP_NUM = 1000;

int main() {
    std::cin.tie(nullptr);
    std::ios::sync_with_stdio(false);

    std::string word;
    ankerl::unordered_dense::map<std::string, size_t> dict;
    dict.reserve(10000000);

    // 逐词计算频次
    while (std::cin >> word)
        ++dict[word];

    using dict_item_type = decltype(dict)::value_type;
    auto comp = [](const auto* lhs, decltype(lhs) rhs) {
        return lhs->second > rhs->second;
    };

    std::priority_queue<
            const dict_item_type*,
            std::vector<const dict_item_type*>,
            decltype(comp)> words(comp);

    // 找出排名靠前的词频
    for (const auto& item: dict) {
        if (words.size() < TOP_NUM)
            words.push(&item);
        else if (item.second > words.top()->second) {
            words.pop();
            words.push(&item);
        }
    }

    // 并排序好这些高频词
    std::deque<const dict_item_type*> result;
    while (!words.empty()) {
        auto top = words.top();
        result.push_front(top);
        words.pop();
    }

    // 再逐一输出
    for (auto&& i: result)
        std::cout << i->second << '\t' << i->first << '\n';
}

隐藏样式查看源码

回复列表(9|隐藏机器人聊天)

1

老虎会游泳

@Ta / 2024-04-21 / 样 / 源

你充分利用多核CPU了吗？把任务分成多个部分跑在不同的CPU核心上，应该会比单线程快很多。就算各个部分得出结果之后还得合并再筛选一次，也应该比整体在单个CPU核心上运行更快。
2

无名啊

@Ta / 2024-04-21 / 样 / 源

@老虎会游泳，DuckDB 也设成单线程的了。对比起来应该算公平的？

DuckDB 双线程时 14 秒，3+线程爆（笔记本 8GB 板载）内存了。。

老虎看这代码，有啥不合理的地方，才拖累性能，打不过 DuckDB 吗？
3

老虎会游泳

@Ta / 2024-04-21 / 样 / 源

@无名啊，std::cin >> word这个io可能比较慢，把文件mmap到内存然后使用char*指针直接访问每行的内容可能更快，跳转到下一行就是上一行的指针加上一行的字节数。
4

老虎会游泳

@Ta / 2024-04-21 / 样 / 源

@无名啊，你可以自行统计一下分段用时，看看输入、计算和输出各占比多少。也许输入输出是大头（因为stdio是同步锁定的）。
5

艾木友尔尔巴

@Ta / 2024-04-21 / 样 / 源
被锁定

层主 @艾木友尔尔巴于 2024-04-21 07:25 删除了该楼层。
6

无名啊

@Ta / 2024-04-23 / 样 / 源
@老虎会游泳，

std::cin >> word这个io可能比较慢

确实，我改成 std::getline(std::cin, word) 后，就由 28 秒 → 25 秒了。

你可以自行统计一下分段用时，看看输入、计算和输出各占比多少。

我简单测了测，读取 1 亿 15 长度字符串用时。
- std::cin >> word：5.1 秒
- std::getline(std::cin, word)：2.2 秒
- 手动开 64KB 缓冲区，每次 std::cin.read() 填充，std::memchr 找 \n，str.append() 构造：1.4 秒
感觉输入上，这速度也可以了。

而且，我 strace 了一下 DuckDB，它也是要读到缓冲区里的，且缓冲区贼大，32MB。。且一定要填充完整 32MB，才干活。。

怪不得我说，一边解压大文本/脚本实时生成内容，一边喂给 DuckDB，怎么耗时会变长。。明明 writer 产生内容的速度还挺快的呀。。

也许输入输出是大头（因为stdio是同步锁定的）

我取消与 stdio 同步了：std::ios::sync_with_stdio(false);。

这个确实很耗时间。不取消的话，总时间直接翻倍。。

把文件mmap到内存然后使用char*指针直接访问

如果想解压大文本，再通过管道喂给程序时，好像不能 mmap 了吧。。
7

无名啊

@Ta / 2024-04-23 / 样 / 源

@老虎会游泳，上一楼，想每段隔多几行回复来着。咋连续多行，被压缩成一行了。。
8

老虎会游泳

@Ta / 2024-04-23 / 样 / 源

@无名啊，github的markdown解析器应该也是这样啊，用空行隔开的段落会被转换为，无论中间有多少空行都只会生成一对。

所以实际上根本没有生成换行，你在这里看到的隔行效果只是的边距。

如果你就是想要多个换行，可以使用[br]。

这是[br]叠加的效果。
9

卷心菜

@Ta / 2024-04-23 / 样 / 源

膜拜大佬！
https://www.chengyao.xyz

添加新回复

回复需要登录。

用 C++ 写了个简单的词频统计，为啥比 DuckDB 还慢一半呢。。

步骤

截图

C++ 代码

`C++` 代码