惯性聚合 高效追踪和阅读你感兴趣的博客、新闻、科技资讯
阅读原文 在惯性聚合中打开

推荐订阅源

酷 壳 – CoolShell
酷 壳 – CoolShell
H
Hacker News: Front Page
P
Palo Alto Networks Blog
T
ThreatConnect
Apple Machine Learning Research
Apple Machine Learning Research
博客园_首页
T
True Tiger Recordings
P
Privacy & Cybersecurity Law Blog
B
Blog
IT之家
IT之家
Last Week in AI
Last Week in AI
F
Full Disclosure
Hacker News: Ask HN
Hacker News: Ask HN
C
Comments on: Blog
Microsoft Azure Blog
Microsoft Azure Blog
C
Cybersecurity and Infrastructure Security Agency CISA
Microsoft Security Blog
Microsoft Security Blog
博客园 - 【当耐特】
N
News and Events Feed by Topic
NISL@THU
NISL@THU
腾讯CDC
雷峰网
雷峰网
Security Latest
Security Latest
李成银的技术随笔
M
Microsoft Research Blog - Microsoft Research
L
LangChain Blog
L
Lohrmann on Cybersecurity
cs.CL updates on arXiv.org
cs.CL updates on arXiv.org
C
Check Point Blog
Y
Y Combinator Blog
Recent Announcements
Recent Announcements
博客园 - Franky
N
News | PayPal Newsroom
V
V2EX
A
About on SuperTechFans
The Register - Security
The Register - Security
月光博客
月光博客
奇客Solidot–传递最新科技情报
奇客Solidot–传递最新科技情报
Google Online Security Blog
Google Online Security Blog
MyScale Blog
MyScale Blog
Cisco Talos Blog
Cisco Talos Blog
Vercel News
Vercel News
WordPress大学
WordPress大学
C
Cyber Attacks, Cyber Crime and Cyber Security
The Hacker News
The Hacker News
IntelliJ IDEA : IntelliJ IDEA – the Leading IDE for Professional Development in Java and Kotlin | The JetBrains Blog
IntelliJ IDEA : IntelliJ IDEA – the Leading IDE for Professional Development in Java and Kotlin | The JetBrains Blog
爱范儿
爱范儿
A
Arctic Wolf
L
LINUX DO - 最新话题
freeCodeCamp Programming Tutorials: Python, JavaScript, Git & More

博客园 - BloggerSb

Swagger 文档设置api版本 .Net Core Routing Demo .net Core读取配置比较 简化版DbExecutor,将DataTable映射到T属性(支持Dapper风格的匿名参数)。(编程题) ASP.NET Core CRUD API 创建 UserController,实现 Get, Post, Put, Delete 方法,使用 EF Core 访问数据库。 (编程题) 设计模式落地:Repository + UnitOfWork + CQRS 完整实现 (编程题) 给定百万级订单表,实现高效分页 + 动态条件查询 + 导出 Excel(避免内存爆炸) (编程题) 实现一个带 CorrelationId、请求日志、异常统一处理的中间件链 (编程题) 异步限流器实现(编程题) 编程题,记录所有接口的执行耗时 .net面试题目 (问答题) 面试高频简答题 Aspose最新Slides破解 HttpContext.User.Identity.IsAuthenticated 为false 关于Cannot resolve scoped service from root provider解决方案 MongoDB用户权限管理,设置密码并连接 mongodb连接字符串 mongodb 使用 MongoDB Compass 创建账号,角色 安装mongodb bootstrap popover 设置悬浮框宽度 div contenteditable="true" 添加placehoder效果 光标自动定位到起始位置contenteditable="true" ,v-html绑定内容,div可编辑时,光标移到最前面
大文件单词统计 (编程题)
BloggerSb · 2026-04-17 · via 博客园 - BloggerSb

大文件单词统计 

- 使用 StreamReader 分块读取,结合 Parallel.ForEach 并行统计,结果存入 ConcurrentDictionary<string,int>。 

using System;
using System.Collections.Concurrent;
using System.IO;
using System.Linq;
using System.Text.RegularExpressions;

class BigFileWordCounter
{
    static void Main()
    {
        // 替换成你的大文件路径
        string filePath = @"D:\large_file.txt";
        
        // 线程安全字典:存储最终统计结果
        var wordCount = new ConcurrentDictionary<string, int>(StringComparer.OrdinalIgnoreCase);

        Console.WriteLine("开始统计单词...");
        var startTime = DateTime.Now;

        // 1. 流式读取文件(分块,不占内存)
        var lines = File.ReadLines(filePath);

        // 2. 并行处理每一行
        Parallel.ForEach(lines, line =>
        {
            if (string.IsNullOrWhiteSpace(line)) return;

            // 正则提取单词(忽略标点、数字,只保留字母)
            var words = Regex.Matches(line, @"[a-zA-Z]+")
                             .Cast<Match>()
                             .Select(m => m.Value.ToLower()); // 统一小写,避免大小写重复统计

            // 3. 并行更新线程安全字典
            foreach (var word in words)
            {
                wordCount.AddOrUpdate(
                    key: word,
                    addValue: 1,           // 不存在则添加,值=1
                    updateValueFactory: (k, oldVal) => oldVal + 1 // 存在则+1
                );
            }
        });

        var endTime = DateTime.Now;
        Console.WriteLine($"\n统计完成!耗时:{(endTime - startTime).TotalSeconds:F2} 秒");
        Console.WriteLine($"不重复单词总数:{wordCount.Count}");

        // 输出前20个高频词(可选)
        Console.WriteLine("\n【出现频率最高的前20个单词】");
        foreach (var item in wordCount.OrderByDescending(kv => kv.Value).Take(20))
        {
            Console.WriteLine($"{item.Key,-15} {item.Value,6} 次");
        }
    }
}