- 微信
- 微博
  
  分享文章到微博
- 复制链接
  
  复制链接到剪贴板

从快速排序到大型语言模型——一位工程师眼中的推理算法演进

8181暴风雪发表于 2025/12/30 19:20:07 2025/12/30

【摘要】（一）写在开头：那块粉笔写下的“算法”如果要用一句话概括我的职业生涯，我会说：我是在“算法”这两个字的陪伴下走到今天的。2015年秋天，我第一次走进大学的《数据结构与算法》课教室，老师在黑板正中写下了 algorithm 一词，然后停顿了五秒钟——据他后来解释，那是因为他想让我们记住这五秒，很可能决定我们此后一辈子的工程写作习惯与思维方式。十三年过去，我依然清晰记得那块粉笔落地时发出的轻响，...

（一）写在开头：那块粉笔写下的“算法”

如果要用一句话概括我的职业生涯，我会说：我是在“算法”这两个字的陪伴下走到今天的。2015年秋天，我第一次走进大学的《数据结构与算法》课教室，老师在黑板正中写下了 algorithm 一词，然后停顿了五秒钟——据他后来解释，那是因为他想让我们记住这五秒，很可能决定我们此后一辈子的工程写作习惯与思维方式。十三年过去，我依然清晰记得那块粉笔落地时发出的轻响，也记得自己当时在笔记本左上角写下的同义词：“推理的艺术”。彼时我还不知道，这两个词会在日后偶然又必然地汇合，成为我对“大型语言模型”——LLM（Large Language Model）——的全部好奇与探索起点。

（二）小步快跑：经典算法让我学会“拆解”世界

大学四年里，我把绝大多数精力都投入在经典算法的训练上。快速排序（Quicksort）是我遇到的第一个既优雅、又让人拍案叫绝的算法：分治（Divide-and-Conquer）思想用一种极简的方式将一个混乱的数组拆成若干可管理的子问题，还附赠平均 O(n log n) 的时间复杂度。而在理解快速排序的过程中，我第一次真正领会到所谓“推理算法”的雏形——推断下一步操作所需要的全部信息，其实就在当前这一步已经提供的状态中。

当时我用 Rust 重写了一遍老师的 C 代码，顺带借此熟悉了所有权（ownership）和生命周期（lifetime）：

fn quicksort<T: Ord>(arr: &mut [T]) {
    if arr.len() <= 1 { return; }

    let pivot_index = partition(arr);
    let (left, right) = arr.split_at_mut(pivot_index);
    quicksort(left);
    quicksort(&mut right[1..]);
}

fn partition<T: Ord>(arr: &mut [T]) -> usize {
    let last = arr.len() - 1;
    let mut i = 0;
    for j in 0..last {
        if arr[j] <= arr[last] {
            arr.swap(i, j);
            i += 1;
        }
    }
    arr.swap(i, last);
    i
}

写完这段代码后，我突然意识到，“推理”并不神秘。它就是在每一步做出符合当前证据（数组状态）且可以被后续步骤利用的决策。不同的算法，只不过选择了不同的证据结构与决策规则。

（三）第一次叛逃：符号推理、搜索与知识图谱

带着这种“证据-决策”视角，我在研一时进入了一个 NLP 实验室。那是深度学习尚未一统江湖的年代，符号推理系统在学术圈内仍有足够的声音。我们做的第一个项目是面向医疗领域的问答系统，底层依赖的是一个知识图谱（Knowledge Graph，KG）。当时我用 Prolog 描述了若干条包含“症状→疾病→治疗方案”的规则，再写了一套启发式搜索算法，在图上做约束满足（Constraint Satisfaction）推理。

搜索本质上是从起点到终点的路径规划；而推理算法只是把“终点”换成了“可以被逻辑公理证实的陈述”。在符号系统里，这套机制运转得无可挑剔——前提是你的知识图谱足够完备，规则库足够丰富。然而现实世界比教材难缠亿万倍，尤其医疗文本中的同义词、缩写、上下位、术语漂移，让符号系统的脆弱性暴露得彻底。那一年，我反复体会到一句古典吐槽：“有了足够多的例外，什么规则都能被证明是错的。”

（四）概率世界：贝叶斯网络到深度神经网络

学术界并没有停下脚步，在符号主义与连接主义之间，概率推理是一座过渡桥梁。贝叶斯网络（Bayesian Network）、条件随机场（CRF）以及后来的马尔可夫逻辑网络（MLN）都试图在“规则”与“数据”间寻找一种可微分的平衡。但对我个人而言，最直观的冲击来自二〇一二年的 ImageNet 大赛，AlexNet 横空出世，宣布了深度学习时代的到来。图像领域的突破像多米诺骨牌，把自然语言处理也推向了神经网络大一统。

在深度网络框架下，“推理”一词被刻意弱化，取而代之的是“前向传播”（forward pass）。大量参数训练完毕后，只需要一次矩阵乘法和激活函数，就能给出模型对输入的“信度”评估。对初学者来说，贝叶斯网络里那些晦涩难懂的条件独立假设与边际化计算，被 SGD 的一行代码替换成看似更易掌握的“反向传播”（back-prop）。然而，真正的推理能力真的被删除了吗？答案是否定的——它只是被折叠进了权重张量，隐藏在我们无法直接阅读的高维空间。

（五）Transformers：一次“推理算子”的结构性升级

2017 年，Vaswani 等人发表《Attention Is All You Need》，Transformer 架构正式登场。很多人把注意力机制（Self-Attention）看作深度学习的一次“工程技巧提升”，我却更愿意把它视为推理算法层面的结构性升级。原因在于，Self-Attention 不再局限于局部卷积核或固定窗口，而是为任何两个 token 提供了显式的“交互通道”。这条通道可以看成一种高效的“证据收集”机制——模型会在前向传播阶段，自动聚焦最能支撑当前决策的上下文片段。

与之配套的多头注意力（Multi-Head Attention）进一步将“多视角推理”这一全新人类认知模式融入模型：不同的头负责不同语义或句法角色，最后再由 Feed-Forward Network 做整合。对比我当年写的 Prolog 规则，Transformer 的推理显得“松散”甚至“模糊”，却在实验结果上可怕地有效。某种意义上，它把严谨逻辑证明的高门槛换成了统计逼近的鲁棒性，避免了符号系统难以承受的脆弱与高昂维护成本。

（六）LLM 的推理算法：从采样策略到 KV-Cache

Transformer 架构奠基后，LLM 时代随即到来。人们常将注意力放在参数规模上：10B、70B、甚至 1T。实际上，模型成功落地还依赖一系列更细粒度的推理算法优化，我把它们归为三类：

采样策略：包括 Greedy Search、Top-K、Top-P（nucleus）、Typical Sampling、以及近两年兴起的 Contrastive Decoding。这些策略决定了模型在推理阶段如何在概率空间取样，平衡创造力与确定性。Top-P 能减少“长尾错觉”，Contrastive 则通过对比左邻右舍 token 提前抑制幻觉（hallucination）输出，本质上是把局部一致性引入采样决策函数中。
KV-Cache：大模型推理最大开销往往不在算子，而在 Sequence Length 指数级膨胀。将已计算的 Key、Value 缓存下来，后续 token 只需与历史 KV 做一次批量点乘，就能把复杂度从 O(n²) 降到 O(n)。在多轮对话或代码生成这类长上下文场景下，KV-Cache 是生死线。
知识注入与 Retrieval-Augmented Generation（RAG）：LLM 先读后写的“闭卷考试”模式终究会遇到遗忘瓶颈，向量检索库加速器（FAISS、Milvus）与外部知识融合算法（如 RePlug、g-former）成为新热点。推理过程中，模型先根据 Query 检索文档向量，再把召回片段当作附加上下文投喂，从而实现“带资料的开卷推理”。

（七）一次亲手实践：把 LLM 嵌进 CI/CD

去年公司启动 DevOps 智能化项目，我被拉去做一个代码审核助手。需求是：当开发者提交 Pull Request，机器人要在几分钟内给出风格建议、潜在 Bug 报告，以及对关联 Jira 工单的引用。我的方案核心正是“推理”。具体实现流程如下：

预处理：用 Tree-sitter 把代码抽成 AST，记录结构哈希；
语义切片：对 PR 中文件差异做基块划分，过滤“噪音修改”；
RAG 检索：在向量数据库里查找过去接受过审查的相似代码片段；
Prompt 装配：将差异上下文、审稿历史、相关 Jira 描述合并成若干 Prompt，投喂进 13-B 参数的 LLM；
推理采样：采用 Temperature=0.3 + Top-K=20 + Contrastive Penalty 的组合，生成初稿；
审校微调：Fine-Grain Rules（二十条以内的正则 + AST Pattern）二次过滤，以免大模型出现“幻觉 Patch”。

在公司内部灰度三个月后，PR 评论准确率（由开发者投票评估）从传统静态分析方案的 52% 提升至 78%。最让我兴奋的不是数字，而是这条流水线证明了“大模型+自定义推理算法”可以在工程侧真正闭环，而不只是科研 PPT 上的概念。

（八）推理算法的硬件之维：张量并行、量化与稀疏化

工程落地还涉及运维。若想把 LLM 业务跑在成本可控的 GPU 集群上，推理算法必须考虑底层硬件。近一年极受关注的技术有三：

张量并行（Tensor Parallel）与流水并行（Pipeline Parallel）：把一个超大权重矩阵拆成多块，分布到多张卡并发计算；
量化（Quantization）：Int8 乃至 Int4 把参数压缩到原先的四分之一甚至更低，日常推理几乎不损失精度。核心难点在“Activation Outlier”捕获；
稀疏化（Sparsity）：以 Llama-Sparse 和 MoE（Mixture of Experts）为代表，通过稀疏门控让推理只激活 10~20% 的参数块。若配合硬件支持（A100 的结构化稀疏引擎），能把吞吐拉到惊人的水位。

这些技术支撑了 LLM 推理从“科学研究”到“工业级 API”间的跨越，也是算法与系统工程在当代交融的典型案例。

（九）算法与推理的未来：符号新生还是统计再革？

当我们把目光投向更远处，会发现算法社区正在酝酿新一轮“整合主义”浪潮。SymbolicAI 正试图复兴可解释的推理链，DeepMind 的 AlphaCode2 和 MIT 的 Lean-Dojo 则用大模型写证明、写程序，再把形式化验证（Formal Verification）引回主流。与此同时，OpenAI、Anthropic 等巨头在对齐性（Alignment）议题上频频发声，强化学习与人类反馈（RLHF）成为推理算法不可或缺的一环。

我个人相信：未来的 LLM 绝不只是“更大”，而是“更会推理”。大小之外，信息组织方式、推理链路、以及对知识注入的细粒度调度，都会成为差异化核心。或许我们终有一天能看到，Transformer 与符号系统在一次架构级融合中握手言和，让模型推理既保留逻辑可解释性，又不牺牲统计鲁棒性与表达力。

（十）结语：算法是一面镜子，照见人的推理本能

回望十年学习与工作的曲线，我越来越确信：算法不仅是一门工程技术，更是一面镜子，折射出人类推理的本能与局限。从快速排序的分治思想，到符号推理的逻辑链，再到 LLM 无所不包的文本生成，我们对“怎样有效地做决策”不断提问，又不断刷新答案。

如果说大学那堂课的五秒停顿教会我敬畏算法，那今天的 LLM 热潮则提醒我：推理永远不只存在于数学符号，亦不只存在于深度网络的权重矩阵——它生长在我们对世界的求索之心里。算法会进化，硬件会变迁，但对未知保持好奇、对已知保持怀疑，这种人类式的推理冲动才是所有技术革新的原点，也是我写下这篇文章的真正原因。

愿我们在下一次技术浪潮到来之前，都依旧保持这份好奇；也愿你我在键盘声与 GPU 风扇轰鸣中，再次憧憬算法与推理交织的璀璨时刻。

【声明】本内容来自华为云开发者社区博主，不代表华为云及华为云开发者社区的观点和立场。转载时必须标注文章的来源（华为云社区）、文章链接、文章作者等基本信息，否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容，欢迎发送邮件进行举报，并提供相关证据，一经查实，本社区将立刻删除涉嫌侵权内容，举报邮箱： cloudbbs@huaweicloud.com

点赞
收藏
关注作者

0/1000

抱歉，系统识别当前为高风险访问，暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称，即可参与社区互动！

*长度不超过10个汉字或20个英文字符，设置后3个月内不可修改。

确认取消

加入云驻计划，成为创作者

华为云周边好礼
免费体验产品
特殊身份标识
线下官方门票
内部专家零距离
与10000+优质创作者共同成长

立即加入

从快速排序到大型语言模型——一位工程师眼中的推理算法演进

全部回复

设置昵称

关于作者

目录

加入云驻计划，成为创作者

从快速排序到大型语言模型——一位工程师眼中的推理算法演进

全部回复

设置昵称

关于作者

目录

热门推荐查看更多

相关文章

加入云驻计划，成为创作者

相关产品