对于堆内存分配的专业说明(摘自MSDN)[昂捷论坛]

Murali R. Krishnan
Microsoft Corporation

1999 年 2 月

摘要：讨论常见的堆性能问题以及如何避免这些问题。（共 9 页打印页）

介绍

您是在无忧无虑地使用动态分配的 C/C++ 对象吗？您广泛地使用自动化在模块之间相互通讯吗？您的程序可能因为堆分配而变慢吗？以上这些情况不只是您一个人遇到的。几乎所有的项目迟早都会遇到堆问题。一般的倾向是说："是堆慢，而我的代码确实是好代码。"这不完全正确。本文帮助您更多地了解堆、堆的用法以及可能产生的问题。

什么是堆？

（如果您已经知道什么是堆，则可以向前跳转到 "常见的堆性能问题有哪些？"一节）

堆用于动态分配和释放程序所使用的对象。在以下情况中调用堆操作：

事先不知道程序所需对象的数量和大小。
对象太大，不适合使用堆栈分配器。

堆使用运行期间分配给代码和堆栈以外的部分内存。下图显示堆分配器的不同层。

GlobalAlloc/GlobalFree：直接与每个进程的默认堆通讯的 Microsoft Win32 堆调用。

LocalAlloc/LocalFree：直接与每个进程的默认堆通讯的 Win32 堆调用（用于与 Microsoft Windows NT 的兼容性）。

COM 的 IMalloc 分配器（或 CoTaskMemAlloc / CoTaskMemFree）：函数使用默认的每个进程堆。自动化使用组件对象模型 (COM) 的分配器，而请求使用每进程堆。

C/C++ 运行时 (CRT) 分配器：提供 malloc() 和 free() 以及 new 和 delete 运算符。编程语言如 Microsoft Visual Basic 和 Java 还提供新运算符，它们使用的是垃圾回收而不是堆。CRT 创建自己的驻留在 Win32 堆之上的专用堆。

在 Windows NT 中，Win32 堆是围绕 Windows NT 运行时分配器的一个薄层。所有的 API 都将它们的请求转发到 NTDLL。

在 Windows NT 中，Windows NT 运行时分配器提供了该核心堆分配器。它包含一个前端分配器，该分配器具有 128 个大小从 8 到 1,024 字节不等的自由列表。后端分配器使用虚拟内存保留和提交页面。

图表的底部是虚拟内存分配器，它保留和提交操作系统使用的页面。所有的分配器都使用虚拟内存设备访问数据。

分配和释放块不是很简单吗？为什么这要花费很长的时间？

传统上，操作系统和运行时库随附了堆实现。当进程开始时，操作系统创建称为进程堆的默认堆。如果没有使用其他堆，则使用进程堆分配块。语言运行时库也可在一个进程内创建单独的堆。（例如，C 运行时库创建自己的堆。）除这些专用堆外，应用程序或许多加载的动态链接库 (DLL) 之一也可以创建并使用单独的堆。Win32 提供了一组丰富的 API 用于创建和使用专用堆。有关堆函数的优秀教程，请参阅 MSDN 平台 SDK 节点。

当应用程序或 DLL 创建专用堆时，这些堆驻留于进程空间中并且在进程范围内是可访问的。某一给定堆分配的任何数据应为同一堆所释放。（从一个堆分配并释放给另一个堆没有意义。）

在所有虚拟内存系统中，堆位于操作系统的虚拟内存管理器之上。语言运行时堆也驻留在虚拟内存之上。某些情况下，这些堆在操作系统堆的上层，但语言运行时堆通过分配大的块来执行自己的内存管理。绕开操作系统堆来使用虚拟内存函数可使堆更好地分配和使用块。

典型的堆实现由前端分配器和后端分配器组成。前端分配器维护固定大小块的自由列表。当堆收到分配调用后，它尝试从前端列表中查找自由块。如果此操作失败，则堆将被迫从后端（保留和提交虚拟内存）分配一个大块来满足请求。通常的实现具有每个块分配的开销，这花费了执行周期，也减少了可用存储区。

知识库文章 Q10758"Managing Memory with calloc() and malloc()"（按文章 ID 号搜索）包含有关这些主题的更多背景知识。另外，有关堆实现和设计的详细讨论，请参阅 Paul R. Wilson、Mark S. Johnstone、Michael Neely 和 David Boles 所著的"Dynamic Storage Allocation: A Survey and Critical Review"。"International Workshop on Memory Management"，Kinross，Scotland，UK，1995 年 9 月 (http://www.cs.utexas.edu/users/oops/papers.html)。

Windows NT 的实现（Windows NT 4.0 版及更高版本）使用 127 个从 8 到 1,024 字节不等的 8 字节对齐块的自由列表和 1 个混合列表。混合列表（自由列表[0]）包含大小超过 1,024 字节的块。自由列表包含在双向链接表中链接在一起的对象。默认情况下，进程堆执行合并操作。（合并操作是组合相邻的自由块以生成更大的块的操作。）合并操作花费了额外的周期，但减少了堆块的内部碎片。

单个全局锁可防止多线程同时使用堆。（请参阅 George Reilly 写的服务器性能和可伸缩性杀手锏的第一条戒律。）此锁主要用于保护堆数据结构不受多线程的任意访问。当堆操作过于频繁时，此锁会对性能造成负面影响。

常见的堆性能问题有哪些？

以下是在使用堆时会遇到的最常见问题：

分配操作导致速度降低。仅是分配就花很长的时间。速度降低最可能的原因是自由列表没有块，因此运行时分配器代码花时间寻找较大的自由块或者从后端分配器分配新块。

释放操作导致速度降低。释放操作消耗更多的时间，主要在发生合并操作时。在合并期间，每个释放操作都应"查找"其邻近块，将这些块取出以构成较大的块，并将此较大的块重新插入自由列表中。在此查找期间可以任意顺序访问内存，这导致缓存未命中和性能降低。

争用通常导致线程和进程的上下文切换。上下文切换的代价十分昂贵，但更昂贵的是数据从处理器缓存中丢失和此后当线程重新运行时重建此数据的代价。

堆损坏导致速度降低。当应用程序不正确地使用堆块时将发生堆损坏。常见情形包括双重释放或在释放块后使用块，以及在块边界以外改写的明显问题。（堆损坏不在本文讨论范围内。有关其他详细信息，请参阅关于内存改写和内存泄漏的 Microsoft Visual C++ (R) 调试文档。）
频繁的分配和重新分配操作导致速度降低。当使用脚本语言时，这是一个十分常见的现象。字符串被重复地分配，随着重新分配而增长，然后被释放。请不要这样做。如有可能，请尝试分配大字符串，并使用缓冲区。另一种方法是最小化串联操作。

在分配及释放操作中，争用是使速度降低的原因。理想情况下，我们希望有一个没有争用且快速分配/释放的堆。哎，这样的通用用途堆尚不存在，尽管在将来某个时候也许会出现。

在所有的服务器系统（如 IIS、MSProxy、DatabaseStacks、网络服务器、Exchange 等等）中，堆锁都是一个"大"瓶颈。处理器的数目越多，争用越厉害。

保护自己不受堆的影响

既然您知道了关于堆的一些问题，难道不想要一根解决这些问题的魔棒吗？我希望有一根魔棒。但是没有魔法使堆运行得更快，因此不要期望在发行产品的前一个星期内使速度加快。请尽早计划您的堆策略，这样会好得多。改变使用堆的方式并减少堆操作数是提高性能的可靠策略。

如何减少堆操作的使用呢？可以通过在数据结构内使用位置来减少堆操作数。考虑下面的示例：

struct ObjectA {
   // data for objectA
}

struct ObjectB {
   // data for objectB
}

// Use of ObjectA and ObjectB together.

//
// Use pointers 
//
struct ObjectB {
   struct ObjectA * pObjA;
   // data for objectB
}

//
// Use embedding
//
struct ObjectB {
   struct ObjectA pObjA;
   // data for objectB
}

//
// Aggregation - use ObjectA and ObjectB inside another object
//

struct ObjectX {
   struct ObjectA  objA;
   struct ObjectB  objB;
}

避免使用指针来关联两个数据结构。如果使用指针关联两个数据结构，则前面示例中的对象 A 和 B 将分别被分配和释放。这是一个额外的开销，并且是我们希望避免的事情。
将指向的子对象嵌入父对象中。每当对象中有指针时，就意味着有一个动态元素 (80%) 和一个要取消引用的新位置。嵌入操作增加了位置并减少了进一步分配/释放的需要。这将提高应用程序的性能。
合并较小的对象以形成较大的对象（聚合）。聚合可减少分配和释放的块数。如果有多个开发人员同时对负责设计的不同部分进行开发，最后可能得到许多可以合并的小对象。此合并的难点是要找到正确的聚合边界。
内联一个可满足 80% 需要的缓冲区（也称为 80-20 规则）。在一些情况下，需要用内存缓冲区来存储字符串/二进制数据，而总字节数事先是未知的。进行测量并内联一个大小可满足 80% 需要的缓冲区。对于余下的 20%，可以分配一个新缓冲区并用指针指向该缓冲区。这样可以减少分配和释放调用并增加数据的空间位置，这将最终提高代码的性能。
将对象分配为块区（分块）。分块是指一次将多个对象分配在一组中的方法。如果必须跟踪项列表，例如 {名称, 值} 对列表，则有两种方法：方法 1 是为每一名称-值对分配一个节点。方法 2 是分配一个可容纳例如五个名称-值对的结构。例如，如果存储四对数据是常见方案，可以减少节点数和附加链接表指针所需的额外空间量。
分块是处理器缓存友好的，尤其是对于 L1 缓存，因为它提供了增加的位置，更不用说其中一些数据块位于用于块分配的同一虚拟页了。
适当地使用 _amblksiz。C 运行时库 (CRT) 具有自定义的前端分配器，该分配器用于从后端（Win32 堆）分配 _amblksiz 大小的块。将 _amblksiz 设置为一个较大的值可以潜在地减少对后端的调用数量。这只适用于大量使用 CRT 的程序。

通过使用上述技巧获得的节省因对象类型、大小和工作负荷而异。但总是能获得性能和可缩放性方面的好处。退一步说，代码会有点专用，但是如果认真思考，代码还是可以易于管理的。

摘要

堆实现趋于对所有平台保持通用，因此具有巨大的系统开销。每个人的代码都有特定的要求，但是设计可以适应本文所讨论的原则以减少堆交互。

评估代码中堆的使用。
提高代码的效率以使用较少的堆调用：分析关键路径并修复数据结构。
在实现自定义包装前进行度量以量化堆调用的成本。
如果对性能不满意，请询问操作系统组以改进堆。此类请求越多，意味着将投入越多的精力改进堆。
询问 C 运行时组以在操作系统提供的堆上使分配器成为瘦包装。结果，C 运行时堆调用的成本随着操作系统堆的改进而减少。
操作系统（Windows NT 家族）不断进行着堆的改进。保持步调一致并利用这些改进。

Murali Krishnan 是 Internet Information Server (IIS) 团队的首席软件设计工程师。他从 1.0 版就开始研究 IIS，并成功地将 IIS 从 1.0 版一直升级到 4.0。Murali 组织和领导了 IIS 性能小组三年 (1995-1998)，并从第一天起就开始改变 IIS 的性能。他在印第安纳州的 Anna 大学获得计算机科学学士学位，并在 Wisconsin-Madison 大学获得计算机科学硕士学位。工作之余，他喜欢读书、打排球和在家烹饪。

主题：对于堆内存分配的专业说明(摘自MSDN)

介绍

什么是堆？

有关堆实现的说明

常见的堆性能问题有哪些？

保护自己不受堆的影响

更多性能提升

摘要