浅谈PHP5中垃圾回收算法(Garbage Collection)的演化

前言:PHP是一门托管型语言,在PHP编程中程序员不需要手工处理内存资源的分配与释放(使用C编写PHP或Zend扩展除外),这就意味着PHP本身实现了垃圾回收机制(Garbage Collection)。现在如果去PHP官方网站(php.net)可以看到,目前PHP5的两个分支版本PHP5.2和PHP5.3是分别更新的,这是因为许多项目仍然使用5.2版本的PHP,而5.3版本对5.2并不是完全兼容。PHP5.3在PHP5.2的基础上做了诸多改进,其中垃圾回收算法就属于一个比较大的改变。本文将分别讨论PHP5.2和PHP5.3的垃圾回收机制,并讨论这种演化和改进对于程序员编写PHP的影响以及要注意的问题。

PHP变量及关联内存对象的内部表示

垃圾回收说到底是对变量及其所关联内存对象的操作,所以在讨论PHP的垃圾回收机制之前,先简要介绍PHP中变量及其内存对象的内部表示(其C源代码中的表示)。

PHP官方文档中将PHP中的变量划分为两类:标量类型和复杂类型。标量类型包括布尔型、整型、浮点型和字符串;复杂类型包括数组、对象和资源;还有一个NULL比较特殊,它不划分为任何类型,而是单独成为一类。

所有这些类型,在PHP内部统一用一个叫做zval的结构表示,在PHP源代码中这个结构名称为“_zval_struct”。zval的具体定义在PHP源代码的“Zend/zend.h”文件中,下面是相关代码的摘录。

 

typedef union _zvalue_value {
	long lval;					/* long value */
	double dval;				/* double value */
	struct {
		char *val;
		int len;
	} str;
	HashTable *ht;				/* hash table value */
	zend_object_value obj;
} zvalue_value;

struct _zval_struct {
	/* Variable information */
	zvalue_value value;		/* value */
	zend_uint refcount__gc;
	zend_uchar type;	/* active type */
	zend_uchar is_ref__gc;
};

其中联合体“_zvalue_value”用于表示PHP中所有变量的值,这里之所以使用union,是因为一个zval在一个时刻只能表示一种类型的变量。可以看到_zvalue_value中只有5个字段,但是PHP中算上NULL有8种数据类型,那么PHP内部是如何用5个字段表示8种类型呢?这算是PHP设计比较巧妙的一个地方,它通过复用字段达到了减少字段的目的。例如,在PHP内部布尔型、整型及资源(只要存储资源的标识符即可)都是通过lval字段存储的;dval用于存储浮点型;str存储字符串;ht存储数组(注意PHP中的数组其实是哈希表);而obj存储对象类型;如果所有字段全部置为0或NULL则表示PHP中的NULL,这样就达到了用5个字段存储8种类型的值。

而当前zval中的value(value的类型即是_zvalue_value)到底表示那种类型,则由“_zval_struct”中的type确定。_zval_struct即是zval在C语言中的具体实现,每个zval表示一个变量的内存对象。除了value和type,可以看到_zval_struct中还有两个字段refcount__gc和is_ref__gc,从其后缀就可以断定这两个家伙与垃圾回收有关。没错,PHP的垃圾回收全靠这俩字段了。其中refcount__gc表示当前有几个变量引用此zval,而is_ref__gc表示当前zval是否被按引用引用,这话听起来很拗口,这和PHP中zval的“Write-On-Copy”机制有关,由于这个话题不是本文重点,因此这里不再详述,读者只需记住refcount__gc这个字段的作用即可。

PHP5.2中的垃圾回收算法——Reference Counting

PHP5.2中使用的内存回收算法是大名鼎鼎的Reference Counting,这个算法中文翻译叫做“引用计数”,其思想非常直观和简洁:为每个内存对象分配一个计数器,当一个内存对象建立时计数器初始化为1(因此此时总是有一个变量引用此对象),以后每有一个新变量引用此内存对象,则计数器加1,而每当减少一个引用此内存对象的变量则计数器减1,当垃圾回收机制运作的时候,将所有计数器为0的内存对象销毁并回收其占用的内存。而PHP中内存对象就是zval,而计数器就是refcount__gc。

例如下面一段PHP代码演示了PHP5.2计数器的工作原理(计数器值通过xdebug.org得到):

<?php$val1 = 100; //zval(val1).refcount_gc = 1;
$val2 = $val1; //zval(val1).refcount_gc = 2,zval(val2).refcount_gc = 2(因为是Write on copy,当前val2与val1共同引用一个zval)
$val2 = 200; //zval(val1).refcount_gc = 1,zval(val2).refcount_gc = 1(此处val2新建了一个zval)
unset($val1); //zval(val1).refcount_gc = 0($val1引用的zval再也不可用,会被GC回收)

?>

Reference Counting简单直观,实现方便,但却存在一个致命的缺陷,就是容易造成内存泄露。很多朋友可能已经意识到了,如果存在循环引用,那么Reference Counting就可能导致内存泄露。例如下面的代码:

<?php$a = array();
$a[] = & $a;
unset($a);

?>

这段代码首先建立了数组a,然后让a的第一个元素按引用指向a,这时a的zval的refcount就变为2,然后我们销毁变量a,此时a最初指向的zval的refcount为1,但是我们再也没有办法对其进行操作,因为其形成了一个循环自引用,如下图所示:

image

其中灰色部分表示已经不复存在。由于a之前指向的zval的refcount为1(被其HashTable的第一个元素引用),这个zval就不会被GC销毁,这部分内存就泄露了。

这里特别要指出的是,PHP是通过符号表(Symbol Table)存储变量符号的,全局有一个符号表,而每个复杂类型如数组或对象有自己的符号表,因此上面代码中,a和a[0]是两个符号,但是a储存在全局符号表中,而a[0]储存在数组本身的符号表中,且这里a和a[0]引用同一个zval(当然符号a后来被销毁了)。希望读者朋友注意分清符号(Symbol)的zval的关系。

在PHP只用于做动态页面脚本时,这种泄露也许不是很要紧,因为动态页面脚本的生命周期很短,PHP会保证当脚本执行完毕后,释放其所有资源。但是PHP发展到目前已经不仅仅用作动态页面脚本这么简单,如果将PHP用在生命周期较长的场景中,例如自动化测试脚本或deamon进程,那么经过多次循环后积累下来的内存泄露可能就会很严重。这并不是我在耸人听闻,我曾经实习过的一个公司就通过PHP写的deamon进程来与数据存储服务器交互。

由于Reference Counting的这个缺陷,PHP5.3改进了垃圾回收算法。

PHP5.3中的垃圾回收算法——Concurrent Cycle Collection in Reference Counted Systems

PHP5.3的垃圾回收算法仍然以引用计数为基础,但是不再是使用简单计数作为回收准则,而是使用了一种同步回收算法,这个算法由IBM的工程师在论文Concurrent Cycle Collection in Reference Counted Systems中提出。

这个算法可谓相当复杂,从论文29页的数量我想大家也能看出来,所以我不打算(也没有能力)完整论述此算法,有兴趣的朋友可以阅读上面的提到的论文(强烈推荐,这篇论文非常精彩)。

我在这里,只能大体描述一下此算法的基本思想。

首先PHP会分配一个固定大小的“根缓冲区”,这个缓冲区用于存放固定数量的zval,这个数量默认是10,000,如果需要修改则需要修改源代码Zend/zend_gc.c中的常量GC_ROOT_BUFFER_MAX_ENTRIES然后重新编译。

由上文我们可以知道,一个zval如果有引用,要么被全局符号表中的符号引用,要么被其它表示复杂类型的zval中的符号引用。因此在zval中存在一些可能根(root)。这里我们暂且不讨论PHP是如何发现这些可能根的,这是个很复杂的问题,总之PHP有办法发现这些可能根zval并将它们投入根缓冲区。

当根缓冲区满额时,PHP就会执行垃圾回收,此回收算法如下:

1、对每个根缓冲区中的根zval按照深度优先遍历算法遍历所有能遍历到的zval,并将每个zval的refcount减1,同时为了避免对同一zval多次减1(因为可能不同的根能遍历到同一个zval),每次对某个zval减1后就对其标记为“已减”。

2、再次对每个缓冲区中的根zval深度优先遍历,如果某个zval的refcount不为0,则对其加1,否则保持其为0。

3、清空根缓冲区中的所有根(注意是把这些zval从缓冲区中清除而不是销毁它们),然后销毁所有refcount为0的zval,并收回其内存。

如果不能完全理解也没有关系,只需记住PHP5.3的垃圾回收算法有以下几点特性:

1、并不是每次refcount减少时都进入回收周期,只有根缓冲区满额后在开始垃圾回收。

2、可以解决循环引用问题。

3、可以总将内存泄露保持在一个阈值以下。

PHP5.2与PHP5.3垃圾回收算法的性能比较

由于我目前条件所限,我就不重新设计试验了,而是直接引用PHP Manual中的实验,关于两者的性能比较请参考PHP Manual中的相关章节:http://www.php.net/manual/en/features.gc.performance-considerations.php。

首先是内存泄露试验,下面直接引用PHP Manual中的实验代码和试验结果图:

<?php
class Foo
{
    public $var = ’3.1415962654′;
}$baseMemory = memory_get_usage();

for ( $i = 0; $i <= 100000; $i++ )
{
    $a = new Foo;
    $a->self = $a;
    if ( $i % 500 === 0 )
    {
        echo sprintf( ‘%8d: ‘, $i ), memory_get_usage() – $baseMemory, “n”;
    }
}
?>

PHP内存泄露试验

可以看到在可能引发累积性内存泄露的场景下,PHP5.2发生持续累积性内存泄露,而PHP5.3则总能将内存泄露控制在一个阈值以下(与根缓冲区大小有关)。

另外是关于性能方面的对比:

<?php
class Foo
{
    public $var = ’3.1415962654′;
}for ( $i = 0; $i <= 1000000; $i++ )
{
    $a = new Foo;
    $a->self = $a;
}

echo memory_get_peak_usage(), “n”;
?>

这个脚本执行1000000次循环,使得延迟时间足够进行对比,然后使用CLI方式分别在打开内存回收和关闭内存回收的的情况下运行此脚本:

time php -dzend.enable_gc=0 -dmemory_limit=-1 -n example2.php
# and
time php -dzend.enable_gc=1 -dmemory_limit=-1 -n example2.php

在我的机器环境下,运行时间分别为6.4s和7.2s,可以看到PHP5.3的垃圾回收机制会慢一些,但是影响并不大。

与垃圾回收算法相关的PHP配置

可以通过修改php.ini中的zend.enable_gc来打开或关闭PHP的垃圾回收机制,也可以通过调用gc_enable( )或gc_disable( )打开或关闭PHP的垃圾回收机制。在PHP5.3中即使关闭了垃圾回收机制,PHP仍然会记录可能根到根缓冲区,只是当根缓冲区满额时,PHP不会自动运行垃圾回收,当然,任何时候您都可以通过手工调用gc_collect_cycles( )函数强制执行内存回收。

发表在 php编程 | 留下评论

PHP操作MongoDB时的整数问题及对策

本文所说的整数问题,其实并不是MongoDB的问题,而是PHP驱动的问题:MongoDB本身有两种整数类型,分别是:32位整数和64位整数,但旧版的PHP驱动不管操作系统是32位还是64位,把所有整数都当做32位整数处理,结果导致64位整数被截断。为了在尽可能保持兼容性的前提下解决这个问题,新版PHP驱动加入了mongo.native-long选项,以期在64位操作系统中把整数都当做64位来处理,有兴趣的可参考:64-bit integers in MongoDB

那么PHP驱动真的完全解决了整数问题么?NO!在处理group操作的时候还有BUG

为了说明问题,我们先来生成一些测试数据:

<?phpini_set('mongo.native_long', 1);

$instance = new Mongo();

$instance = $instance->selectCollection('test', 'test');

for ($i = 0; $i < 10; $i++) {
    $instance->insert(array(
        'group_id' => rand(1, 5),
        'count'    => rand(1, 5),
    ));
}

?>

下面让我们使用group操作,根据group_id分组,汇总计算count:

<?phpini_set('mongo.native_long', 1);

$instance = new Mongo();

$instance = $instance->selectCollection('test', 'test');

$keys = array('group_id' => 1);

$initial = array('count' => 0);

$reduce = '
    function(obj, prev) {
        prev.count += obj.count;
    }
';

$result = $instance->group($keys, $initial, $reduce);

var_dump($result);

?>

结果和预想的有出入,count没有实现累加,而是变成了[object Object],目前,如果必须使用group操作,那么有两种方法可以缓解这个问题:

ini_set('mongo.native_long', 0);
$initial = array('count' => (float)0);

这两种方法都是治标不治本的权宜之计,既然当前PHP驱动里group的实现有问题,那我们就绕开它,用其它的方式实现同样的功能,这个方式就是MapReduce

<?phpini_set('mongo.native_long', 1);

$instance = new Mongo();

$instance = $instance->selectDB('test');

$map = '
    function() {
        emit(this.group_id, this.count);
    }
';

$reduce = '
    function(key, values) {
        var sum = 0;

        for (var index in values) {
            sum += values[index];
        }

        return sum;
    }
';

$result = $instance->command(array(
    'mapreduce' => 'test',
    'map'       => $map,
    'reduce'    => $reduce
));

$result = iterator_to_array($instance->{$result['result']}->find());

var_dump($result);

?>

把大象放冰箱里需要三步,而使用MapReduce仅仅需要Map和Reduce两步即可,这里有一个PDF文档生动的说明了MySQL中GROUP BY和MongoDB中MapReduce的对应关系:

 

SQL to MongoDB

此外,还有很多资料可供参考,如:

说明:软件版本为MongoDB(1.6.5),PECL Mongo(1.1.4)。不同版本结论可能不同。

发表在 php编程 | 留下评论

传Google地图将支持全球导航

歌在去年10月份发布了精确导航服务Google Maps Navigation,不过只能在美国等少数几个国家使用。后来有消息称,Google正在与荷兰数字地图供应商Automotive Navigation Data合作,Automotive Navigation Data拥有全球 200多个国家的道路数据库,传Google准备使用他们的数据库,在更多地区推出Google地图导航服务。

http://www.gamemv.com/wp-content/uploads/auto_save_image/2011/04/190907qkW.jpg

据国外媒体报道,一名来自XDA开发者论坛的开发者称,Google正在为5.2.1版Google地图制作新的Mod,新Mod中将添加对世界上多个国家的导航支持。据悉,新的MOD将会替换已存在的BrutMod,并且不支持离线使用,目前还未确切具体细节。不过如果发布,无疑将会对一些导航服务供应商构成巨大的威胁。

发表在 Google | 留下评论

Google Maps for Android 开始可以记录您的行踪

Google Maps app (Market)的Android版本,新版带来了基于位置的记录功能,可以为您统计并分析出在家、在工作和在玩的时间,帮助合理规划自己的生活,当然,用户首先需要设定好一些条件才可以让Google进行判断,坏处是,不知道这款应用会不会成为家庭矛盾的导火索。

发表在 Google | 留下评论

用Google Earth 细看日本311灾难的之前和之后

利用Google Earth 的Three-dimensional photo-overlays(译:3D相片层)功能 ,New York Times制作出“The Aftermath in Japan”,让你细看日本311灾难的之前和之后。



用户可以比较地震前及后的情况。所有照片都与3D的地理重叠。你可以看到仙台、福岛机场、核电厂等的损坏情况。同时,用户可以切换最新和过去的卫星图像。


[via The Aftermath in Japan]

发表在 Google | 留下评论

wordpress如何将外链的图片直接保存到本地服务器?

很多朋友有时看到别人的一篇文章写得很好,于是想转载到自己的博客,但是有些有图片的怎么办,像Discuz论坛、PHPWind论坛都有这样的插件,这样WordPress就有远程图片本地化插件了。下面介绍一下这个WordPress远程图片本地化插件Auto-save-image

本插件就是实现这样的功能。

本插件的功能:
1、自动保存远程图片并加水印(可设置图片水印或文字水印)
2、检查文章是否重复
3、去除非本站链接。

  • 下载博客插件auto-save-image,并上传至wp-content/plugins/目录下
  • 登陆博客后台,在已安装插件列表中启用该插件
  • 启用插件后,在设置选项卡下会成生Auto-Save-Image选项
  • 点击Auto-Save-Image选项进入插件设置界面对插件相关参数进行设置启用插件后,在添加新文章界面会出多两个选项,“自动保存远程图片”和“自动去除非本站链接”,要保存远程图片就要勾上选项;该插件还有一个功能,就是能自动检测博客文章的标题是否重复。
  • 提示:该款插件本身不大,但是那个字体文件有10MB,部分博主的空间上传的文件大小最大限制可能达不到,这时可以尝试更新字体,下载一个比较小的字体,然后替换该字体试试。

    下载地址:http://code.google.com/p/lanbing/downloads/detail?name=auto-save-image.zip&can=2&q=

    发表在 WordPress | 留下评论

    庆祝 Linux 20 周岁

    20 年前的这个夏天,你牛死.脱袜子 (Linus Torvalds) 勇敢的决定向全世界共享他编写的操作系统,不久之后,他又选择了 GPL 协议作为发布许可证。也就是从此开始, Linux 逐渐壮大,从而有了今天的成就。

    http://www.gamemv.com/wp-content/uploads/auto_save_image/2011/04/185644S9Q.png

    目前,Linux 已经深入到我们生活中的方方面面,存在于你的手机中、 ATM 机中、你的桌面、电影中、你的汽车中等等许许多多的地方及领域内,可以说是无处不在。之前 Linux 基金会执行董事 Jim Zemlin 就表示,在 Linus Torvalds 开发 Linux 操作系统内核 20 年之后,微软和 Linux 之间的斗争已经结束,Linux 取得了胜利。

    除了桌面外,Linux 在几乎所有市场都取得了压倒性胜利,包括服务器端和移动计算。Zemlin 宣称,现在已经无需再关注微软了,它曾经是主要竞争对手,但现在和它竞争就好像是踢小狗。从 Android 和亚马逊的 Kindle,到嵌入式设备和消费电子产品,到全球最大网站和超级计算机,Linux 几乎占领了所有计算类别,除了桌面。

    而在 Linux 诞生 20 周年到来之际,Linux 基金会发文宣布举行 Linux 20 周岁庆祝活动计划,同时作为 Linux 用户的你也可以参与其中,比如可以提交 1 分钟的庆祝视频,录制你的音频消息,述说你与 Linux 的故事等等。

    庆祝活动页面: http://www.linuxfoundation.org/20th/

    - 附:

    图:Linux 发展史上里程碑事件图

    发表在 Linux | 留下评论

    将现有的英文 WordPress 站点切换为中文

    下面步骤指导您将现有的英文 WordPress 站点切换为中文。

    1. 通过 FTP、SSH 等方式打开并编辑站点根目录下的 wp-config.php 文件。
    2. 查找 define('WPLANG', ''); 一行,在第二个参数处填入 zh_CN,变成 define('WPLANG', 'zh_CN'); 并保存文件。
    3. 进入站点控制板(dashboard),看到更新提示后进行升级即可。WordPress 会自动从官方网站下载中文语言包并安装。

    若您当前正在使用非官方的中文语言包,请您注意:非官方语言包通常会替换 WordPress 程序本身的升级部分,使 WordPress 通过第三方服务器升级,这可能有一定风险。若您不愿使用官方版本的语言包,请务必选择您信任的语言包。至于使用何种中文支持,完全由您自主选择。WordPress 并不会禁止您使用非官方语言包。当然,我们会认真处理您的批评和建议,欢迎联系我们

    如下是卸载非官方语言包、安装官方中文版本的通用步骤。请注意,如果您没有使用非官方版本的语言包,请不要进行下列操作。我们在这里假设您使用的非官方中文版本没有改动您的数据库:

    1. 备份数据库。
    2. 备份所有文件,并删除博客根目录下wp-config.php 之外的所有文件。请注意保留 wp-config.php
    3. 从 cn.wordpress.org 下载最新官方中文版本。解压缩并上传至站点根目录。
    4. (选做)比对 wp-config-sample.php 和留下的 wp-config.php:若 wp-config-sample.php 有新增的内容,请复制并按照说明填写;若留下的 wp-config.phpwp-config-sample.php 中的设置项还要多,请删除那些多余的项目。

    完成这些步骤,您就在使用官方版本了。我们对您的支持表示感谢。任何意见、建议?请查看“联系”页面

    发表在 WordPress, 行业新闻 | 留下评论