使用多线程主要是因为它在执行效率上有很大优势。由于线程是操作系统能够进行调度的最小单位:
一个多线程程序比单线程程序被操作系统调度的概率更大,所以多线程程序一般会比单线程程序更高效;
多线程程序的多个线程可以在多核CPU的多个核心同时运行,可以将完全发挥机器多核的优势;
同时对比多进程程序,多线程有以下特点:
线程的创建和切换的系统开销都比进程要小,所以一定程度上会比多进程更高效;
线程天生的共享内存空间,线程间的通信更简单,避免了进程IPC引入新的复杂度。
适用场景
多线程的优化是很多,可是无脑使用多线程并不能提升程序的执行效率,因为线程的创建和销毁、上下文切换、线程同步等也是有性能损耗的,耗费时间可能比顺序执行的代码还多。如:sumSmall是一个从1累加到50000的函数。
上图是在主线程内执行了三次sumSmall和三个线程分别执行sumSmall,再将结果同步到一个线程的时间对比,我们会发现只在主线程执行的时间反而更短,三个线程创建、切换、同步的时间远远大过了线程异步执行节省的时间。
而函数sumLarge从1累加到5000000,下图同一线程执行三次和三个线程执行的耗时:
这次,多线程终于有效率优势了。
是否使用多线程还需要根据具体需求而定,一般考虑以下两种情况:
I/O阻塞会使操作系统发生任务调度,阻塞当前任务,所以代码中I/O多的情况下,使用多线程时可以将代码并行。例如多次读整块的文件,或请求多个网络资源。
多线程能充分利用CPU,所以有多处大计算量代码时,也可以使用多线程使他们并行执行,例如上文中后一个例子。
PHP中的多线程
PHP默认并不支持多线程,要使用多线程需要安装pthread扩展,而要安装pthread扩展,必须使用--enable-maintainer-zts参数重新编译PHP,这个参数是指定编译PHP时使用线程安全方式。
线程安全
多线程是让程序变得不安分的一个因素,在使用多线程之前,首先要考虑线程安全问题:
线程安全:线程安全是编程中的术语,指某个函数、函数库在多线程环境中被调用时,能够正确地处理多个线程之间的共享变量,使程序功能正确完成。
在传统多线程中,由于多个线程共享变量,所以可能会导致出现如下问题:
1存在一个全局数组$arr=array('a');
2 A线程获取数组长度为1;
3 B线程获取数组长度为1;
4 A线程pop出数组元素$a=array_pop($arr);$a='a';
5 B线程也pop数组元素$b=array_pop($arr);$a=null;
6此时B线程内就出现了灵异事件,明明数组长度大于0,或没有pop出东西;
PHP实现
PHP实现的线程安全主要是使用TSRM机制对全局变量和静态变量进行了隔离,将全局变量和静态变量给每个线程都复制了一份,各线程使用的都是主线程的一个备份,从而避免了变量冲突,也就不会出现线程安全问题。
PHP对多线程的封装*了线程安全,程序员不用考虑对全局变量加各种锁来避免读写冲突了,同时也减少了出错的机会,写出的代码更加安全。
但由此导致的是,子线程一旦开始运行,主线程便无法再对子线程运行细节进行调整了,线程一定程度上失去了线程之间通过全局变量进行消息传递的能力。
同时PHP开启线程安全选项后,使用TSRM机制分配和使用变量时也会有额外的损耗,所以在不需要多线程的PHP环境中,使用PHP的ZTS(非线程安全)版本就好。
类和方法
PHP将线程封装成了Thread类,线程的创建通过实例化一个线程对象来实现,由于类的封装性,变量的使用只能通过构造函数传入,而线程运算结果也需要通过类变量传出。
下面介绍几个常用的Thread类方法:
run():此方法是一个抽象方法,每个线程都要实现此方法,线程开始运行后,此方法中的代码会自动执行;
start():在主线程内调用此方法以开始运行一个线程;
join():各个线程相对于主线程都是异步执行,调用此方法会等待线程执行结束;
kill():强制线程结束;
isRunning():返回线程的运行状态,线程正在执行run()方法的代码时会返回true;
因为线程安全的实现,PHP的多线程开始运行后,无法再通过共享内存空间通信,线程也无法通过线程间通信复用,所以我认为PHP的“线程池”并没有什么意义。扩展内自带的Pool类是一个对多线程分配管理的类,这里也不再多介绍了。
实例代码
下面是一个线程类,用来请求某一接口。接下来根据它写两个多线程的应用实例:
class Request extends Thread{
public$url;
public$response;
public function __construct($url){
$this->url=$url;
}
public function run(){
$this->response=file_get_contents($this->url);
}
}
异步请求
将同步的请求拆分为多个线程异步调用,以提升程序的运行效率。
$chG=new Request("www.google.com");
$chB=new Request("www.baidu.com");
$chG->start();
$chB->start();
$chG->join();
$chB->join();
$gl=$chG->response;
$bd=$chB->response;
超时控制
偶然间发现公司网站某一网页上的一块内容时有时无,不知道具体实现,但这给了我使用多线程的灵感:利用线程异步实现快速失败和超时控制。
我们在使用curl请求某个地址时,可以通过CURLOPT_CONNECTTIMEOUT/CURLOPT_TIMEOUT参数分别设置curl的连接超时时间和读取数据超时时间,但总的超时时间不好控制。而且在进行数据库查询时的超时时间无法设置。
这时我们便可以借用多线程来实现此功能:在执行线程类的start()方法后,不调用join()方法,使线程一直处于异步状态,不阻塞主线程的执行。
此时主线程相当于旗舰,而各子线程相当于巡航舰,旗舰到达某地后不必要一直等待巡航舰也归来,等待一段时间后离开即可,从而避免巡航舰意外时旗舰白白空等。
代码:
$chG=new Request("www.google.com");
$chB=new Request("www.baidu.com");
$chG->start();
$chB->start();
$chB->join();
//此处不对chG执行join方法
sleep(1);//sleep一个能接受的超时时间
$gl=$chG->response;
$bd=$chB->response;
$bd->kill();
if(!$gl){
$gl="";//处理异常,或在线程类内给$gl一个默认值
}