表达式模板及普通函数调用方式的效率差异为何是这种情况？

noahhu 2010-11-05 08:07:02

最近非常关心不同函数实现方式的效率差异。所以做了下面这组比较。比较的内容是三个Vector的连加，即

Y＝M1+M2+M3

本次比较采用的函数的实现方式包含如下5种：

T1-表达式模板方式实现的运算符重载，请注意这不是通常的运算符重符

T2-两两加法，按地址方式传递参数，以地址方式返回结果
vector& vector::add2(const vector& m1, const vector& m2);

T3-两两加法，按地址方式传递参数，以对象方式返回结果。这种方式相当于常用的运算符重载
friend vector add(const vector& m1, const vector& m2);

T4-直接写函数实现连加，以对象方式返回结果
friend vector addall(const vector&m1, const vector&m2, const vector &m3);

T5-直接写函数实现连加，以地址方式返回结果
vector& vector::addall2(const vector&m1, const vector&m2, const vector &m3);

大家是否能猜一下哪种法最快？哪种方法最慢？

根据网上查到的资料，表达式模板实现的运算符重载速度应该非常快，我原本觉得T1的速度应该是接近T4，结果却让自己大失所望。其耗时却是几种方法中最多的。实在想不出来它居然比常用的运算符重载的效率还低。这究竟是什么原因造成的呢？肯请各位高人指点迷津！

除了T1之后，其他方法的效率排序是 T5 > T4 > T2 > T3，该结果与起初的估计一致。由于实际做计算库的时候，采用T4和T5两种方式是不现实的，从测试结果看，T2可能是最可行的方式，这也是自己写运算库时所使用的方式。

需要说明的是，由于自己刚开始接触表达式模式，上述结果也有可能是程序设计方面的失误导致的。因此，给出了自己的测试程序，需要说明的是，这只是一段非常粗陋的代码，计算中甚至没有Vector的元素个数判断。但用于测试应该没有什么问题。

耗时结果如下：
T1:15
T2:9
T3:12
T4:8
T5:5
Press any key to continue . . .

源程序：
#include <cstdlib>
#include <iostream>
#include <time.h>

template <class T1, class T2>
class MatrixSum {
private:
const T1 &u; const T2 &v;
public:
MatrixSum(const T1 &u1, const T2 &v1):u(u1),v(v1) {};
int ndim() const {return u.get_dim();};
double operator [] (int i) const {return u[i]+v[i];};
};

template <class T1, class T2>
MatrixSum<T1, T2> operator + (const T1& m1, const T2 &m2) {
return MatrixSum<T1, T2>(m1, m2);
};

class vector
{
protected:
size_t dim;
double *ets;

public:

vector(size_t n, const double* const pd) : dim(n)
{
ets = new double[dim];
memcpy(ets, pd, dim*sizeof(double));
}

vector(size_t n = 0, double d = 0.0)
: dim(n)
{
ets = new double[dim];
for (size_t i=0; i<dim; ++i) {
ets[i] = d;
}
}

vector(const vector& v)
{
dim = v.dim;
ets = new double[dim];
memcpy(ets, v.ets, sizeof(double)*dim);
}

vector& operator=(const vector& v)
{
if (this != &v) { // 防止自己拷贝自己
if (dim != v.dim) {
exit(1);
}
memcpy(ets, v.ets, sizeof(double)*dim);
}
return *this;
}

template <class T1, class T2>
vector& operator=(const MatrixSum <T1, T2> &RES)
{
for (size_t i=0; i<dim; ++i) {
ets[i] = RES[i];
}
}

~vector()
{
delete[] ets;
}

public:
inline double operator[](size_t i) const { return ets[i];}

inline double& operator[](size_t i){return ets[i];}

size_t get_dim() const {return dim;}

double* get_ptr() const {return ets;}

vector& add2(const vector& m1, const vector& m2) {
for (unsigned i=0; i<dim; i++) ets[i]=m1.ets[i]+m2.ets[i];
return *this;
};

vector& addall2(const vector&m1, const vector&m2, const vector &m3) {
for (unsigned i=0; i<dim; i++) ets[i]=m1.ets[i]+m2.ets[i]+m3.ets[i];
return *this;
};

friend vector add(const vector& m1, const vector& m2);
friend vector addall(const vector&m1, const vector&m2, const vector &m3);
};

vector add(const vector& m1, const vector& m2) {
vector res(m1.get_dim(), 1.0);
for (unsigned i=0; i<res.dim; i++) res.ets[i]=m1.ets[i]+m2.ets[i];
return res;
}

vector addall(const vector&m1, const vector&m2, const vector &m3) {
vector res(m1.get_dim(), 1.0);
for (unsigned i=0; i<res.dim; i++) res.ets[i]=m1.ets[i]+m2.ets[i]+m3.ets[i];
return res;
};

void print (const vector& M) {
std::cout<<"["<<M.get_dim()<<"]"<<std::endl;
for (unsigned i=0; i<M.get_dim(); i++) std::cout<<M[i]<<" ";
std::cout<<std::endl;
}

using namespace std;

int main(int argc, char *argv[])
{
unsigned dim=50000, niter=9000, k;
vector m1(dim, 0.1), m2(dim, 0.2), m3(dim, 3.2),
m4(dim, 0.2), m5(dim, 0.8), m6(dim, 0.3), m7(dim, 2.2),
t1(dim, 0.1), t2(dim, 0.1), t3(dim, 0.1);

time_t t, t0; time(&t0);

for (k=0; k<niter; k++) m4=m1+m2+m3;
time(&t); std::cout<<"T1:"<<t-t0<<std::endl; t0=t;

for (k=0; k<niter; k++) m5=t2.add2(t1.add2(m1, m2), m3);
time(&t); std::cout<<"T2:"<<t-t0<<std::endl; t0=t;

for (k=0; k<niter; k++) m6=add(add(m1, m2), m3);
time(&t); std::cout<<"T3:"<<t-t0<<std::endl; t0=t;

for (k=0; k<niter; k++) m7=addall(m1, m2, m3);
time(&t); std::cout<<"T4:"<<t-t0<<std::endl; t0=t;

for (k=0; k<niter; k++) m7=t1.addall2(m1, m2, m3);
time(&t); std::cout<<"T5:"<<t-t0<<std::endl; t0=t;

system("PAUSE");
return EXIT_SUCCESS;
}

...全文

168 10 打赏收藏转发到动态举报

写回复

用AI写文章

10 条回复

切换为时间正序

请发表友善的回复…

发表回复

noahhu 2010-11-11

打赏
举报

非常感谢！我再试试。

[Quote=引用 9 楼 hastings 的回复:]

C/C++ code
给你我的测试：
typedef std::valarray<double> ValArray1; //std::valarray是STL的一部分
typedef Array<double> ValArray2; //表达式模板
const size_t cnt = 5000000;
void TestArray1()
{
clock_t t = clock();
……
[/Quote]

noahhu 2010-11-09

打赏
举报

以运算符重载的方式来调用函数，我也是比较熟悉的。但是这个帖子关心的内容，并不是如何方便、或更优美地调用函数，而是关心不同形式函数调用的效率。

这里所说的效率，并不是指写程序是否更省事，或代码更漂亮；而是说完成特定的工作量，程序的能否耗时更少。

这段代码虽然短小，且功能只实现了三个Vector的连加，但实际，它是用来验证五种不同的连加实现方法。同一段程序中，由于用表达式模板实现了运算符重载，其他调用方法只能采用传统的笨方法实现，这也是不得以而为之的事情。

[Quote=引用 5 楼 hastings 的回复:]
LZ, 你没发现你的调用方法很笨拙吗？居然以函数的形式然调用。
比较一下下面的调用方式，你会发现表达式想要多长就多长，这时的效率就体现出来了：

C/C++ code
int main(int argc, char *argv[])
{
clock_t t = clock();
srand(time(0));
const size_t cnt = 100……
[/Quote]

noahhu 2010-11-09

打赏
举报

由于只是很匆忙地写了这个代码，只是想用它来验证表达式模板的执行效率。这个的确是漏掉了，非常感谢。

[Quote=引用 4 楼 dizuo 的回复:]
C/C++ code
template <class T1, class T2>
vector& operator=(const MatrixSum <T1, T2> &RES)
{
for (size_t i=0; i<dim; ++i) {
ets[i] = RES[i];
}
}

没有返回*this;
容器类型的计算，lz可以……
[/Quote]

hastings 2010-11-09

打赏
举报

给你我的测试：

typedef std::valarray<double> ValArray1; //std::valarray是STL的一部分

typedef Array<double> ValArray2; //表达式模板

const size_t cnt = 5000000;

void TestArray1()

{

	clock_t t = clock();

	ValArray1 x(cnt), y(cnt), z(cnt);

	for (size_t idx = 0;idx < cnt;++idx)

	{

		x[idx] = rand() % 2010;

		y[idx] = rand() % 2010;

		z[idx] = rand() % 2010;

	}

	x = 3. * x / 7. * 5. + x * (3. - y / z - 2.) - z / (x * 2. + y * z / x / (7. / x + 11.));

	cout<<"普通耗时："<<clock()-t<<'\n';

}

void TestArray2()

{

	clock_t t = clock();

	ValArray2 x(cnt), y(cnt), z(cnt);

	for (size_t idx = 0;idx < cnt;++idx)

	{

		x[idx] = rand() % 2010;

		y[idx] = rand() % 2010;

		z[idx] = rand() % 2010;

	}

	x = 3. * x / 7. * 5. + x * (3. - y / z - 2.) - z / (x * 2. + y * z / x / (7. / x + 11.));

	cout<<"表达式模板耗时："<<clock()-t<<'\n';

}

int main()

{

	srand(time(0));

	TestArray1();

	TestArray2();

	return 0;

}

VS2010测试：



Debug：

普通耗时：29969

表达式模板耗时：4203



Release:

普通耗时：13656

表达式模板耗时：1938



//其中普通计算时，耗费内存直线飙升，原因你懂的。

hastings 2010-11-06

打赏
举报

想要编译通过5楼的代码，得结合2楼的链接，并补上减法和除法等的辅助类。

hastings 2010-11-06

打赏
举报

LZ, 你没发现你的调用方法很笨拙吗？居然以函数的形式然调用。
比较一下下面的调用方式，你会发现表达式想要多长就多长，这时的效率就体现出来了：

int main(int argc, char *argv[])

{

    clock_t t = clock();

    srand(time(0));

    const size_t cnt = 1000000;

    Array<double> x(cnt),y(cnt);

    Array<double,std::vector<double> > z(cnt);

    for(size_t i(0);i!=cnt;++i)

    {

        x[i] = rand()%2010;

        y[i] = rand()%2010;

        z[i] = rand()%2010;

    }

    x = 2.3*x/(z+5.7*y/x/7.9)-3.*(z-x*2.5+11.3-3.7/y);//这里

    cout<<clock()-t<<'\n';

    return 0;

}

ryfdizuo 2010-11-06

打赏
举报

template <class T1, class T2>

  vector& operator=(const MatrixSum <T1, T2> &RES)  

  {

  for (size_t i=0; i<dim; ++i) {

  ets[i] = RES[i];

  }

  }

没有返回*this;
容器类型的计算，lz可以看看基于cuda的并行加速。

noahhu 2010-11-05

打赏
举报

最近我也查了些资料，这段代码中只包含加法及加法的辅助类。因为如果这种方式的运算不能为计算效率带来明显的提高，那么对我来说就没有深究下去的必要了。此外，其他运算与加法也没有什么本质区别。所以，这段示例代码只包含了加法运算。虽然，它只是我现有代码的一部分，不过对于比较运算效率来说，已经足够了。

我把它发上来，一是，想请高位看看这种效率是否与想像得不一样；二是，是否我自己代码有问题。期望能各位朋友对大数据容量类，运算效率提高等方面给在下提一些建议。

[Quote=引用 1 楼 hastings 的回复:]

我记得还要复杂的多呀~~还需要储存加减乘除关系的辅助类~~
[/Quote]

hastings 2010-11-05