矩阵乘的性能问题

sirlii2016 2016-10-24 09:25:47

矩阵乘实现的性能问题.
下面代码示例的两个矩阵乘实现, 一个是gemm_nt, 行列乘; 一个是gemm_nn, 行行乘. 计算量看上去是一样的,
但实测性能一个天上一个地下, 有近7倍+的差距.
在我的电脑上, release模式下, 一个是4.89s, 一个是32.35ms.
我看了一下汇编, 两者也接近, 那为什么会有如此之大的性能差别呢?

#include "stdafx.h"
#include <stdlib.h>
#include <stdio.h>
#include <math.h>
#include <time.h>

float *random_matrix(int rows, int cols)
{
int i;
float *k = (float *)calloc(rows*cols, sizeof(float));
for(i = 0; i < rows*cols; ++i){
k[i] = (float)rand()/RAND_MAX;
}
return k;
}

void gemm_nn(int M, int N, int K, float ALPHA,
float *A, int lda,
float *B, int ldb,
float *C, int ldc)
{
int i,j,k;
for(i = 0; i < M; ++i){
for(k = 0; k < K; ++k){
register float A_PART = ALPHA*A[i*lda+k];
for(j = 0; j < N; ++j){
C[i*ldc+j] += A_PART*B[k*ldb+j];
}
}
}
}

void gemm_nt(int M, int N, int K, float ALPHA,
float *A, int lda,
float *B, int ldb,
float *C, int ldc)
{
int i,j,k;
for(i = 0; i < M; ++i){
for(j = 0; j < N; ++j){
register float sum = 0;
for(k = 0; k < K; ++k){
sum += ALPHA*A[i*lda+k]*B[j*ldb + k];
}
C[i*ldc+j] += sum;
}
}
}

#define _DIM 1000
#define _NUM 10
int _tmain(int argc, _TCHAR* argv[])
{
float *a = random_matrix(_DIM,_DIM);
int lda = _DIM;
float *b = random_matrix(_DIM,_DIM);
int ldb = _DIM;
float *c = random_matrix(_DIM,_DIM);

int i;
clock_t start;

start = clock();
for(i = 0; i<_NUM; ++i){
gemm_nn(_DIM,_DIM,_DIM,1,a,lda,b,ldb,c,_DIM);
}
printf("gemm_nn = %lf s\n",(float)(clock()-start)/CLOCKS_PER_SEC);

start = clock();
for(i = 0; i<_NUM; ++i){
gemm_nt(_DIM,_DIM,_DIM,1,a,lda,b,ldb,c,_DIM);
}
printf("gemm_nt = %lf s\n",(float)(clock()-start)/CLOCKS_PER_SEC);

free(a);
free(b);
free(c);
return 0;
}

...全文

271 4 打赏收藏转发到动态举报

写回复

4 条回复

切换为时间正序

请发表友善的回复…

发表回复

和我赛跑的人 2016-10-28

打赏
举报

回复

大循环在内小循环在外效率高于小循环在内大循环在外。去看C++汇编解密

日立奔腾浪潮微软松下联想 2016-10-24

打赏
举报

回复

gemm_nt中计算了M*N*K次ALPHA*A[i*lda+k]

日立奔腾浪潮微软松下联想 2016-10-24

打赏
举报

回复

两者并不等价， gemm_nn中计算了M*K次A_PART = ALPHA*A[i*lda+k]; gemm_n中计算了M*N*K次ALPHA*A[i*lda+k]

paschen 2016-10-24

打赏
举报

回复

这涉及到 cpu cache 优化

代码下载地址： https://pan.quark.cn/s/30aac9886e4b 【汉字录入能力评估平台】是中国邮政为了增强员工汉字输入的效率与精确度而研发的一款专业化训练与考核平台。该平台主要面向中国邮政服务窗口工作人员的岗前培训，致力于保障工作人员在实际操作中能够迅速且精准地处理各类文字资料，进而优化邮政服务的效能与品质。文字录入作为邮政作业中的核心技能，在数字化时代背景下尤为重要，邮政柜员需处理大量电子化文档及电子邮件，卓越的文字输入技巧直接关联到业务流程的连贯性。该平台整合了训练与测试两大核心功能，为用户构建了一个全方位提升汉字输入技巧的环境。平台的训练模块可能具备以下特征：1. **入门级训练**：提供不同难度的汉字及词汇组合，引导用户从基础开始，逐步强化录入速度。2. **情境化模拟**：重现真实的邮政作业场景，让实践者于近似现实的工作状态下进行练习，提升环境适应力。3. **速录强化**：运用计时及计字量机制，要求用户在限定时段内尽可能多地完成汉字输入，以锻炼高速录入能力。4. **偏差修正**：系统将实时识别并反馈用户的输入偏差，协助用户纠正不良输入习惯，提升正确度。5. **定制化配置**：或许允许用户依据个人需求调整训练内容与难度，实现个性化学习路径。测试模块则可能包含以下要素：1. **标准化测试**：确立统一的标准，例如规定时间内必须完成的汉字数量或必须达到的准确率，以此衡量用户汉字输入的熟练程度。2. **表现追踪**：记载每次测试的表现，形成历史数据，使用户能够追踪自身成长轨迹。3. **绩效对比**：或许设有内部绩效排行机制，让用户了解自身在团队中的相对位置，激发竞争心态。4. **资格认证**：对于达到特定标准的用户，平台可...

OSPFZONGHESHIYAN

科易网基于40亿+科创知识图谱数据库，深度探索AI技术在技术转移、成果转化、技术经纪、知识产权、产业创新、科技招商等垂直领域的多样化应用场景，研究科技创新领域的AI+数智化解决方案，推动科技创新与产业创新智能化发展

Powercolor RX5600 XT RedDevil BIOS image/flash utility The Radeon RX 5600 XT delivers the ultimate in high-performance, high-fidelity 1080p gameplay. For gamers that want to get additional performance out of their new graphics card, we are providing a VBIOS update that delivers higher levels of gaming performance for select overclocked SKUs. More than that, RX 5600 XT Red Devil and Red Dragon equip 6GB GDDR6 at 14Gbps memory for the most demanding gamers! They are born for 1080p gaming! Please download the tuned BIOS to unleash your RX 5600 XT Red Devil & Red Dragon.

内容概要：本文围绕售电市场环境下电力用户选择售电公司的行为展开深入研究，通过构建数学模型与博弈分析框架，系统探讨用户在不同电价机制、服务质量、合同条款及风险偏好等因素影响下的决策行为与选择偏好。研究采用Matlab作为仿真平台，结合实证数据或设定典型场景，运用主从博弈、多智能体模拟、优化算法等方法，模拟电力市场中多方主体之间的交互过程，重点分析售电公司定价策略、激励机制与用户响应之间的动态关系，揭示市场主体间的行为演化规律与均衡机制，旨在为电力市场化改革中的机制设计、市场监管与政策制定提供理论支撑与量化依据。; 适合人群：具备一定电力系统基础知识、微观经济学或博弈论理论背景，熟悉Matlab编程与数值仿真的科研人员、高校研究生及能源领域相关从业者。; 使用场景及目标【EI复现】售电市场环境下电力用户选择售电公司行为研究（Matlab代码实现）：①掌握电力市场中用户购电行为建模与效用函数设计方法；②熟练运用Matlab实现博弈模型构建、多智能体仿真与市场均衡求解；③深入理解售电侧市场竞争机制，为售电公司制定差异化营销策略、政府设计用户激励政策及提升市场运营效率提供决策支持。; 阅读建议：此资源以Matlab代码实现为核心，建议读者结合文档说明逐步运行并调试代码，通过调整模型参数（如电价水平、服务权重、用户敏感度等）观察仿真结果的变化，深入理解模型内在逻辑与行为机理；同时鼓励在此基础上拓展至多类型用户群体、引入不确定性因素或结合实际数据进行案例验证，以增强研究的实用性与创新性。

70,038

社区成员

243,247

社区内容

发帖

与我相关

我的任务

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

社区公告

暂无公告

试试用AI创作助手写篇文章吧

+ 用AI写文章