以下代码，如何让它更高效?(换成指针是不是更高效?)

以下代码，如何让它更高效?(换成指针是不是更高效?)unsigned char temp_buffer;
unsigned char yuvBuffer_1024_768[1024 * 768 * 2] = {0};
m_dwImageWidth = 1024;
m_dwImageHeight = 768;for(count = 0; count < m_dwImageWidth * m_dwImageHeight * 2; count += 4)
{
// 1<-->3换位
temp_buffer = yuvBuffer_1024_768[count];
yuvBuffer_1024_768[count] = yuvBuffer_1024_768[count+2];
yuvBuffer_1024_768[count+2] = temp_buffer;
}

解决方案 »

免费领取超大流量手机卡，每月29元包185G流量+100分钟通话, 中国电信官方发货

for 循环，定义一个 n = m_dwImageWidth * m_dwImageHeight * 2，然后使用 count < n；至少 Debug 版本会更快。
unsigned char temp_buffer;
unsigned char yuvBuffer_1024_768[1024 * 768 * 2] = {0};
m_dwImageWidth = 1024;
m_dwImageHeight = 768;unsigned long *tmp = (unsigned long*)yuvBuffer_1024_768;for(count = 0; count < m_dwImageWidth * m_dwImageHeight / 2; ++count)
{
// 1<-->3换位
tmp[count] = (tmp[count]&0x00FF00FF)&((tmp[count]&0xFF000000)>>16)&((tmp[count]&0xFF00)<<16);
}
错了
应该是
tmp[count] = (tmp[count]&0x00FF00FF)|((tmp[count]&0xFF000000)>>16)|((tmp[count]&0xFF00)<<16);用或不用与
1，32位以上cpu，每次计算4字节比每次1字节速度快4倍
2，位运算release下不需要多余的存储内存，结果通常在寄存器里，不使用临时内存，比使用临时变量要快，比使用cpu缓存也快
3，5次位运算+1次mov的速度远远 > (3次mov+2次add)*4, 而且for循环次数降低为1/4
tmp[count] = (tmp[count]&0x00FF00FF)|((tmp[count]&0xFF000000)>>16)|((tmp[count]&0xFF00)<<16);这个啥意思,大侠指点下
四个字节，&0x00FF00FF  表示 0，2 字节不动其它的，你明白了？