yuv 到 32 位 rgb 的快速转换算法基mmx 实现

技术2022-05-11 142

/// baojinlong@sohu.com

// if have any problem, contact me.

// the asm function nearly have the same speed as mmx!

/// asm code

unsigned char *clip;

void init_clip(){ unsigned char *p; p=(unsigned char*)malloc(2048); clip=p+1024; for (int i=-1024;i<1024;i++) { clip[i]=(i>=0)? ((i<=255)?i:255):0; }}

// r=1.164(y-16)+1.596(v-128)// g=1.164(y-16)-0.391(u-128)-0.813(v-128)// b=1.164(y-16)+2.018(u-128)

const static int p_1164 = 75; const static int p_1596 = 102; const static int p_0391 = 25; const static int p_0813 = 52; const static int p_2018 = 129;

const static int ooffooff=0x00ff00ff;const static int ffooffoo=0xff00ff00;

const static short p_223[]= {25632,25632};const static short p_135[]= {4349,4349};const static short p_277[]= { 23906,23906};

void paroll_yuv2rgb(unsigned char *y, unsigned char *u, unsigned char *v, unsigned char *r, int h , int w){// h: height of y matrix// w: width of y matrix// chroma type:: must be 420

// r=1.164*y + 1.596*v -223// g=1.164*y - 0.391*u - 0.813*v +135.9// b=1.164*y + 2.018*u -276.93

int py1164_20; int py1164_31; int pv1596; int pv0813; int pu0391; int pu2018;int pr20,pr31,pg20,pg31,pb20,pb31;

int rw=w<<2;int rws16=rw-16;int lw=w>>2;int lh=h>>1;int lw0=lw;int iclip=(int)clip;

__asm { mov esi,yllw: mov edi,v

add [v],2

movzx ebx,byte ptr [edi] movzx eax,byte ptr [edi+1]

mov edi,u add [u],2

shl eax,16 or eax,ebx // 00 v1 00 v0

movzx ecx,byte ptr [edi+1]

mov ebx,eax mul [p_0813] shl ecx,16 mov [pv0813],eax mov eax,ebx mul dword ptr p_1596

movzx ebx,byte ptr [edi]

mov [pv1596],eax

mov eax,ecx or eax,ebx // 00 u1 00 u0

mov ecx,[esi] // y3 y2 y1 y0

mov ebx,eax mul dword ptr p_0391

mov edi,ecx

mov [pu0391],eax

mov eax,ebx mul dword ptr p_2018

and ecx,ooffooff // 0 y2 0 y0 mov [pu2018],eax

mov eax,ecx mul [p_1164] // y2 y0 and edi,ffooffoo // y3 0 y1 0 mov [py1164_20],eax mov eax,edi shr eax,8 // 0 y3 0 y2

mul [p_1164] // y3 y1

mov ecx,[pv1596]

mov ebx,[py1164_20]

mov edx,dword ptr p_223

mov [py1164_31],eax

add eax,ecx add ebx,ecx shr eax,1 shr ebx,1 add eax,edx add ebx,edx shl eax,1 shl ebx,1

mov [pr31],eax // r3 r1 mov [pr20],ebx // r2 r0

mov ecx,[pu2018] mov eax,[py1164_20] mov ebx,[py1164_31] mov edx,dword ptr [p_277] add eax,ecx add ebx,ecx shr eax,1 shr ebx,1 add eax,edx add ebx,edx shl eax,1 shl ebx,1 mov [pb20],eax mov [pb31],ebx

mov eax,[py1164_20] mov ebx,[py1164_31] mov ecx,[pu0391] mov edx,[pv0813] shr eax,1 shr ebx,1 shr ecx,1 shr edx,1 sub eax,ecx sub ebx,ecx mov ecx,dword ptr [p_135] sub eax,edx sub ebx,edx add eax,ecx add ebx,ecx shl eax,1 shl ebx,1 mov [pg20],eax mov [pg31],ebx

// clip and output mov edi,r

lea edx, [pr20] mov ecx,iclip movsx eax,word ptr [edx] movsx ebx,word ptr [edx+2] sar eax,6 sar ebx,6 add eax,ecx add ebx,ecx

xor ecx,ecx xor edx,edx mov cl,[eax] // r0 mov dl,[ebx] // r2 mov [edi+2],cl mov [edi+10],dl

lea edx,[pr31] mov ecx,iclip movsx eax,word ptr [edx] movsx ebx,word ptr [edx+2] sar eax,6 sar ebx,6 add eax,ecx add ebx,ecx

xor ecx,ecx xor edx,edx mov cl,[eax] // r1 mov dl,[ebx] // r3 mov [edi+6],cl mov [edi+14],dl

lea edx,[pg20] mov ecx,iclip movsx eax,word ptr [edx] movsx ebx,word ptr [edx+2] sar eax,6 sar ebx,6 add eax,ecx add ebx,ecx

xor ecx,ecx xor edx,edx mov cl,[eax] // g0 mov dl,[ebx] // g2 mov [edi+1],cl mov [edi+9],dl

lea edx,[pg31] mov ecx,iclip movsx eax,word ptr [edx] movsx ebx,word ptr [edx+2] sar eax,6 sar ebx,6 add eax,ecx add ebx,ecx

xor ecx,ecx xor edx,edx mov cl,[eax] // g1 mov dl,[ebx] // g3 mov [edi+5],cl mov [edi+13],dl

lea edx,[pb20] mov ecx,iclip movsx eax,word ptr [edx] movsx ebx,word ptr [edx+2] sar eax,6 sar ebx,6 add eax,ecx add ebx,ecx

xor ecx,ecx xor edx,edx mov cl,[eax] // b0 mov dl,[ebx] // b2 mov [edi],cl mov [edi+8],dl

lea edx,[pb31] mov ecx,iclip movsx eax,word ptr [edx] movsx ebx,word ptr [edx+2] sar eax,6 sar ebx,6 add eax,ecx add ebx,ecx

xor ecx,ecx xor edx,edx mov cl,[eax] // b1 mov dl,[ebx] // b3

mov ebx,rw add esi,w add [r],ebx mov eax,[esi] // y3 y2 y1 y0

mov [edi+4],cl mov [edi+12],dl

// next row of y mov ebx,eax and eax,ooffooff // 0 y2 0 y0 mul [p_1164] and ebx,ffooffoo // y3 0 y1 0 shr ebx,8 mov [py1164_20],eax mov eax,ebx

mul [p_1164]

mov ecx,pv1596

mov ebx,py1164_20 mov edx,dword ptr p_223

mov [py1164_31],eax

add eax,ecx add ebx,ecx shr eax,1 shr ebx,1 add eax,edx add ebx,edx shl eax,1 shl ebx,1 mov [pr31],eax // r3 r1 mov [pr20],ebx // r2 r0

mov ecx,[pu0391] mov eax,[py1164_20] mov ebx,[py1164_31] mov edx,[pv0813] shr ecx,1 shr eax,1 shr ebx,1 shr edx,1 sub eax,ecx sub ebx,ecx mov ecx,dword ptr [p_135] sub eax,edx sub ebx,edx add eax,ecx add ebx,ecx shl eax,1 shl ebx,1 mov [pg20],eax mov [pg31],ebx

// clip and output mov edi,r

lea edx,[pr20] mov ecx,iclip movsx eax,word ptr [edx] movsx ebx,word ptr [edx+2] sar eax,6 sar ebx,6 add eax,ecx add ebx,ecx