cabac-a.asm
上传用户:lctgjx
上传日期:2022-06-04
资源大小:8887k
文件大小:4k
源码类别:

流媒体/Mpeg4/MP4

开发平台:

Visual C++

  1. ;*****************************************************************************
  2. ;* cabac-a.asm: h264 encoder library
  3. ;*****************************************************************************
  4. ;* Copyright (C) 2008 x264 project
  5. ;*
  6. ;* Author: Loren Merritt <lorenm@u.washington.edu>
  7. ;*         Jason Garrett-Glaser <darkshikari@gmail.com>
  8. ;*
  9. ;* This program is free software; you can redistribute it and/or modify
  10. ;* it under the terms of the GNU General Public License as published by
  11. ;* the Free Software Foundation; either version 2 of the License, or
  12. ;* (at your option) any later version.
  13. ;*
  14. ;* This program is distributed in the hope that it will be useful,
  15. ;* but WITHOUT ANY WARRANTY; without even the implied warranty of
  16. ;* MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the
  17. ;* GNU General Public License for more details.
  18. ;*
  19. ;* You should have received a copy of the GNU General Public License
  20. ;* along with this program; if not, write to the Free Software
  21. ;* Foundation, Inc., 51 Franklin Street, Fifth Floor, Boston, MA  02111, USA.
  22. ;*****************************************************************************
  23. %include "x86inc.asm"
  24. SECTION_RODATA
  25. SECTION .text
  26. cextern x264_cabac_range_lps
  27. cextern x264_cabac_transition
  28. cextern x264_cabac_renorm_shift
  29. ; t3 must be ecx, since it's used for shift.
  30. %ifdef WIN64
  31.     DECLARE_REG_TMP 3,1,2,0,4,5,6,10
  32.     %define pointer resq
  33. %elifdef ARCH_X86_64
  34.     DECLARE_REG_TMP 0,1,2,3,4,5,6,10
  35.     %define pointer resq
  36. %else
  37.     DECLARE_REG_TMP 0,3,2,1,4,5,6,3
  38.     %define pointer resd
  39. %endif
  40. struc cb
  41.     .low: resd 1
  42.     .range: resd 1
  43.     .queue: resd 1
  44.     .bytes_outstanding: resd 1
  45.     .start: pointer 1
  46.     .p: pointer 1
  47.     .end: pointer 1
  48.     align 16, resb 1
  49.     .bits_encoded: resd 1
  50.     .state: resb 460
  51. endstruc
  52. %macro LOAD_GLOBAL 4
  53. %ifdef PIC
  54.     ; this would be faster if the arrays were declared in asm, so that I didn't have to duplicate the lea
  55.     lea   r11, [%2 GLOBAL]
  56.     %ifnidn %3, 0
  57.     add   r11, %3
  58.     %endif
  59.     movzx %1, byte [r11+%4]
  60. %else
  61.     movzx %1, byte [%2+%3+%4]
  62. %endif
  63. %endmacro
  64. cglobal x264_cabac_encode_decision_asm, 0,7
  65.     movifnidn t0,  r0mp
  66.     movifnidn t1d, r1m
  67.     mov   t5d, [t0+cb.range]
  68.     movzx t3d, byte [t0+cb.state+t1]
  69.     mov   t4d, t5d
  70.     shr   t5d, 6
  71.     LOAD_GLOBAL t5d, x264_cabac_range_lps-4, t5, t3*4
  72.     sub   t4d, t5d
  73.     mov   t6d, t3d
  74.     shr   t6d, 6
  75.     movifnidn t2d, r2m
  76.     cmp   t6d, t2d
  77.     mov   t6d, [t0+cb.low]
  78.     lea   t7,  [t6+t4]
  79.     cmovne t4d, t5d
  80.     cmovne t6d, t7d
  81.     LOAD_GLOBAL t3d, x264_cabac_transition, t2, t3*2
  82.     movifnidn t1d, r1m
  83.     mov   [t0+cb.state+t1], t3b
  84. .renorm:
  85.     mov   t3d, t4d
  86.     shr   t3d, 3
  87.     LOAD_GLOBAL t3d, x264_cabac_renorm_shift, 0, t3
  88.     shl   t4d, t3b
  89.     shl   t6d, t3b
  90.     add   t3d, [t0+cb.queue]
  91.     mov   [t0+cb.range], t4d
  92.     mov   [t0+cb.low], t6d
  93.     mov   [t0+cb.queue], t3d
  94.     cmp   t3d, 8
  95.     jge .putbyte
  96.     REP_RET
  97. .putbyte:
  98.     ; alive: t0=cb t3=queue t6=low
  99.     add   t3d, 2
  100.     mov   t1d, 1
  101.     mov   t2d, t6d
  102.     shl   t1d, t3b
  103.     shr   t2d, t3b ; out
  104.     dec   t1d
  105.     sub   t3d, 10
  106.     and   t6d, t1d
  107.     cmp   t2b, 0xff ; FIXME is a 32bit op faster?
  108.     mov   [t0+cb.queue], t3d
  109.     mov   [t0+cb.low], t6d
  110.     mov   t1d, t2d
  111.     mov   t4,  [t0+cb.p]
  112.     je .postpone
  113.     mov   t5d, [t0+cb.bytes_outstanding]
  114.     shr   t1d, 8 ; carry
  115.     add   [t4-1], t1b
  116.     test  t5d, t5d
  117.     jz .no_outstanding
  118.     dec   t1d
  119. .loop_outstanding:
  120.     mov   [t4], t1b
  121.     inc   t4
  122.     dec   t5d
  123.     jg .loop_outstanding
  124. .no_outstanding:
  125.     mov   [t4], t2b
  126.     inc   t4
  127.     mov   [t0+cb.bytes_outstanding], t5d ; is zero, but a reg has smaller opcode than an immediate
  128.     mov   [t0+cb.p], t4
  129.     RET
  130. .postpone:
  131.     inc   dword [t0+cb.bytes_outstanding]
  132.     RET