sqr_diagonal.asm
上传用户:qaz666999
上传日期:2022-08-06
资源大小:2570k
文件大小:7k
- dnl SPARC v9 64-bit mpn_sqr_diagonal.
- dnl Copyright 2001, 2002 Free Software Foundation, Inc.
- dnl This file is part of the GNU MP Library.
- dnl The GNU MP Library is free software; you can redistribute it and/or modify
- dnl it under the terms of the GNU Lesser General Public License as published
- dnl by the Free Software Foundation; either version 3 of the License, or (at
- dnl your option) any later version.
- dnl The GNU MP Library is distributed in the hope that it will be useful, but
- dnl WITHOUT ANY WARRANTY; without even the implied warranty of MERCHANTABILITY
- dnl or FITNESS FOR A PARTICULAR PURPOSE. See the GNU Lesser General Public
- dnl License for more details.
- dnl You should have received a copy of the GNU Lesser General Public License
- dnl along with the GNU MP Library. If not, see http://www.gnu.org/licenses/.
- include(`../config.m4')
- C cycles/limb
- C UltraSPARC 1&2: 22
- C UltraSPARC 3: 36
- C This was generated by the Sun C compiler. It runs at 22 cycles/limb on the
- C UltraSPARC-1/2, three cycles slower than theoretically possible for optimal
- C code using the same algorithm. For 1-3 limbs, a special loop was generated,
- C which causes performance problems in particular for 2 and 3 limbs.
- C Ultimately, this should be replaced by hand-written code in the same software
- C pipeline style as e.g., addmul_1.asm.
- ASM_START()
- REGISTER(%g2,#scratch)
- REGISTER(%g3,#scratch)
- PROLOGUE(mpn_sqr_diagonal)
- save %sp, -240, %sp
- sethi %hi(0x1ffc00), %o0
- sethi %hi(0x3ffc00), %o1
- add %o0, 1023, %o7
- cmp %i2, 4
- add %o1, 1023, %o4
- or %g0, %i1, %g1
- or %g0, %i0, %o0
- bl,pn %xcc, .Lsmall
- or %g0, 0, %g2
- ldx [%i1], %o1
- add %i1, 24, %g1
- or %g0, 3, %g2
- srlx %o1, 42, %g3
- stx %g3, [%sp+2279]
- and %o1, %o7, %o2
- stx %o2, [%sp+2263]
- srlx %o1, 21, %o1
- ldd [%sp+2279], %f0
- and %o1, %o7, %o1
- stx %o1, [%sp+2271]
- ldx [%i1+8], %o2
- fxtod %f0, %f12
- srlx %o2, 21, %o1
- and %o2, %o7, %g3
- ldd [%sp+2263], %f2
- fmuld %f12, %f12, %f10
- srlx %o2, 42, %o2
- ldd [%sp+2271], %f0
- and %o1, %o7, %o1
- fxtod %f2, %f8
- stx %o2, [%sp+2279]
- stx %o1, [%sp+2271]
- fxtod %f0, %f0
- stx %g3, [%sp+2263]
- fdtox %f10, %f14
- fmuld %f12, %f8, %f6
- ldx [%i1+16], %o2
- std %f14, [%sp+2255]
- fmuld %f0, %f0, %f2
- fmuld %f8, %f8, %f10
- srlx %o2, 42, %o1
- faddd %f6, %f6, %f6
- fmuld %f12, %f0, %f12
- fmuld %f0, %f8, %f8
- ldd [%sp+2279], %f0
- ldd [%sp+2263], %f4
- fdtox %f10, %f10
- std %f10, [%sp+2239]
- faddd %f2, %f6, %f6
- ldd [%sp+2271], %f2
- fdtox %f12, %f12
- std %f12, [%sp+2247]
- fdtox %f8, %f8
- std %f8, [%sp+2231]
- fdtox %f6, %f6
- std %f6, [%sp+2223]
- .Loop: srlx %o2, 21, %g3
- stx %o1, [%sp+2279]
- add %g2, 1, %g2
- and %g3, %o7, %o1
- ldx [%sp+2255], %g4
- cmp %g2, %i2
- stx %o1, [%sp+2271]
- add %g1, 8, %g1
- add %o0, 16, %o0
- ldx [%sp+2239], %o1
- fxtod %f0, %f10
- fxtod %f4, %f14
- ldx [%sp+2231], %i0
- ldx [%sp+2223], %g5
- ldx [%sp+2247], %g3
- and %o2, %o7, %o2
- fxtod %f2, %f8
- fmuld %f10, %f10, %f0
- stx %o2, [%sp+2263]
- fmuld %f10, %f14, %f6
- ldx [%g1-8], %o2
- fmuld %f10, %f8, %f12
- fdtox %f0, %f2
- ldd [%sp+2279], %f0
- fmuld %f8, %f8, %f4
- faddd %f6, %f6, %f6
- fmuld %f14, %f14, %f10
- std %f2, [%sp+2255]
- sllx %g4, 20, %g4
- ldd [%sp+2271], %f2
- fmuld %f8, %f14, %f8
- sllx %i0, 22, %i1
- fdtox %f12, %f12
- std %f12, [%sp+2247]
- sllx %g5, 42, %i0
- add %o1, %i1, %o1
- faddd %f4, %f6, %f6
- ldd [%sp+2263], %f4
- add %o1, %i0, %o1
- add %g3, %g4, %g3
- fdtox %f10, %f10
- std %f10, [%sp+2239]
- srlx %o1, 42, %g4
- and %g5, %o4, %i0
- fdtox %f8, %f8
- std %f8, [%sp+2231]
- srlx %g5, 22, %g5
- sub %g4, %i0, %g4
- fdtox %f6, %f6
- std %f6, [%sp+2223]
- srlx %g4, 63, %g4
- add %g3, %g5, %g3
- add %g3, %g4, %g3
- stx %o1, [%o0-16]
- srlx %o2, 42, %o1
- bl,pt %xcc, .Loop
- stx %g3, [%o0-8]
- stx %o1, [%sp+2279]
- srlx %o2, 21, %o1
- fxtod %f0, %f16
- ldx [%sp+2223], %g3
- fxtod %f4, %f6
- and %o2, %o7, %o3
- stx %o3, [%sp+2263]
- fxtod %f2, %f4
- and %o1, %o7, %o1
- ldx [%sp+2231], %o2
- sllx %g3, 42, %g4
- fmuld %f16, %f16, %f14
- stx %o1, [%sp+2271]
- fmuld %f16, %f6, %f8
- add %o0, 48, %o0
- ldx [%sp+2239], %o1
- sllx %o2, 22, %o2
- fmuld %f4, %f4, %f10
- ldx [%sp+2255], %o3
- fdtox %f14, %f14
- fmuld %f4, %f6, %f2
- std %f14, [%sp+2255]
- faddd %f8, %f8, %f12
- add %o1, %o2, %o2
- fmuld %f16, %f4, %f4
- ldd [%sp+2279], %f0
- sllx %o3, 20, %g5
- add %o2, %g4, %o2
- fmuld %f6, %f6, %f6
- srlx %o2, 42, %o3
- and %g3, %o4, %g4
- srlx %g3, 22, %g3
- faddd %f10, %f12, %f16
- ldd [%sp+2271], %f12
- ldd [%sp+2263], %f8
- fxtod %f0, %f0
- sub %o3, %g4, %o3
- ldx [%sp+2247], %o1
- srlx %o3, 63, %o3
- fdtox %f2, %f10
- fxtod %f8, %f8
- std %f10, [%sp+2231]
- fdtox %f6, %f6
- std %f6, [%sp+2239]
- add %o1, %g5, %o1
- fmuld %f0, %f0, %f2
- fdtox %f16, %f16
- std %f16, [%sp+2223]
- add %o1, %g3, %o1
- fdtox %f4, %f4
- std %f4, [%sp+2247]
- fmuld %f0, %f8, %f10
- fxtod %f12, %f12
- add %o1, %o3, %o1
- stx %o2, [%o0-48]
- fmuld %f8, %f8, %f6
- stx %o1, [%o0-40]
- fdtox %f2, %f2
- ldx [%sp+2231], %o2
- faddd %f10, %f10, %f10
- ldx [%sp+2223], %g3
- fmuld %f12, %f12, %f4
- fdtox %f6, %f6
- ldx [%sp+2239], %o1
- sllx %o2, 22, %o2
- fmuld %f12, %f8, %f8
- sllx %g3, 42, %g5
- ldx [%sp+2255], %o3
- fmuld %f0, %f12, %f0
- add %o1, %o2, %o2
- faddd %f4, %f10, %f4
- ldx [%sp+2247], %o1
- add %o2, %g5, %o2
- and %g3, %o4, %g4
- fdtox %f8, %f8
- sllx %o3, 20, %g5
- std %f8, [%sp+2231]
- fdtox %f0, %f0
- srlx %o2, 42, %o3
- add %o1, %g5, %o1
- fdtox %f4, %f4
- srlx %g3, 22, %g3
- sub %o3, %g4, %o3
- std %f6, [%sp+2239]
- std %f4, [%sp+2223]
- srlx %o3, 63, %o3
- add %o1, %g3, %o1
- std %f2, [%sp+2255]
- add %o1, %o3, %o1
- std %f0, [%sp+2247]
- stx %o2, [%o0-32]
- stx %o1, [%o0-24]
- ldx [%sp+2231], %o2
- ldx [%sp+2223], %o3
- ldx [%sp+2239], %o1
- sllx %o2, 22, %o2
- sllx %o3, 42, %g5
- ldx [%sp+2255], %g4
- and %o3, %o4, %g3
- add %o1, %o2, %o2
- ldx [%sp+2247], %o1
- add %o2, %g5, %o2
- stx %o2, [%o0-16]
- sllx %g4, 20, %g4
- srlx %o2, 42, %o2
- add %o1, %g4, %o1
- srlx %o3, 22, %o3
- sub %o2, %g3, %o2
- srlx %o2, 63, %o2
- add %o1, %o3, %o1
- add %o1, %o2, %o1
- stx %o1, [%o0-8]
- ret
- restore %g0, %g0, %g0
- .Lsmall:
- ldx [%g1], %o2
- .Loop0:
- and %o2, %o7, %o1
- stx %o1, [%sp+2263]
- add %g2, 1, %g2
- srlx %o2, 21, %o1
- add %g1, 8, %g1
- srlx %o2, 42, %o2
- stx %o2, [%sp+2279]
- and %o1, %o7, %o1
- ldd [%sp+2263], %f0
- cmp %g2, %i2
- stx %o1, [%sp+2271]
- fxtod %f0, %f6
- ldd [%sp+2279], %f0
- ldd [%sp+2271], %f4
- fxtod %f0, %f2
- fmuld %f6, %f6, %f0
- fxtod %f4, %f10
- fmuld %f2, %f6, %f4
- fdtox %f0, %f0
- std %f0, [%sp+2239]
- fmuld %f10, %f6, %f8
- fmuld %f10, %f10, %f0
- faddd %f4, %f4, %f6
- fmuld %f2, %f2, %f4
- fdtox %f8, %f8
- std %f8, [%sp+2231]
- fmuld %f2, %f10, %f2
- faddd %f0, %f6, %f0
- fdtox %f4, %f4
- std %f4, [%sp+2255]
- fdtox %f2, %f2
- std %f2, [%sp+2247]
- fdtox %f0, %f0
- std %f0, [%sp+2223]
- ldx [%sp+2239], %o1
- ldx [%sp+2255], %g4
- ldx [%sp+2231], %o2
- sllx %g4, 20, %g4
- ldx [%sp+2223], %o3
- sllx %o2, 22, %o2
- sllx %o3, 42, %g5
- add %o1, %o2, %o2
- ldx [%sp+2247], %o1
- add %o2, %g5, %o2
- stx %o2, [%o0]
- and %o3, %o4, %g3
- srlx %o2, 42, %o2
- add %o1, %g4, %o1
- srlx %o3, 22, %o3
- sub %o2, %g3, %o2
- srlx %o2, 63, %o2
- add %o1, %o3, %o1
- add %o1, %o2, %o1
- stx %o1, [%o0+8]
- add %o0, 16, %o0
- bl,a,pt %xcc, .Loop0
- ldx [%g1], %o2
- ret
- restore %g0, %g0, %g0
- EPILOGUE(mpn_sqr_diagonal)