camel-cdr · February 21, 2025 02:21 · camel-cdr · Jul 28, 2023
diff --git a/rvv-shishua.S b/rvv-shishua.S
 .global shishua_rvv # void shishua_rvv (uint64_t state[4], void *dest, size_t n)
 shishua_rvv:
 	# load state (can easily be expanded to state[8] or state[16])
 	vsetvli t6, x0, e64, m2, ta, ma
 	ld a4, 0(a0)
 	vmv.v.x v0, a4
 	ld a4, 8(a0)
 	vmv.v.x v4, a4
 	ld a4, 16(a0)
 	vmv.v.x v8, a4
 	ld a4, 24(a0)
 	vmv.v.x v12, a4

 	li t0, 0xbf58476d1ce4e5b9 # splitmix mul 1
 	li t1, 0x94d049bb133111eb # splitmix mul 2
 	.macro rvv_rand_splitmix64 v, t
 		# mix in vid
 		vsetvli t6, x0, e8, m8, ta, ma
 		vid.v \t
 		vsetvli t6, x0, e16, m8, ta, ma
 		vadd.vv \v, \v, \t
 		vmul.vx \v, \v, t0
 		vid.v \t
 		vsetvli t6, x0, e64, m8, ta, ma
 		vadd.vv \v, \v, \t
 		vmul.vx \v, \v, t1

 		# warmup with splitmix64
 		vsrl.vi \t, \v, 30
 		vxor.vv \v, \v, \t
 		vmul.vx \v, \v, t0

 		vsrl.vi \t, \v, 27
 		vxor.vv \v, \v, \t
 		vmul.vx \v, \v, t1

 		vsrl.vi \t, \v, 31
 		vxor.vv \v, \v, \t
 	.endm
 	rvv_rand_splitmix64 v0, v16
 	rvv_rand_splitmix64 v8, v16

 	# almost shishua
 1:
 	# shuffle
 	vsetvli x0, a2, e32, m8, ta, ma
 	vmv.x.s a4, v0
 	vslide1down.vx v16, v0, a4
 	vmv.x.s a4, v8
 	vslide1down.vx v24, v8, a4

 	# shift
 	vsetvli x0, x0, e64, m8, ta, ma
 	vsrl.vi v0, v0, 1
 	vsrl.vi v8, v8, 3

 	# add
 	vadd.vv v8, v8, v24
 	vxor.vv v24, v24, v0
 	vadd.vv v0, v0, v16

 	# store
 	vsetvli a3, x0, e8, m8, ta, ma
 	vse8.v v24, (a1)
 	add a1, a1, a3
 	sub a2, a2, a3
 	bnez a2, 1b

 	# reduce back to uint64_t state[4]
 	vsetvli t6, x0, e64, m4, ta, ma
 	vredsum.vs v20, v0, v0
 	vredsum.vs v21, v4, v4
 	vredxor.vs v22, v8, v8
 	vredxor.vs v23, v12, v12

 	vmv.x.s a4, v20
 	sd a4, 0(a0)
 	vmv.x.s a4, v21
 	sd a4, 8(a0)
 	vmv.x.s a4, v22
 	sd a4, 16(a0)
 	vmv.x.s a4, v23
 	sd a4, 24(a0)

 	ret
	.global shishua_rvv # void shishua_rvv (uint64_t state[4], void *dest, size_t n)
	shishua_rvv:
	# load state (can easily be expanded to state[8] or state[16])
	vsetvli t6, x0, e64, m2, ta, ma
	ld a4, 0(a0)
	vmv.v.x v0, a4
	ld a4, 8(a0)
	vmv.v.x v4, a4
	ld a4, 16(a0)
	vmv.v.x v8, a4
	ld a4, 24(a0)
	vmv.v.x v12, a4

	li t0, 0xbf58476d1ce4e5b9 # splitmix mul 1
	li t1, 0x94d049bb133111eb # splitmix mul 2
	.macro rvv_rand_splitmix64 v, t
	# mix in vid
	vsetvli t6, x0, e8, m8, ta, ma
	vid.v \t
	vsetvli t6, x0, e16, m8, ta, ma
	vadd.vv \v, \v, \t
	vmul.vx \v, \v, t0
	vid.v \t
	vsetvli t6, x0, e64, m8, ta, ma
	vadd.vv \v, \v, \t
	vmul.vx \v, \v, t1

	# warmup with splitmix64
	vsrl.vi \t, \v, 30
	vxor.vv \v, \v, \t
	vmul.vx \v, \v, t0

	vsrl.vi \t, \v, 27
	vxor.vv \v, \v, \t
	vmul.vx \v, \v, t1

	vsrl.vi \t, \v, 31
	vxor.vv \v, \v, \t
	.endm
	rvv_rand_splitmix64 v0, v16
	rvv_rand_splitmix64 v8, v16

	# almost shishua
	1:
	# shuffle
	vsetvli x0, a2, e32, m8, ta, ma
	vmv.x.s a4, v0
	vslide1down.vx v16, v0, a4
	vmv.x.s a4, v8
	vslide1down.vx v24, v8, a4

	# shift
	vsetvli x0, x0, e64, m8, ta, ma
	vsrl.vi v0, v0, 1
	vsrl.vi v8, v8, 3

	# add
	vadd.vv v8, v8, v24
	vxor.vv v24, v24, v0
	vadd.vv v0, v0, v16

	# store
	vsetvli a3, x0, e8, m8, ta, ma
	vse8.v v24, (a1)
	add a1, a1, a3
	sub a2, a2, a3
	bnez a2, 1b

	# reduce back to uint64_t state[4]
	vsetvli t6, x0, e64, m4, ta, ma
	vredsum.vs v20, v0, v0
	vredsum.vs v21, v4, v4
	vredxor.vs v22, v8, v8
	vredxor.vs v23, v12, v12

	vmv.x.s a4, v20
	sd a4, 0(a0)
	vmv.x.s a4, v21
	sd a4, 8(a0)
	vmv.x.s a4, v22
	sd a4, 16(a0)
	vmv.x.s a4, v23
	sd a4, 24(a0)

	ret