AmosLewis · May 25, 2023 15:56
diff --git a/distillgpt2_torchbackend.mlir b/distillgpt2_torchbackend.mlir
 #loc = loc(unknown)
 module attributes {torch.debug_module_name = "_lambda"} {
  func.func @forward(%arg0: !torch.vtensor<[1,128],si64> loc(unknown)) -> !torch.vtensor<[1,2],f32> {
    %int128 = torch.constant.int 128 loc(#loc1)
    %int127 = torch.constant.int 127 loc(#loc2)
    %int1 = torch.constant.int 1 loc(#loc3)
    %true = torch.constant.bool true loc(#loc4)
    %int0 = torch.constant.int 0 loc(#loc5)
    %int2 = torch.constant.int 2 loc(#loc6)
    %none = torch.constant.none loc(#loc)
    %int768 = torch.constant.int 768 loc(#loc7)
    %float1.000000e00 = torch.constant.float 1.000000e+00 loc(#loc8)
    %int6 = torch.constant.int 6 loc(#loc9)
    %false = torch.constant.bool false loc(#loc10)
    %int11 = torch.constant.int 11 loc(#loc11)
    %0 = torch.vtensor.literal(dense_resource<__elided__> : tensor<2x768xf32>) : !torch.vtensor<[2,768],f32> loc(#loc)
    %1 = torch.vtensor.literal(dense_resource<__elided__> : tensor<768xf32>) : !torch.vtensor<[768],f32> loc(#loc)
    %2 = torch.vtensor.literal(dense_resource<__elided__> : tensor<768xf32>) : !torch.vtensor<[768],f32> loc(#loc)
    %3 = torch.vtensor.literal(dense_resource<__elided__> : tensor<3072x768xf32>) : !torch.vtensor<[3072,768],f32> loc(#loc)
    %4 = torch.vtensor.literal(dense_resource<__elided__> : tensor<768xf32>) : !torch.vtensor<[768],f32> loc(#loc)
    %5 = torch.vtensor.literal(dense_resource<__elided__> : tensor<768x3072xf32>) : !torch.vtensor<[768,3072],f32> loc(#loc)
    %6 = torch.vtensor.literal(dense_resource<__elided__> : tensor<3072xf32>) : !torch.vtensor<[3072],f32> loc(#loc)
    %7 = torch.vtensor.literal(dense_resource<__elided__> : tensor<768xf32>) : !torch.vtensor<[768],f32> loc(#loc)
    %8 = torch.vtensor.literal(dense_resource<__elided__> : tensor<768xf32>) : !torch.vtensor<[768],f32> loc(#loc)
    %9 = torch.vtensor.literal(dense_resource<__elided__> : tensor<768x768xf32>) : !torch.vtensor<[768,768],f32> loc(#loc)
    %10 = torch.vtensor.literal(dense_resource<__elided__> : tensor<768xf32>) : !torch.vtensor<[768],f32> loc(#loc)
    %11 = torch.vtensor.literal(dense_resource<__elided__> : tensor<768x2304xf32>) : !torch.vtensor<[768,2304],f32> loc(#loc)
    %12 = torch.vtensor.literal(dense_resource<__elided__> : tensor<2304xf32>) : !torch.vtensor<[2304],f32> loc(#loc)
    %13 = torch.vtensor.literal(dense_resource<__elided__> : tensor<768xf32>) : !torch.vtensor<[768],f32> loc(#loc)
    %14 = torch.vtensor.literal(dense_resource<__elided__> : tensor<768xf32>) : !torch.vtensor<[768],f32> loc(#loc)
    %15 = torch.vtensor.literal(dense_resource<__elided__> : tensor<3072x768xf32>) : !torch.vtensor<[3072,768],f32> loc(#loc)
    %16 = torch.vtensor.literal(dense_resource<__elided__> : tensor<768xf32>) : !torch.vtensor<[768],f32> loc(#loc)
    %17 = torch.vtensor.literal(dense_resource<__elided__> : tensor<768x3072xf32>) : !torch.vtensor<[768,3072],f32> loc(#loc)
    %18 = torch.vtensor.literal(dense_resource<__elided__> : tensor<3072xf32>) : !torch.vtensor<[3072],f32> loc(#loc)
    %19 = torch.vtensor.literal(dense_resource<__elided__> : tensor<768xf32>) : !torch.vtensor<[768],f32> loc(#loc)
    %20 = torch.vtensor.literal(dense_resource<__elided__> : tensor<768xf32>) : !torch.vtensor<[768],f32> loc(#loc)
    %21 = torch.vtensor.literal(dense_resource<__elided__> : tensor<768x768xf32>) : !torch.vtensor<[768,768],f32> loc(#loc)
    %22 = torch.vtensor.literal(dense_resource<__elided__> : tensor<768xf32>) : !torch.vtensor<[768],f32> loc(#loc)
    %23 = torch.vtensor.literal(dense_resource<__elided__> : tensor<768x2304xf32>) : !torch.vtensor<[768,2304],f32> loc(#loc)
    %24 = torch.vtensor.literal(dense_resource<__elided__> : tensor<2304xf32>) : !torch.vtensor<[2304],f32> loc(#loc)
    %25 = torch.vtensor.literal(dense_resource<__elided__> : tensor<768xf32>) : !torch.vtensor<[768],f32> loc(#loc)
    %26 = torch.vtensor.literal(dense_resource<__elided__> : tensor<768xf32>) : !torch.vtensor<[768],f32> loc(#loc)
    %27 = torch.vtensor.literal(dense_resource<__elided__> : tensor<3072x768xf32>) : !torch.vtensor<[3072,768],f32> loc(#loc)
    %28 = torch.vtensor.literal(dense_resource<__elided__> : tensor<768xf32>) : !torch.vtensor<[768],f32> loc(#loc)
    %29 = torch.vtensor.literal(dense_resource<__elided__> : tensor<768x3072xf32>) : !torch.vtensor<[768,3072],f32> loc(#loc)
    %30 = torch.vtensor.literal(dense_resource<__elided__> : tensor<3072xf32>) : !torch.vtensor<[3072],f32> loc(#loc)
    %31 = torch.vtensor.literal(dense_resource<__elided__> : tensor<768xf32>) : !torch.vtensor<[768],f32> loc(#loc)
    %32 = torch.vtensor.literal(dense_resource<__elided__> : tensor<768xf32>) : !torch.vtensor<[768],f32> loc(#loc)
    %33 = torch.vtensor.literal(dense_resource<__elided__> : tensor<768x768xf32>) : !torch.vtensor<[768,768],f32> loc(#loc)
    %34 = torch.vtensor.literal(dense_resource<__elided__> : tensor<768xf32>) : !torch.vtensor<[768],f32> loc(#loc)
    %35 = torch.vtensor.literal(dense_resource<__elided__> : tensor<768x2304xf32>) : !torch.vtensor<[768,2304],f32> loc(#loc)
    %36 = torch.vtensor.literal(dense_resource<__elided__> : tensor<2304xf32>) : !torch.vtensor<[2304],f32> loc(#loc)
    %37 = torch.vtensor.literal(dense_resource<__elided__> : tensor<768xf32>) : !torch.vtensor<[768],f32> loc(#loc)
    %38 = torch.vtensor.literal(dense_resource<__elided__> : tensor<768xf32>) : !torch.vtensor<[768],f32> loc(#loc)
    %39 = torch.vtensor.literal(dense_resource<__elided__> : tensor<3072x768xf32>) : !torch.vtensor<[3072,768],f32> loc(#loc)
    %40 = torch.vtensor.literal(dense_resource<__elided__> : tensor<768xf32>) : !torch.vtensor<[768],f32> loc(#loc)
    %41 = torch.vtensor.literal(dense_resource<__elided__> : tensor<768x3072xf32>) : !torch.vtensor<[768,3072],f32> loc(#loc)
    %42 = torch.vtensor.literal(dense_resource<__elided__> : tensor<3072xf32>) : !torch.vtensor<[3072],f32> loc(#loc)
    %43 = torch.vtensor.literal(dense_resource<__elided__> : tensor<768xf32>) : !torch.vtensor<[768],f32> loc(#loc)
    %44 = torch.vtensor.literal(dense_resource<__elided__> : tensor<768xf32>) : !torch.vtensor<[768],f32> loc(#loc)
    %45 = torch.vtensor.literal(dense_resource<__elided__> : tensor<768x768xf32>) : !torch.vtensor<[768,768],f32> loc(#loc)
    %46 = torch.vtensor.literal(dense_resource<__elided__> : tensor<768xf32>) : !torch.vtensor<[768],f32> loc(#loc)
    %47 = torch.vtensor.literal(dense_resource<__elided__> : tensor<768x2304xf32>) : !torch.vtensor<[768,2304],f32> loc(#loc)
    %48 = torch.vtensor.literal(dense_resource<__elided__> : tensor<2304xf32>) : !torch.vtensor<[2304],f32> loc(#loc)
    %49 = torch.vtensor.literal(dense_resource<__elided__> : tensor<768xf32>) : !torch.vtensor<[768],f32> loc(#loc)
    %50 = torch.vtensor.literal(dense_resource<__elided__> : tensor<768xf32>) : !torch.vtensor<[768],f32> loc(#loc)
    %51 = torch.vtensor.literal(dense_resource<__elided__> : tensor<3072x768xf32>) : !torch.vtensor<[3072,768],f32> loc(#loc)
    %52 = torch.vtensor.literal(dense_resource<__elided__> : tensor<768xf32>) : !torch.vtensor<[768],f32> loc(#loc)
    %53 = torch.vtensor.literal(dense_resource<__elided__> : tensor<768x3072xf32>) : !torch.vtensor<[768,3072],f32> loc(#loc)
    %54 = torch.vtensor.literal(dense_resource<__elided__> : tensor<3072xf32>) : !torch.vtensor<[3072],f32> loc(#loc)
    %55 = torch.vtensor.literal(dense_resource<__elided__> : tensor<768xf32>) : !torch.vtensor<[768],f32> loc(#loc)
    %56 = torch.vtensor.literal(dense_resource<__elided__> : tensor<768xf32>) : !torch.vtensor<[768],f32> loc(#loc)
    %57 = torch.vtensor.literal(dense_resource<__elided__> : tensor<768x768xf32>) : !torch.vtensor<[768,768],f32> loc(#loc)
    %58 = torch.vtensor.literal(dense_resource<__elided__> : tensor<768xf32>) : !torch.vtensor<[768],f32> loc(#loc)
    %59 = torch.vtensor.literal(dense_resource<__elided__> : tensor<768x2304xf32>) : !torch.vtensor<[768,2304],f32> loc(#loc)
    %60 = torch.vtensor.literal(dense_resource<__elided__> : tensor<2304xf32>) : !torch.vtensor<[2304],f32> loc(#loc)
    %61 = torch.vtensor.literal(dense_resource<__elided__> : tensor<768xf32>) : !torch.vtensor<[768],f32> loc(#loc)
    %62 = torch.vtensor.literal(dense_resource<__elided__> : tensor<768xf32>) : !torch.vtensor<[768],f32> loc(#loc)
    %63 = torch.vtensor.literal(dense_resource<__elided__> : tensor<3072x768xf32>) : !torch.vtensor<[3072,768],f32> loc(#loc)
    %64 = torch.vtensor.literal(dense_resource<__elided__> : tensor<768xf32>) : !torch.vtensor<[768],f32> loc(#loc)
    %65 = torch.vtensor.literal(dense_resource<__elided__> : tensor<768x3072xf32>) : !torch.vtensor<[768,3072],f32> loc(#loc)
    %66 = torch.vtensor.literal(dense_resource<__elided__> : tensor<3072xf32>) : !torch.vtensor<[3072],f32> loc(#loc)
    %67 = torch.vtensor.literal(dense_resource<__elided__> : tensor<768xf32>) : !torch.vtensor<[768],f32> loc(#loc)
    %68 = torch.vtensor.literal(dense_resource<__elided__> : tensor<768xf32>) : !torch.vtensor<[768],f32> loc(#loc)
    %69 = torch.vtensor.literal(dense_resource<__elided__> : tensor<768x768xf32>) : !torch.vtensor<[768,768],f32> loc(#loc)
    %70 = torch.vtensor.literal(dense_resource<__elided__> : tensor<768xf32>) : !torch.vtensor<[768],f32> loc(#loc)
    %71 = torch.vtensor.literal(dense_resource<__elided__> : tensor<1x1x1024x1024xui8>) : !torch.vtensor<[1,1,1024,1024],ui8> loc(#loc)
    %72 = torch.vtensor.literal(dense_resource<__elided__> : tensor<768x2304xf32>) : !torch.vtensor<[768,2304],f32> loc(#loc)
    %73 = torch.vtensor.literal(dense_resource<__elided__> : tensor<2304xf32>) : !torch.vtensor<[2304],f32> loc(#loc)
    %74 = torch.vtensor.literal(dense_resource<__elided__> : tensor<768xf32>) : !torch.vtensor<[768],f32> loc(#loc)
    %75 = torch.vtensor.literal(dense_resource<__elided__> : tensor<768xf32>) : !torch.vtensor<[768],f32> loc(#loc)
    %76 = torch.vtensor.literal(dense_resource<__elided__> : tensor<1024x768xf32>) : !torch.vtensor<[1024,768],f32> loc(#loc)
    %77 = torch.vtensor.literal(dense_resource<__elided__> : tensor<50257x768xf32>) : !torch.vtensor<[50257,768],f32> loc(#loc)
    %int-2 = torch.constant.int -2 loc(#loc12)
    %float-3.402820e38 = torch.constant.float -3.4028234663852886E+38 loc(#loc13)
    %int4 = torch.constant.int 4 loc(#loc14)
    %int-1 = torch.constant.int -1 loc(#loc15)
    %float1.000000e-05 = torch.constant.float 1.000000e-05 loc(#loc16)
    %int2304 = torch.constant.int 2304 loc(#loc17)
    %int1536 = torch.constant.int 1536 loc(#loc18)
    %int12 = torch.constant.int 12 loc(#loc19)
    %int64 = torch.constant.int 64 loc(#loc20)
    %int3 = torch.constant.int 3 loc(#loc21)
    %float8.000000e00 = torch.constant.float 8.000000e+00 loc(#loc22)
    %int3072 = torch.constant.int 3072 loc(#loc23)
    %float5.000000e-01 = torch.constant.float 5.000000e-01 loc(#loc24)
    %float3.000000e00 = torch.constant.float 3.000000e+00 loc(#loc25)
    %float4.471500e-02 = torch.constant.float 4.471500e-02 loc(#loc26)
    %float7.978850e-01 = torch.constant.float 0.79788456080286541 loc(#loc27)
    %cpu = torch.constant.device "cpu" loc(#loc)
    %78 = torch.prim.ListConstruct %int-1, %int128 : (!torch.int, !torch.int) -> !torch.list<int> loc(#loc)
    %79 = torch.aten.view %arg0, %78 : !torch.vtensor<[1,128],si64>, !torch.list<int> -> !torch.vtensor<[1,128],si64> loc(#loc28)
    %80 = torch.aten.arange.start_step %int0, %int128, %int1, %int4, %none, %cpu, %false : !torch.int, !torch.int, !torch.int, !torch.int, !torch.none, !torch.Device, !torch.bool -> !torch.vtensor<[128],si64> loc(#loc29)
    %81 = torch.aten.unsqueeze %80, %int0 : !torch.vtensor<[128],si64>, !torch.int -> !torch.vtensor<[1,128],si64> loc(#loc30)
    %82 = torch.aten.view %81, %78 : !torch.vtensor<[1,128],si64>, !torch.list<int> -> !torch.vtensor<[1,128],si64> loc(#loc31)
    %83 = torch.aten.embedding %77, %79, %int-1, %false, %false : !torch.vtensor<[50257,768],f32>, !torch.vtensor<[1,128],si64>, !torch.int, !torch.bool, !torch.bool -> !torch.vtensor<[1,128,768],f32> loc(#loc32)
    %84 = torch.aten.embedding %76, %82, %int-1, %false, %false : !torch.vtensor<[1024,768],f32>, !torch.vtensor<[1,128],si64>, !torch.int, !torch.bool, !torch.bool -> !torch.vtensor<[1,128,768],f32> loc(#loc33)
    %85 = torch.aten.add.Tensor %83, %84, %int1 : !torch.vtensor<[1,128,768],f32>, !torch.vtensor<[1,128,768],f32>, !torch.int -> !torch.vtensor<[1,128,768],f32> loc(#loc34)
    %86 = torch.prim.ListConstruct %int2 : (!torch.int) -> !torch.list<int> loc(#loc4)
    %87 = torch.aten.sum.dim_IntList %85, %86, %true, %none : !torch.vtensor<[1,128,768],f32>, !torch.list<int>, !torch.bool, !torch.none -> !torch.vtensor<[1,128,1],f32> loc(#loc4)
    %88 = torch.aten.div.Scalar %87, %int768 : !torch.vtensor<[1,128,1],f32>, !torch.int -> !torch.vtensor<[1,128,1],f32> loc(#loc4)
    %89 = torch.prim.ListConstruct %int1, %int128, %int768 : (!torch.int, !torch.int, !torch.int) -> !torch.list<int> loc(#loc4)
    %90 = torch.aten.broadcast_to %88, %89 : !torch.vtensor<[1,128,1],f32>, !torch.list<int> -> !torch.vtensor<[1,128,768],f32> loc(#loc4)
    %91 = torch.aten.sub.Tensor %85, %90, %int1 : !torch.vtensor<[1,128,768],f32>, !torch.vtensor<[1,128,768],f32>, !torch.int -> !torch.vtensor<[1,128,768],f32> loc(#loc4)
    %92 = torch.aten.mul.Tensor %91, %91 : !torch.vtensor<[1,128,768],f32>, !torch.vtensor<[1,128,768],f32> -> !torch.vtensor<[1,128,768],f32> loc(#loc4)
    %93 = torch.aten.sum.dim_IntList %92, %86, %true, %none : !torch.vtensor<[1,128,768],f32>, !torch.list<int>, !torch.bool, !torch.none -> !torch.vtensor<[1,128,1],f32> loc(#loc4)
    %94 = torch.aten.div.Scalar %93, %int768 : !torch.vtensor<[1,128,1],f32>, !torch.int -> !torch.vtensor<[1,128,1],f32> loc(#loc4)
    %95 = torch.aten.add.Scalar %94, %float1.000000e-05, %int1 : !torch.vtensor<[1,128,1],f32>, !torch.float, !torch.int -> !torch.vtensor<[1,128,1],f32> loc(#loc4)
    %96 = torch.aten.rsqrt %95 : !torch.vtensor<[1,128,1],f32> -> !torch.vtensor<[1,128,1],f32> loc(#loc4)
    %97 = torch.prim.ListConstruct %int1, %int128, %int768 : (!torch.int, !torch.int, !torch.int) -> !torch.list<int> loc(#loc4)
    %98 = torch.aten.broadcast_to %96, %97 : !torch.vtensor<[1,128,1],f32>, !torch.list<int> -> !torch.vtensor<[1,128,768],f32> loc(#loc4)
    %99 = torch.aten.mul.Tensor %91, %98 : !torch.vtensor<[1,128,768],f32>, !torch.vtensor<[1,128,768],f32> -> !torch.vtensor<[1,128,768],f32> loc(#loc4)
    %100 = torch.aten.mul.Tensor %99, %75 : !torch.vtensor<[1,128,768],f32>, !torch.vtensor<[768],f32> -> !torch.vtensor<[1,128,768],f32> loc(#loc4)
    %101 = torch.aten.add.Tensor %100, %74, %int1 : !torch.vtensor<[1,128,768],f32>, !torch.vtensor<[768],f32>, !torch.int -> !torch.vtensor<[1,128,768],f32> loc(#loc4)
    %102 = torch.prim.ListConstruct %int-1, %int768 : (!torch.int, !torch.int) -> !torch.list<int> loc(#loc)
    %103 = torch.aten.view %101, %102 : !torch.vtensor<[1,128,768],f32>, !torch.list<int> -> !torch.vtensor<[128,768],f32> loc(#loc35)
    %104 = torch.aten.mm %103, %72 : !torch.vtensor<[128,768],f32>, !torch.vtensor<[768,2304],f32> -> !torch.vtensor<[128,2304],f32> loc(#loc36)
    %105 = torch.aten.mul.Scalar %73, %int1 : !torch.vtensor<[2304],f32>, !torch.int -> !torch.vtensor<[2304],f32> loc(#loc36)
    %106 = torch.aten.add.Tensor %105, %104, %int1 : !torch.vtensor<[2304],f32>, !torch.vtensor<[128,2304],f32>, !torch.int -> !torch.vtensor<[128,2304],f32> loc(#loc36)
    %107 = torch.prim.ListConstruct %int1, %int128, %int2304 : (!torch.int, !torch.int, !torch.int) -> !torch.list<int> loc(#loc393)
    %108 = torch.aten.view %106, %107 : !torch.vtensor<[128,2304],f32>, !torch.list<int> -> !torch.vtensor<[1,128,2304],f32> loc(#loc39)
    %109 = torch.aten.slice.Tensor %108, %int2, %int0, %int768, %int1 : !torch.vtensor<[1,128,2304],f32>, !torch.int, !torch.int, !torch.int, !torch.int -> !torch.vtensor<[1,128,768],f32> loc(#loc40)
    %110 = torch.aten.slice.Tensor %108, %int2, %int768, %int1536, %int1 : !torch.vtensor<[1,128,2304],f32>, !torch.int, !torch.int, !torch.int, !torch.int -> !torch.vtensor<[1,128,768],f32> loc(#loc41)
    %111 = torch.aten.slice.Tensor %108, %int2, %int1536, %int2304, %int1 : !torch.vtensor<[1,128,2304],f32>, !torch.int, !torch.int, !torch.int, !torch.int -> !torch.vtensor<[1,128,768],f32> loc(#loc42)
    %112 = torch.prim.ListConstruct %int1, %int128, %int12, %int64 : (!torch.int, !torch.int, !torch.int, !torch.int) -> !torch.list<int> loc(#loc394)
    %113 = torch.aten.view %109, %112 : !torch.vtensor<[1,128,768],f32>, !torch.list<int> -> !torch.vtensor<[1,128,12,64],f32> loc(#loc43)
    %114 = torch.prim.ListConstruct %int0, %int2, %int1, %int3 : (!torch.int, !torch.int, !torch.int, !torch.int) -> !torch.list<int> loc(#loc)
    %115 = torch.aten.permute %113, %114 : !torch.vtensor<[1,128,12,64],f32>, !torch.list<int> -> !torch.vtensor<[1,12,128,64],f32> loc(#loc44)
    %116 = torch.aten.view %110, %112 : !torch.vtensor<[1,128,768],f32>, !torch.list<int> -> !torch.vtensor<[1,128,12,64],f32> loc(#loc45)
    %117 = torch.aten.permute %116, %114 : !torch.vtensor<[1,128,12,64],f32>, !torch.list<int> -> !torch.vtensor<[1,12,128,64],f32> loc(#loc46)
    %118 = torch.aten.view %111, %112 : !torch.vtensor<[1,128,768],f32>, !torch.list<int> -> !torch.vtensor<[1,128,12,64],f32> loc(#loc47)
    %119 = torch.aten.permute %118, %114 : !torch.vtensor<[1,128,12,64],f32>, !torch.list<int> -> !torch.vtensor<[1,12,128,64],f32> loc(#loc48)
    %120 = torch.aten.transpose.int %117, %int-1, %int-2 : !torch.vtensor<[1,12,128,64],f32>, !torch.int, !torch.int -> !torch.vtensor<[1,12,64,128],f32> loc(#loc49)
    %121 = torch.prim.ListConstruct %int1, %int12, %int128, %int64 : (!torch.int, !torch.int, !torch.int, !torch.int) -> !torch.list<int> loc(#loc395)
    %122 = torch.aten.broadcast_to %115, %121 : !torch.vtensor<[1,12,128,64],f32>, !torch.list<int> -> !torch.vtensor<[1,12,128,64],f32> loc(#loc52)
    %123 = torch.prim.ListConstruct %int12, %int128, %int64 : (!torch.int, !torch.int, !torch.int) -> !torch.list<int> loc(#loc396)
    %124 = torch.aten.view %122, %123 : !torch.vtensor<[1,12,128,64],f32>, !torch.list<int> -> !torch.vtensor<[12,128,64],f32> loc(#loc53)
    %125 = torch.prim.ListConstruct %int1, %int12, %int64, %int128 : (!torch.int, !torch.int, !torch.int, !torch.int) -> !torch.list<int> loc(#loc397)
    %126 = torch.aten.broadcast_to %120, %125 : !torch.vtensor<[1,12,64,128],f32>, !torch.list<int> -> !torch.vtensor<[1,12,64,128],f32> loc(#loc54)
    %127 = torch.prim.ListConstruct %int12, %int64, %int128 : (!torch.int, !torch.int, !torch.int) -> !torch.list<int> loc(#loc398)
    %128 = torch.aten.view %126, %127 : !torch.vtensor<[1,12,64,128],f32>, !torch.list<int> -> !torch.vtensor<[12,64,128],f32> loc(#loc55)
    %129 = torch.aten.bmm %124, %128 : !torch.vtensor<[12,128,64],f32>, !torch.vtensor<[12,64,128],f32> -> !torch.vtensor<[12,128,128],f32> loc(#loc56)
    %130 = torch.prim.ListConstruct %int1, %int12, %int128, %int128 : (!torch.int, !torch.int, !torch.int, !torch.int) -> !torch.list<int> loc(#loc399)
    %131 = torch.aten.view %129, %130 : !torch.vtensor<[12,128,128],f32>, !torch.list<int> -> !torch.vtensor<[1,12,128,128],f32> loc(#loc60)
    %132 = torch.prim.ListConstruct  : () -> !torch.list<int> loc(#loc)
    %133 = torch.prim.NumToTensor.Scalar %float8.000000e00 : !torch.float -> !torch.vtensor<[],f64> loc(#loc61)
    %134 = torch.aten.to.dtype %133, %int6, %false, %false, %none : !torch.vtensor<[],f64>, !torch.int, !torch.bool, !torch.bool, !torch.none -> !torch.vtensor<[],f32> loc(#loc61)
    %135 = torch.aten.broadcast_to %134, %132 : !torch.vtensor<[],f32>, !torch.list<int> -> !torch.vtensor<[],f32> loc(#loc61)
    %136 = torch.aten.div.Tensor %131, %135 : !torch.vtensor<[1,12,128,128],f32>, !torch.vtensor<[],f32> -> !torch.vtensor<[1,12,128,128],f32> loc(#loc59)
    %137 = torch.aten.slice.Tensor %71, %int2, %int0, %int128, %int1 : !torch.vtensor<[1,1,1024,1024],ui8>, !torch.int, !torch.int, !torch.int, !torch.int -> !torch.vtensor<[1,1,128,1024],ui8> loc(#loc62)
    %138 = torch.aten.slice.Tensor %137, %int3, %int0, %int128, %int1 : !torch.vtensor<[1,1,128,1024],ui8>, !torch.int, !torch.int, !torch.int, !torch.int -> !torch.vtensor<[1,1,128,128],ui8> loc(#loc63)
    %139 = torch.prim.NumToTensor.Scalar %int0 : !torch.int -> !torch.vtensor<[],si64> loc(#loc64)
    %140 = torch.aten.to.dtype %139, %int11, %false, %false, %none : !torch.vtensor<[],si64>, !torch.int, !torch.bool, !torch.bool, !torch.none -> !torch.vtensor<[],i1> loc(#loc64)
    %141 = torch.prim.ListConstruct %int1, %int1, %int128, %int128 : (!torch.int, !torch.int, !torch.int, !torch.int) -> !torch.list<int> loc(#loc64)
    %142 = torch.aten.broadcast_to %140, %141 : !torch.vtensor<[],i1>, !torch.list<int> -> !torch.vtensor<[1,1,128,128],i1> loc(#loc64)
    %143 = torch.aten.to.dtype %138, %int11, %false, %false, %none : !torch.vtensor<[1,1,128,128],ui8>, !torch.int, !torch.bool, !torch.bool, !torch.none -> !torch.vtensor<[1,1,128,128],i1> loc(#loc64)
    %144 = torch.prim.ListConstruct %int1, %int1, %int128, %int128 : (!torch.int, !torch.int, !torch.int, !torch.int) -> !torch.list<int> loc(#loc64)
    %145 = torch.aten.broadcast_to %143, %144 : !torch.vtensor<[1,1,128,128],i1>, !torch.list<int> -> !torch.vtensor<[1,1,128,128],i1> loc(#loc64)
    %146 = torch.prim.NumToTensor.Scalar %float-3.402820e38 : !torch.float -> !torch.vtensor<[],f64> loc(#loc65)
    %147 = torch.aten.to.dtype %146, %int6, %false, %false, %none : !torch.vtensor<[],f64>, !torch.int, !torch.bool, !torch.bool, !torch.none -> !torch.vtensor<[],f32> loc(#loc65)
    %148 = torch.aten.broadcast_to %147, %132 : !torch.vtensor<[],f32>, !torch.list<int> -> !torch.vtensor<[],f32> loc(#loc65)
    %149 = torch.aten.where.self %145, %136, %148 : !torch.vtensor<[1,1,128,128],i1>, !torch.vtensor<[1,12,128,128],f32>, !torch.vtensor<[],f32> -> !torch.vtensor<[1,12,128,128],f32> loc(#loc66)
    %values, %indices = torch.aten.max.dim %149, %int-1, %true : !torch.vtensor<[1,12,128,128],f32>, !torch.int, !torch.bool -> !torch.vtensor<[1,12,128,1],f32>, !torch.vtensor<[1,12,128,1],si64> loc(#loc67)
    %150 = torch.aten.sub.Tensor %149, %values, %float1.000000e00 : !torch.vtensor<[1,12,128,128],f32>, !torch.vtensor<[1,12,128,1],f32>, !torch.float -> !torch.vtensor<[1,12,128,128],f32> loc(#loc67)
    %151 = torch.aten.exp %150 : !torch.vtensor<[1,12,128,128],f32> -> !torch.vtensor<[1,12,128,128],f32> loc(#loc67)
    %152 = torch.prim.ListConstruct %int-1 : (!torch.int) -> !torch.list<int> loc(#loc67)
    %153 = torch.aten.sum.dim_IntList %151, %152, %true, %none : !torch.vtensor<[1,12,128,128],f32>, !torch.list<int>, !torch.bool, !torch.none -> !torch.vtensor<[1,12,128,1],f32> loc(#loc67)
    %154 = torch.aten.div.Tensor %151, %153 : !torch.vtensor<[1,12,128,128],f32>, !torch.vtensor<[1,12,128,1],f32> -> !torch.vtensor<[1,12,128,128],f32> loc(#loc67)
    %155 = torch.aten.broadcast_to %154, %130 : !torch.vtensor<[1,12,128,128],f32>, !torch.list<int> -> !torch.vtensor<[1,12,128,128],f32> loc(#loc68)
    %156 = torch.prim.ListConstruct %int12, %int128, %int128 : (!torch.int, !torch.int, !torch.int) -> !torch.list<int> loc(#loc400)
    %157 = torch.aten.view %155, %156 : !torch.vtensor<[1,12,128,128],f32>, !torch.list<int> -> !torch.vtensor<[12,128,128],f32> loc(#loc69)
    %158 = torch.aten.broadcast_to %119, %121 : !torch.vtensor<[1,12,128,64],f32>, !torch.list<int> -> !torch.vtensor<[1,12,128,64],f32> loc(#loc70)
    %159 = torch.aten.view %158, %123 : !torch.vtensor<[1,12,128,64],f32>, !torch.list<int> -> !torch.vtensor<[12,128,64],f32> loc(#loc71)
    %160 = torch.aten.bmm %157, %159 : !torch.vtensor<[12,128,128],f32>, !torch.vtensor<[12,128,64],f32> -> !torch.vtensor<[12,128,64],f32> loc(#loc72)
    %161 = torch.aten.view %160, %121 : !torch.vtensor<[12,128,64],f32>, !torch.list<int> -> !torch.vtensor<[1,12,128,64],f32> loc(#loc73)
    %162 = torch.aten.permute %161, %114 : !torch.vtensor<[1,12,128,64],f32>, !torch.list<int> -> !torch.vtensor<[1,128,12,64],f32> loc(#loc74)
    %163 = torch.aten.clone %162, %int0 : !torch.vtensor<[1,128,12,64],f32>, !torch.int -> !torch.vtensor<[1,128,12,64],f32> loc(#loc75)
    %164 = torch.prim.ListConstruct %int1, %int128, %int768 : (!torch.int, !torch.int, !torch.int) -> !torch.list<int> loc(#loc401)
    %165 = torch.aten.view %163, %164 : !torch.vtensor<[1,128,12,64],f32>, !torch.list<int> -> !torch.vtensor<[1,128,768],f32> loc(#loc76)
    %166 = torch.aten.view %165, %102 : !torch.vtensor<[1,128,768],f32>, !torch.list<int> -> !torch.vtensor<[128,768],f32> loc(#loc77)
    %167 = torch.aten.mm %166, %69 : !torch.vtensor<[128,768],f32>, !torch.vtensor<[768,768],f32> -> !torch.vtensor<[128,768],f32> loc(#loc78)
    %168 = torch.aten.mul.Scalar %70, %int1 : !torch.vtensor<[768],f32>, !torch.int -> !torch.vtensor<[768],f32> loc(#loc78)
    %169 = torch.aten.add.Tensor %168, %167, %int1 : !torch.vtensor<[768],f32>, !torch.vtensor<[128,768],f32>, !torch.int -> !torch.vtensor<[128,768],f32> loc(#loc78)
    %170 = torch.aten.view %169, %164 : !torch.vtensor<[128,768],f32>, !torch.list<int> -> !torch.vtensor<[1,128,768],f32> loc(#loc79)
    %171 = torch.aten.add.Tensor %170, %85, %int1 : !torch.vtensor<[1,128,768],f32>, !torch.vtensor<[1,128,768],f32>, !torch.int -> !torch.vtensor<[1,128,768],f32> loc(#loc80)
    %172 = torch.prim.ListConstruct %int2 : (!torch.int) -> !torch.list<int> loc(#loc81)
    %173 = torch.aten.sum.dim_IntList %171, %172, %true, %none : !torch.vtensor<[1,128,768],f32>, !torch.list<int>, !torch.bool, !torch.none -> !torch.vtensor<[1,128,1],f32> loc(#loc81)
    %174 = torch.aten.div.Scalar %173, %int768 : !torch.vtensor<[1,128,1],f32>, !torch.int -> !torch.vtensor<[1,128,1],f32> loc(#loc81)
    %175 = torch.prim.ListConstruct %int1, %int128, %int768 : (!torch.int, !torch.int, !torch.int) -> !torch.list<int> loc(#loc81)
    %176 = torch.aten.broadcast_to %174, %175 : !torch.vtensor<[1,128,1],f32>, !torch.list<int> -> !torch.vtensor<[1,128,768],f32> loc(#loc81)
    %177 = torch.aten.sub.Tensor %171, %176, %int1 : !torch.vtensor<[1,128,768],f32>, !torch.vtensor<[1,128,768],f32>, !torch.int -> !torch.vtensor<[1,128,768],f32> loc(#loc81)
    %178 = torch.aten.mul.Tensor %177, %177 : !torch.vtensor<[1,128,768],f32>, !torch.vtensor<[1,128,768],f32> -> !torch.vtensor<[1,128,768],f32> loc(#loc81)
    %179 = torch.aten.sum.dim_IntList %178, %172, %true, %none : !torch.vtensor<[1,128,768],f32>, !torch.list<int>, !torch.bool, !torch.none -> !torch.vtensor<[1,128,1],f32> loc(#loc81)
    %180 = torch.aten.div.Scalar %179, %int768 : !torch.vtensor<[1,128,1],f32>, !torch.int -> !torch.vtensor<[1,128,1],f32> loc(#loc81)
    %181 = torch.aten.add.Scalar %180, %float1.000000e-05, %int1 : !torch.vtensor<[1,128,1],f32>, !torch.float, !torch.int -> !torch.vtensor<[1,128,1],f32> loc(#loc81)
    %182 = torch.aten.rsqrt %181 : !torch.vtensor<[1,128,1],f32> -> !torch.vtensor<[1,128,1],f32> loc(#loc81)
    %183 = torch.prim.ListConstruct %int1, %int128, %int768 : (!torch.int, !torch.int, !torch.int) -> !torch.list<int> loc(#loc81)
    %184 = torch.aten.broadcast_to %182, %183 : !torch.vtensor<[1,128,1],f32>, !torch.list<int> -> !torch.vtensor<[1,128,768],f32> loc(#loc81)
    %185 = torch.aten.mul.Tensor %177, %184 : !torch.vtensor<[1,128,768],f32>, !torch.vtensor<[1,128,768],f32> -> !torch.vtensor<[1,128,768],f32> loc(#loc81)
    %186 = torch.aten.mul.Tensor %185, %68 : !torch.vtensor<[1,128,768],f32>, !torch.vtensor<[768],f32> -> !torch.vtensor<[1,128,768],f32> loc(#loc81)
    %187 = torch.aten.add.Tensor %186, %67, %int1 : !torch.vtensor<[1,128,768],f32>, !torch.vtensor<[768],f32>, !torch.int -> !torch.vtensor<[1,128,768],f32> loc(#loc81)
    %188 = torch.aten.view %187, %102 : !torch.vtensor<[1,128,768],f32>, !torch.list<int> -> !torch.vtensor<[128,768],f32> loc(#loc82)
    %189 = torch.aten.mm %188, %65 : !torch.vtensor<[128,768],f32>, !torch.vtensor<[768,3072],f32> -> !torch.vtensor<[128,3072],f32> loc(#loc83)
    %190 = torch.aten.mul.Scalar %66, %int1 : !torch.vtensor<[3072],f32>, !torch.int -> !torch.vtensor<[3072],f32> loc(#loc83)
    %191 = torch.aten.add.Tensor %190, %189, %int1 : !torch.vtensor<[3072],f32>, !torch.vtensor<[128,3072],f32>, !torch.int -> !torch.vtensor<[128,3072],f32> loc(#loc83)
    %192 = torch.prim.ListConstruct %int1, %int128, %int3072 : (!torch.int, !torch.int, !torch.int) -> !torch.list<int> loc(#loc402)
    %193 = torch.aten.view %191, %192 : !torch.vtensor<[128,3072],f32>, !torch.list<int> -> !torch.vtensor<[1,128,3072],f32> loc(#loc84)
    %194 = torch.aten.mul.Scalar %193, %float5.000000e-01 : !torch.vtensor<[1,128,3072],f32>, !torch.float -> !torch.vtensor<[1,128,3072],f32> loc(#loc85)
    %195 = torch.aten.pow.Tensor_Scalar %193, %float3.000000e00 : !torch.vtensor<[1,128,3072],f32>, !torch.float -> !torch.vtensor<[1,128,3072],f32> loc(#loc86)
    %196 = torch.aten.mul.Scalar %195, %float4.471500e-02 : !torch.vtensor<[1,128,3072],f32>, !torch.float -> !torch.vtensor<[1,128,3072],f32> loc(#loc87)
    %197 = torch.aten.add.Tensor %193, %196, %int1 : !torch.vtensor<[1,128,3072],f32>, !torch.vtensor<[1,128,3072],f32>, !torch.int -> !torch.vtensor<[1,128,3072],f32> loc(#loc88)
    %198 = torch.aten.mul.Scalar %197, %float7.978850e-01 : !torch.vtensor<[1,128,3072],f32>, !torch.float -> !torch.vtensor<[1,128,3072],f32> loc(#loc89)
    %199 = torch.aten.tanh %198 : !torch.vtensor<[1,128,3072],f32> -> !torch.vtensor<[1,128,3072],f32> loc(#loc90)
    %200 = torch.aten.add.Scalar %199, %float1.000000e00, %int1 : !torch.vtensor<[1,128,3072],f32>, !torch.float, !torch.int -> !torch.vtensor<[1,128,3072],f32> loc(#loc91)
    %201 = torch.aten.mul.Tensor %194, %200 : !torch.vtensor<[1,128,3072],f32>, !torch.vtensor<[1,128,3072],f32> -> !torch.vtensor<[1,128,3072],f32> loc(#loc92)
    %202 = torch.prim.ListConstruct %int-1, %int3072 : (!torch.int, !torch.int) -> !torch.list<int> loc(#loc)
    %203 = torch.aten.view %201, %202 : !torch.vtensor<[1,128,3072],f32>, !torch.list<int> -> !torch.vtensor<[128,3072],f32> loc(#loc93)
    %204 = torch.aten.mm %203, %63 : !torch.vtensor<[128,3072],f32>, !torch.vtensor<[3072,768],f32> -> !torch.vtensor<[128,768],f32> loc(#loc94)
    %205 = torch.aten.mul.Scalar %64, %int1 : !torch.vtensor<[768],f32>, !torch.int -> !torch.vtensor<[768],f32> loc(#loc94)
    %206 = torch.aten.add.Tensor %205, %204, %int1 : !torch.vtensor<[768],f32>, !torch.vtensor<[128,768],f32>, !torch.int -> !torch.vtensor<[128,768],f32> loc(#loc94)
    %207 = torch.aten.view %206, %164 : !torch.vtensor<[128,768],f32>, !torch.list<int> -> !torch.vtensor<[1,128,768],f32> loc(#loc95)
    %208 = torch.aten.add.Tensor %171, %207, %int1 : !torch.vtensor<[1,128,768],f32>, !torch.vtensor<[1,128,768],f32>, !torch.int -> !torch.vtensor<[1,128,768],f32> loc(#loc96)
    %209 = torch.prim.ListConstruct %int2 : (!torch.int) -> !torch.list<int> loc(#loc97)
    %210 = torch.aten.sum.dim_IntList %208, %209, %true, %none : !torch.vtensor<[1,128,768],f32>, !torch.list<int>, !torch.bool, !torch.none -> !torch.vtensor<[1,128,1],f32> loc(#loc97)
    %211 = torch.aten.div.Scalar %210, %int768 : !torch.vtensor<[1,128,1],f32>, !torch.int -> !torch.vtensor<[1,128,1],f32> loc(#loc97)
    %212 = torch.prim.ListConstruct %int1, %int128, %int768 : (!torch.int, !torch.int, !torch.int) -> !torch.list<int> loc(#loc97)
    %213 = torch.aten.broadcast_to %211, %212 : !torch.vtensor<[1,128,1],f32>, !torch.list<int> -> !torch.vtensor<[1,128,768],f32> loc(#loc97)
    %214 = torch.aten.sub.Tensor %208, %213, %int1 : !torch.vtensor<[1,128,768],f32>, !torch.vtensor<[1,128,768],f32>, !torch.int -> !torch.vtensor<[1,128,768],f32> loc(#loc97)
    %215 = torch.aten.mul.Tensor %214, %214 : !torch.vtensor<[1,128,768],f32>, !torch.vtensor<[1,128,768],f32> -> !torch.vtensor<[1,128,768],f32> loc(#loc97)
    %216 = torch.aten.sum.dim_IntList %215, %209, %true, %none : !torch.vtensor<[1,128,768],f32>, !torch.list<int>, !torch.bool, !torch.none -> !torch.vtensor<[1,128,1],f32> loc(#loc97)
    %217 = torch.aten.div.Scalar %216, %int768 : !torch.vtensor<[1,128,1],f32>, !torch.int -> !torch.vtensor<[1,128,1],f32> loc(#loc97)
    %218 = torch.aten.add.Scalar %217, %float1.000000e-05, %int1 : !torch.vtensor<[1,128,1],f32>, !torch.float, !torch.int -> !torch.vtensor<[1,128,1],f32> loc(#loc97)
    %219 = torch.aten.rsqrt %218 : !torch.vtensor<[1,128,1],f32> -> !torch.vtensor<[1,128,1],f32> loc(#loc97)
    %220 = torch.prim.ListConstruct %int1, %int128, %int768 : (!torch.int, !torch.int, !torch.int) -> !torch.list<int> loc(#loc97)
    %221 = torch.aten.broadcast_to %219, %220 : !torch.vtensor<[1,128,1],f32>, !torch.list<int> -> !torch.vtensor<[1,128,768],f32> loc(#loc97)
    %222 = torch.aten.mul.Tensor %214, %221 : !torch.vtensor<[1,128,768],f32>, !torch.vtensor<[1,128,768],f32> -> !torch.vtensor<[1,128,768],f32> loc(#loc97)
    %223 = torch.aten.mul.Tensor %222, %62 : !torch.vtensor<[1,128,768],f32>, !torch.vtensor<[768],f32> -> !torch.vtensor<[1,128,768],f32> loc(#loc97)
    %224 = torch.aten.add.Tensor %223, %61, %int1 : !torch.vtensor<[1,128,768],f32>, !torch.vtensor<[768],f32>, !torch.int -> !torch.vtensor<[1,128,768],f32> loc(#loc97)
    %225 = torch.aten.view %224, %102 : !torch.vtensor<[1,128,768],f32>, !torch.list<int> -> !torch.vtensor<[128,768],f32> loc(#loc98)
    %226 = torch.aten.mm %225, %59 : !torch.vtensor<[128,768],f32>, !torch.vtensor<[768,2304],f32> -> !torch.vtensor<[128,2304],f32> loc(#loc99)
    %227 = torch.aten.mul.Scalar %60, %int1 : !torch.vtensor<[2304],f32>, !torch.int -> !torch.vtensor<[2304],f32> loc(#loc99)
    %228 = torch.aten.add.Tensor %227, %226, %int1 : !torch.vtensor<[2304],f32>, !torch.vtensor<[128,2304],f32>, !torch.int -> !torch.vtensor<[128,2304],f32> loc(#loc99)
    %229 = torch.aten.view %228, %107 : !torch.vtensor<[128,2304],f32>, !torch.list<int> -> !torch.vtensor<[1,128,2304],f32> loc(#loc100)
    %230 = torch.aten.slice.Tensor %229, %int2, %int0, %int768, %int1 : !torch.vtensor<[1,128,2304],f32>, !torch.int, !torch.int, !torch.int, !torch.int -> !torch.vtensor<[1,128,768],f32> loc(#loc101)
    %231 = torch.aten.slice.Tensor %229, %int2, %int768, %int1536, %int1 : !torch.vtensor<[1,128,2304],f32>, !torch.int, !torch.int, !torch.int, !torch.int -> !torch.vtensor<[1,128,768],f32> loc(#loc102)
    %232 = torch.aten.slice.Tensor %229, %int2, %int1536, %int2304, %int1 : !torch.vtensor<[1,128,2304],f32>, !torch.int, !torch.int, !torch.int, !torch.int -> !torch.vtensor<[1,128,768],f32> loc(#loc103)
    %233 = torch.aten.view %230, %112 : !torch.vtensor<[1,128,768],f32>, !torch.list<int> -> !torch.vtensor<[1,128,12,64],f32> loc(#loc104)
    %234 = torch.aten.permute %233, %114 : !torch.vtensor<[1,128,12,64],f32>, !torch.list<int> -> !torch.vtensor<[1,12,128,64],f32> loc(#loc105)
    %235 = torch.aten.view %231, %112 : !torch.vtensor<[1,128,768],f32>, !torch.list<int> -> !torch.vtensor<[1,128,12,64],f32> loc(#loc106)
    %236 = torch.aten.permute %235, %114 : !torch.vtensor<[1,128,12,64],f32>, !torch.list<int> -> !torch.vtensor<[1,12,128,64],f32> loc(#loc107)
    %237 = torch.aten.view %232, %112 : !torch.vtensor<[1,128,768],f32>, !torch.list<int> -> !torch.vtensor<[1,128,12,64],f32> loc(#loc108)
    %238 = torch.aten.permute %237, %114 : !torch.vtensor<[1,128,12,64],f32>, !torch.list<int> -> !torch.vtensor<[1,12,128,64],f32> loc(#loc109)
    %239 = torch.aten.transpose.int %236, %int-1, %int-2 : !torch.vtensor<[1,12,128,64],f32>, !torch.int, !torch.int -> !torch.vtensor<[1,12,64,128],f32> loc(#loc110)
    %240 = torch.aten.broadcast_to %234, %121 : !torch.vtensor<[1,12,128,64],f32>, !torch.list<int> -> !torch.vtensor<[1,12,128,64],f32> loc(#loc111)
    %241 = torch.aten.view %240, %123 : !torch.vtensor<[1,12,128,64],f32>, !torch.list<int> -> !torch.vtensor<[12,128,64],f32> loc(#loc112)
    %242 = torch.aten.broadcast_to %239, %125 : !torch.vtensor<[1,12,64,128],f32>, !torch.list<int> -> !torch.vtensor<[1,12,64,128],f32> loc(#loc113)
    %243 = torch.aten.view %242, %127 : !torch.vtensor<[1,12,64,128],f32>, !torch.list<int> -> !torch.vtensor<[12,64,128],f32> loc(#loc114)
    %244 = torch.aten.bmm %241, %243 : !torch.vtensor<[12,128,64],f32>, !torch.vtensor<[12,64,128],f32> -> !torch.vtensor<[12,128,128],f32> loc(#loc115)
    %245 = torch.aten.view %244, %130 : !torch.vtensor<[12,128,128],f32>, !torch.list<int> -> !torch.vtensor<[1,12,128,128],f32> loc(#loc116)
    %246 = torch.prim.NumToTensor.Scalar %float8.000000e00 : !torch.float -> !torch.vtensor<[],f64> loc(#loc117)
    %247 = torch.aten.to.dtype %246, %int6, %false, %false, %none : !torch.vtensor<[],f64>, !torch.int, !torch.bool, !torch.bool, !torch.none -> !torch.vtensor<[],f32> loc(#loc117)
    %248 = torch.aten.broadcast_to %247, %132 : !torch.vtensor<[],f32>, !torch.list<int> -> !torch.vtensor<[],f32> loc(#loc117)
    %249 = torch.aten.div.Tensor %245, %248 : !torch.vtensor<[1,12,128,128],f32>, !torch.vtensor<[],f32> -> !torch.vtensor<[1,12,128,128],f32> loc(#loc118)
    %250 = torch.aten.slice.Tensor %71, %int2, %int0, %int128, %int1 : !torch.vtensor<[1,1,1024,1024],ui8>, !torch.int, !torch.int, !torch.int, !torch.int -> !torch.vtensor<[1,1,128,1024],ui8> loc(#loc119)
    %251 = torch.aten.slice.Tensor %250, %int3, %int0, %int128, %int1 : !torch.vtensor<[1,1,128,1024],ui8>, !torch.int, !torch.int, !torch.int, !torch.int -> !torch.vtensor<[1,1,128,128],ui8> loc(#loc120)
    %252 = torch.prim.NumToTensor.Scalar %int0 : !torch.int -> !torch.vtensor<[],si64> loc(#loc121)
    %253 = torch.aten.to.dtype %252, %int11, %false, %false, %none : !torch.vtensor<[],si64>, !torch.int, !torch.bool, !torch.bool, !torch.none -> !torch.vtensor<[],i1> loc(#loc121)
    %254 = torch.prim.ListConstruct %int1, %int1, %int128, %int128 : (!torch.int, !torch.int, !torch.int, !torch.int) -> !torch.list<int> loc(#loc121)
    %255 = torch.aten.broadcast_to %253, %254 : !torch.vtensor<[],i1>, !torch.list<int> -> !torch.vtensor<[1,1,128,128],i1> loc(#loc121)
    %256 = torch.aten.to.dtype %251, %int11, %false, %false, %none : !torch.vtensor<[1,1,128,128],ui8>, !torch.int, !torch.bool, !torch.bool, !torch.none -> !torch.vtensor<[1,1,128,128],i1> loc(#loc121)
    %257 = torch.prim.ListConstruct %int1, %int1, %int128, %int128 : (!torch.int, !torch.int, !torch.int, !torch.int) -> !torch.list<int> loc(#loc121)
    %258 = torch.aten.broadcast_to %256, %257 : !torch.vtensor<[1,1,128,128],i1>, !torch.list<int> -> !torch.vtensor<[1,1,128,128],i1> loc(#loc121)
    %259 = torch.prim.NumToTensor.Scalar %float-3.402820e38 : !torch.float -> !torch.vtensor<[],f64> loc(#loc122)
    %260 = torch.aten.to.dtype %259, %int6, %false, %false, %none : !torch.vtensor<[],f64>, !torch.int, !torch.bool, !torch.bool, !torch.none -> !torch.vtensor<[],f32> loc(#loc122)
    %261 = torch.aten.broadcast_to %260, %132 : !torch.vtensor<[],f32>, !torch.list<int> -> !torch.vtensor<[],f32> loc(#loc122)
    %262 = torch.aten.where.self %258, %249, %261 : !torch.vtensor<[1,1,128,128],i1>, !torch.vtensor<[1,12,128,128],f32>, !torch.vtensor<[],f32> -> !torch.vtensor<[1,12,128,128],f32> loc(#loc123)
    %values_0, %indices_1 = torch.aten.max.dim %262, %int-1, %true : !torch.vtensor<[1,12,128,128],f32>, !torch.int, !torch.bool -> !torch.vtensor<[1,12,128,1],f32>, !torch.vtensor<[1,12,128,1],si64> loc(#loc124)
    %263 = torch.aten.sub.Tensor %262, %values_0, %float1.000000e00 : !torch.vtensor<[1,12,128,128],f32>, !torch.vtensor<[1,12,128,1],f32>, !torch.float -> !torch.vtensor<[1,12,128,128],f32> loc(#loc124)
    %264 = torch.aten.exp %263 : !torch.vtensor<[1,12,128,128],f32> -> !torch.vtensor<[1,12,128,128],f32> loc(#loc124)
    %265 = torch.prim.ListConstruct %int-1 : (!torch.int) -> !torch.list<int> loc(#loc124)
    %266 = torch.aten.sum.dim_IntList %264, %265, %true, %none : !torch.vtensor<[1,12,128,128],f32>, !torch.list<int>, !torch.bool, !torch.none -> !torch.vtensor<[1,12,128,1],f32> loc(#loc124)
    %267 = torch.aten.div.Tensor %264, %266 : !torch.vtensor<[1,12,128,128],f32>, !torch.vtensor<[1,12,128,1],f32> -> !torch.vtensor<[1,12,128,128],f32> loc(#loc124)
    %268 = torch.aten.broadcast_to %267, %130 : !torch.vtensor<[1,12,128,128],f32>, !torch.list<int> -> !torch.vtensor<[1,12,128,128],f32> loc(#loc125)
    %269 = torch.aten.view %268, %156 : !torch.vtensor<[1,12,128,128],f32>, !torch.list<int> -> !torch.vtensor<[12,128,128],f32> loc(#loc126)
    %270 = torch.aten.broadcast_to %238, %121 : !torch.vtensor<[1,12,128,64],f32>, !torch.list<int> -> !torch.vtensor<[1,12,128,64],f32> loc(#loc127)
    %271 = torch.aten.view %270, %123 : !torch.vtensor<[1,12,128,64],f32>, !torch.list<int> -> !torch.vtensor<[12,128,64],f32> loc(#loc128)
    %272 = torch.aten.bmm %269, %271 : !torch.vtensor<[12,128,128],f32>, !torch.vtensor<[12,128,64],f32> -> !torch.vtensor<[12,128,64],f32> loc(#loc129)
    %273 = torch.aten.view %272, %121 : !torch.vtensor<[12,128,64],f32>, !torch.list<int> -> !torch.vtensor<[1,12,128,64],f32> loc(#loc130)
    %274 = torch.aten.permute %273, %114 : !torch.vtensor<[1,12,128,64],f32>, !torch.list<int> -> !torch.vtensor<[1,128,12,64],f32> loc(#loc131)
    %275 = torch.aten.clone %274, %int0 : !torch.vtensor<[1,128,12,64],f32>, !torch.int -> !torch.vtensor<[1,128,12,64],f32> loc(#loc132)
    %276 = torch.aten.view %275, %164 : !torch.vtensor<[1,128,12,64],f32>, !torch.list<int> -> !torch.vtensor<[1,128,768],f32> loc(#loc133)
    %277 = torch.aten.view %276, %102 : !torch.vtensor<[1,128,768],f32>, !torch.list<int> -> !torch.vtensor<[128,768],f32> loc(#loc134)
    %278 = torch.aten.mm %277, %57 : !torch.vtensor<[128,768],f32>, !torch.vtensor<[768,768],f32> -> !torch.vtensor<[128,768],f32> loc(#loc135)
    %279 = torch.aten.mul.Scalar %58, %int1 : !torch.vtensor<[768],f32>, !torch.int -> !torch.vtensor<[768],f32> loc(#loc135)
    %280 = torch.aten.add.Tensor %279, %278, %int1 : !torch.vtensor<[768],f32>, !torch.vtensor<[128,768],f32>, !torch.int -> !torch.vtensor<[128,768],f32> loc(#loc135)
    %281 = torch.aten.view %280, %164 : !torch.vtensor<[128,768],f32>, !torch.list<int> -> !torch.vtensor<[1,128,768],f32> loc(#loc136)
    %282 = torch.aten.add.Tensor %281, %208, %int1 : !torch.vtensor<[1,128,768],f32>, !torch.vtensor<[1,128,768],f32>, !torch.int -> !torch.vtensor<[1,128,768],f32> loc(#loc137)
    %283 = torch.prim.ListConstruct %int2 : (!torch.int) -> !torch.list<int> loc(#loc138)
    %284 = torch.aten.sum.dim_IntList %282, %283, %true, %none : !torch.vtensor<[1,128,768],f32>, !torch.list<int>, !torch.bool, !torch.none -> !torch.vtensor<[1,128,1],f32> loc(#loc138)
    %285 = torch.aten.div.Scalar %284, %int768 : !torch.vtensor<[1,128,1],f32>, !torch.int -> !torch.vtensor<[1,128,1],f32> loc(#loc138)
    %286 = torch.prim.ListConstruct %int1, %int128, %int768 : (!torch.int, !torch.int, !torch.int) -> !torch.list<int> loc(#loc138)
    %287 = torch.aten.broadcast_to %285, %286 : !torch.vtensor<[1,128,1],f32>, !torch.list<int> -> !torch.vtensor<[1,128,768],f32> loc(#loc138)
    %288 = torch.aten.sub.Tensor %282, %287, %int1 : !torch.vtensor<[1,128,768],f32>, !torch.vtensor<[1,128,768],f32>, !torch.int -> !torch.vtensor<[1,128,768],f32> loc(#loc138)
    %289 = torch.aten.mul.Tensor %288, %288 : !torch.vtensor<[1,128,768],f32>, !torch.vtensor<[1,128,768],f32> -> !torch.vtensor<[1,128,768],f32> loc(#loc138)
    %290 = torch.aten.sum.dim_IntList %289, %283, %true, %none : !torch.vtensor<[1,128,768],f32>, !torch.list<int>, !torch.bool, !torch.none -> !torch.vtensor<[1,128,1],f32> loc(#loc138)
    %291 = torch.aten.div.Scalar %290, %int768 : !torch.vtensor<[1,128,1],f32>, !torch.int -> !torch.vtensor<[1,128,1],f32> loc(#loc138)
    %292 = torch.aten.add.Scalar %291, %float1.000000e-05, %int1 : !torch.vtensor<[1,128,1],f32>, !torch.float, !torch.int -> !torch.vtensor<[1,128,1],f32> loc(#loc138)
    %293 = torch.aten.rsqrt %292 : !torch.vtensor<[1,128,1],f32> -> !torch.vtensor<[1,128,1],f32> loc(#loc138)
    %294 = torch.prim.ListConstruct %int1, %int128, %int768 : (!torch.int, !torch.int, !torch.int) -> !torch.list<int> loc(#loc138)
    %295 = torch.aten.broadcast_to %293, %294 : !torch.vtensor<[1,128,1],f32>, !torch.list<int> -> !torch.vtensor<[1,128,768],f32> loc(#loc138)
    %296 = torch.aten.mul.Tensor %288, %295 : !torch.vtensor<[1,128,768],f32>, !torch.vtensor<[1,128,768],f32> -> !torch.vtensor<[1,128,768],f32> loc(#loc138)
    %297 = torch.aten.mul.Tensor %296, %56 : !torch.vtensor<[1,128,768],f32>, !torch.vtensor<[768],f32> -> !torch.vtensor<[1,128,768],f32> loc(#loc138)
    %298 = torch.aten.add.Tensor %297, %55, %int1 : !torch.vtensor<[1,128,768],f32>, !torch.vtensor<[768],f32>, !torch.int -> !torch.vtensor<[1,128,768],f32> loc(#loc138)
    %299 = torch.aten.view %298, %102 : !torch.vtensor<[1,128,768],f32>, !torch.list<int> -> !torch.vtensor<[128,768],f32> loc(#loc139)
    %300 = torch.aten.mm %299, %53 : !torch.vtensor<[128,768],f32>, !torch.vtensor<[768,3072],f32> -> !torch.vtensor<[128,3072],f32> loc(#loc140)
    %301 = torch.aten.mul.Scalar %54, %int1 : !torch.vtensor<[3072],f32>, !torch.int -> !torch.vtensor<[3072],f32> loc(#loc140)
    %302 = torch.aten.add.Tensor %301, %300, %int1 : !torch.vtensor<[3072],f32>, !torch.vtensor<[128,3072],f32>, !torch.int -> !torch.vtensor<[128,3072],f32> loc(#loc140)
    %303 = torch.aten.view %302, %192 : !torch.vtensor<[128,3072],f32>, !torch.list<int> -> !torch.vtensor<[1,128,3072],f32> loc(#loc141)
    %304 = torch.aten.mul.Scalar %303, %float5.000000e-01 : !torch.vtensor<[1,128,3072],f32>, !torch.float -> !torch.vtensor<[1,128,3072],f32> loc(#loc142)
    %305 = torch.aten.pow.Tensor_Scalar %303, %float3.000000e00 : !torch.vtensor<[1,128,3072],f32>, !torch.float -> !torch.vtensor<[1,128,3072],f32> loc(#loc143)
    %306 = torch.aten.mul.Scalar %305, %float4.471500e-02 : !torch.vtensor<[1,128,3072],f32>, !torch.float -> !torch.vtensor<[1,128,3072],f32> loc(#loc144)
    %307 = torch.aten.add.Tensor %303, %306, %int1 : !torch.vtensor<[1,128,3072],f32>, !torch.vtensor<[1,128,3072],f32>, !torch.int -> !torch.vtensor<[1,128,3072],f32> loc(#loc145)
    %308 = torch.aten.mul.Scalar %307, %float7.978850e-01 : !torch.vtensor<[1,128,3072],f32>, !torch.float -> !torch.vtensor<[1,128,3072],f32> loc(#loc146)
    %309 = torch.aten.tanh %308 : !torch.vtensor<[1,128,3072],f32> -> !torch.vtensor<[1,128,3072],f32> loc(#loc147)
    %310 = torch.aten.add.Scalar %309, %float1.000000e00, %int1 : !torch.vtensor<[1,128,3072],f32>, !torch.float, !torch.int -> !torch.vtensor<[1,128,3072],f32> loc(#loc148)
    %311 = torch.aten.mul.Tensor %304, %310 : !torch.vtensor<[1,128,3072],f32>, !torch.vtensor<[1,128,3072],f32> -> !torch.vtensor<[1,128,3072],f32> loc(#loc149)
    %312 = torch.aten.view %311, %202 : !torch.vtensor<[1,128,3072],f32>, !torch.list<int> -> !torch.vtensor<[128,3072],f32> loc(#loc150)
    %313 = torch.aten.mm %312, %51 : !torch.vtensor<[128,3072],f32>, !torch.vtensor<[3072,768],f32> -> !torch.vtensor<[128,768],f32> loc(#loc151)
    %314 = torch.aten.mul.Scalar %52, %int1 : !torch.vtensor<[768],f32>, !torch.int -> !torch.vtensor<[768],f32> loc(#loc151)
    %315 = torch.aten.add.Tensor %314, %313, %int1 : !torch.vtensor<[768],f32>, !torch.vtensor<[128,768],f32>, !torch.int -> !torch.vtensor<[128,768],f32> loc(#loc151)
    %316 = torch.aten.view %315, %164 : !torch.vtensor<[128,768],f32>, !torch.list<int> -> !torch.vtensor<[1,128,768],f32> loc(#loc152)
    %317 = torch.aten.add.Tensor %282, %316, %int1 : !torch.vtensor<[1,128,768],f32>, !torch.vtensor<[1,128,768],f32>, !torch.int -> !torch.vtensor<[1,128,768],f32> loc(#loc153)
    %318 = torch.prim.ListConstruct %int2 : (!torch.int) -> !torch.list<int> loc(#loc154)
    %319 = torch.aten.sum.dim_IntList %317, %318, %true, %none : !torch.vtensor<[1,128,768],f32>, !torch.list<int>, !torch.bool, !torch.none -> !torch.vtensor<[1,128,1],f32> loc(#loc154)
    %320 = torch.aten.div.Scalar %319, %int768 : !torch.vtensor<[1,128,1],f32>, !torch.int -> !torch.vtensor<[1,128,1],f32> loc(#loc154)
    %321 = torch.prim.ListConstruct %int1, %int128, %int768 : (!torch.int, !torch.int, !torch.int) -> !torch.list<int> loc(#loc154)
    %322 = torch.aten.broadcast_to %320, %321 : !torch.vtensor<[1,128,1],f32>, !torch.list<int> -> !torch.vtensor<[1,128,768],f32> loc(#loc154)
    %323 = torch.aten.sub.Tensor %317, %322, %int1 : !torch.vtensor<[1,128,768],f32>, !torch.vtensor<[1,128,768],f32>, !torch.int -> !torch.vtensor<[1,128,768],f32> loc(#loc154)
    %324 = torch.aten.mul.Tensor %323, %323 : !torch.vtensor<[1,128,768],f32>, !torch.vtensor<[1,128,768],f32> -> !torch.vtensor<[1,128,768],f32> loc(#loc154)
    %325 = torch.aten.sum.dim_IntList %324, %318, %true, %none : !torch.vtensor<[1,128,768],f32>, !torch.list<int>, !torch.bool, !torch.none -> !torch.vtensor<[1,128,1],f32> loc(#loc154)
    %326 = torch.aten.div.Scalar %325, %int768 : !torch.vtensor<[1,128,1],f32>, !torch.int -> !torch.vtensor<[1,128,1],f32> loc(#loc154)
    %327 = torch.aten.add.Scalar %326, %float1.000000e-05, %int1 : !torch.vtensor<[1,128,1],f32>, !torch.float, !torch.int -> !torch.vtensor<[1,128,1],f32> loc(#loc154)
    %328 = torch.aten.rsqrt %327 : !torch.vtensor<[1,128,1],f32> -> !torch.vtensor<[1,128,1],f32> loc(#loc154)
    %329 = torch.prim.ListConstruct %int1, %int128, %int768 : (!torch.int, !torch.int, !torch.int) -> !torch.list<int> loc(#loc154)
    %330 = torch.aten.broadcast_to %328, %329 : !torch.vtensor<[1,128,1],f32>, !torch.list<int> -> !torch.vtensor<[1,128,768],f32> loc(#loc154)
    %331 = torch.aten.mul.Tensor %323, %330 : !torch.vtensor<[1,128,768],f32>, !torch.vtensor<[1,128,768],f32> -> !torch.vtensor<[1,128,768],f32> loc(#loc154)
    %332 = torch.aten.mul.Tensor %331, %50 : !torch.vtensor<[1,128,768],f32>, !torch.vtensor<[768],f32> -> !torch.vtensor<[1,128,768],f32> loc(#loc154)
    %333 = torch.aten.add.Tensor %332, %49, %int1 : !torch.vtensor<[1,128,768],f32>, !torch.vtensor<[768],f32>, !torch.int -> !torch.vtensor<[1,128,768],f32> loc(#loc154)
    %334 = torch.aten.view %333, %102 : !torch.vtensor<[1,128,768],f32>, !torch.list<int> -> !torch.vtensor<[128,768],f32> loc(#loc155)
    %335 = torch.aten.mm %334, %47 : !torch.vtensor<[128,768],f32>, !torch.vtensor<[768,2304],f32> -> !torch.vtensor<[128,2304],f32> loc(#loc156)
    %336 = torch.aten.mul.Scalar %48, %int1 : !torch.vtensor<[2304],f32>, !torch.int -> !torch.vtensor<[2304],f32> loc(#loc156)
    %337 = torch.aten.add.Tensor %336, %335, %int1 : !torch.vtensor<[2304],f32>, !torch.vtensor<[128,2304],f32>, !torch.int -> !torch.vtensor<[128,2304],f32> loc(#loc156)
    %338 = torch.aten.view %337, %107 : !torch.vtensor<[128,2304],f32>, !torch.list<int> -> !torch.vtensor<[1,128,2304],f32> loc(#loc157)
    %339 = torch.aten.slice.Tensor %338, %int2, %int0, %int768, %int1 : !torch.vtensor<[1,128,2304],f32>, !torch.int, !torch.int, !torch.int, !torch.int -> !torch.vtensor<[1,128,768],f32> loc(#loc158)
    %340 = torch.aten.slice.Tensor %338, %int2, %int768, %int1536, %int1 : !torch.vtensor<[1,128,2304],f32>, !torch.int, !torch.int, !torch.int, !torch.int -> !torch.vtensor<[1,128,768],f32> loc(#loc159)
    %341 = torch.aten.slice.Tensor %338, %int2, %int1536, %int2304, %int1 : !torch.vtensor<[1,128,2304],f32>, !torch.int, !torch.int, !torch.int, !torch.int -> !torch.vtensor<[1,128,768],f32> loc(#loc160)
    %342 = torch.aten.view %339, %112 : !torch.vtensor<[1,128,768],f32>, !torch.list<int> -> !torch.vtensor<[1,128,12,64],f32> loc(#loc161)
    %343 = torch.aten.permute %342, %114 : !torch.vtensor<[1,128,12,64],f32>, !torch.list<int> -> !torch.vtensor<[1,12,128,64],f32> loc(#loc162)
    %344 = torch.aten.view %340, %112 : !torch.vtensor<[1,128,768],f32>, !torch.list<int> -> !torch.vtensor<[1,128,12,64],f32> loc(#loc163)
    %345 = torch.aten.permute %344, %114 : !torch.vtensor<[1,128,12,64],f32>, !torch.list<int> -> !torch.vtensor<[1,12,128,64],f32> loc(#loc164)
    %346 = torch.aten.view %341, %112 : !torch.vtensor<[1,128,768],f32>, !torch.list<int> -> !torch.vtensor<[1,128,12,64],f32> loc(#loc165)
    %347 = torch.aten.permute %346, %114 : !torch.vtensor<[1,128,12,64],f32>, !torch.list<int> -> !torch.vtensor<[1,12,128,64],f32> loc(#loc166)
    %348 = torch.aten.transpose.int %345, %int-1, %int-2 : !torch.vtensor<[1,12,128,64],f32>, !torch.int, !torch.int -> !torch.vtensor<[1,12,64,128],f32> loc(#loc167)
    %349 = torch.aten.broadcast_to %343, %121 : !torch.vtensor<[1,12,128,64],f32>, !torch.list<int> -> !torch.vtensor<[1,12,128,64],f32> loc(#loc168)
    %350 = torch.aten.view %349, %123 : !torch.vtensor<[1,12,128,64],f32>, !torch.list<int> -> !torch.vtensor<[12,128,64],f32> loc(#loc169)
    %351 = torch.aten.broadcast_to %348, %125 : !torch.vtensor<[1,12,64,128],f32>, !torch.list<int> -> !torch.vtensor<[1,12,64,128],f32> loc(#loc170)
    %352 = torch.aten.view %351, %127 : !torch.vtensor<[1,12,64,128],f32>, !torch.list<int> -> !torch.vtensor<[12,64,128],f32> loc(#loc171)
    %353 = torch.aten.bmm %350, %352 : !torch.vtensor<[12,128,64],f32>, !torch.vtensor<[12,64,128],f32> -> !torch.vtensor<[12,128,128],f32> loc(#loc172)
    %354 = torch.aten.view %353, %130 : !torch.vtensor<[12,128,128],f32>, !torch.list<int> -> !torch.vtensor<[1,12,128,128],f32> loc(#loc173)
    %355 = torch.prim.NumToTensor.Scalar %float8.000000e00 : !torch.float -> !torch.vtensor<[],f64> loc(#loc174)
    %356 = torch.aten.to.dtype %355, %int6, %false, %false, %none : !torch.vtensor<[],f64>, !torch.int, !torch.bool, !torch.bool, !torch.none -> !torch.vtensor<[],f32> loc(#loc174)
    %357 = torch.aten.broadcast_to %356, %132 : !torch.vtensor<[],f32>, !torch.list<int> -> !torch.vtensor<[],f32> loc(#loc174)
    %358 = torch.aten.div.Tensor %354, %357 : !torch.vtensor<[1,12,128,128],f32>, !torch.vtensor<[],f32> -> !torch.vtensor<[1,12,128,128],f32> loc(#loc175)
    %359 = torch.aten.slice.Tensor %71, %int2, %int0, %int128, %int1 : !torch.vtensor<[1,1,1024,1024],ui8>, !torch.int, !torch.int, !torch.int, !torch.int -> !torch.vtensor<[1,1,128,1024],ui8> loc(#loc176)
    %360 = torch.aten.slice.Tensor %359, %int3, %int0, %int128, %int1 : !torch.vtensor<[1,1,128,1024],ui8>, !torch.int, !torch.int, !torch.int, !torch.int -> !torch.vtensor<[1,1,128,128],ui8> loc(#loc177)
    %361 = torch.prim.NumToTensor.Scalar %int0 : !torch.int -> !torch.vtensor<[],si64> loc(#loc178)
    %362 = torch.aten.to.dtype %361, %int11, %false, %false, %none : !torch.vtensor<[],si64>, !torch.int, !torch.bool, !torch.bool, !torch.none -> !torch.vtensor<[],i1> loc(#loc178)
    %363 = torch.prim.ListConstruct %int1, %int1, %int128, %int128 : (!torch.int, !torch.int, !torch.int, !torch.int) -> !torch.list<int> loc(#loc178)
    %364 = torch.aten.broadcast_to %362, %363 : !torch.vtensor<[],i1>, !torch.list<int> -> !torch.vtensor<[1,1,128,128],i1> loc(#loc178)
    %365 = torch.aten.to.dtype %360, %int11, %false, %false, %none : !torch.vtensor<[1,1,128,128],ui8>, !torch.int, !torch.bool, !torch.bool, !torch.none -> !torch.vtensor<[1,1,128,128],i1> loc(#loc178)
    %366 = torch.prim.ListConstruct %int1, %int1, %int128, %int128 : (!torch.int, !torch.int, !torch.int, !torch.int) -> !torch.list<int> loc(#loc178)
    %367 = torch.aten.broadcast_to %365, %366 : !torch.vtensor<[1,1,128,128],i1>, !torch.list<int> -> !torch.vtensor<[1,1,128,128],i1> loc(#loc178)
    %368 = torch.prim.NumToTensor.Scalar %float-3.402820e38 : !torch.float -> !torch.vtensor<[],f64> loc(#loc179)
    %369 = torch.aten.to.dtype %368, %int6, %false, %false, %none : !torch.vtensor<[],f64>, !torch.int, !torch.bool, !torch.bool, !torch.none -> !torch.vtensor<[],f32> loc(#loc179)
    %370 = torch.aten.broadcast_to %369, %132 : !torch.vtensor<[],f32>, !torch.list<int> -> !torch.vtensor<[],f32> loc(#loc179)
    %371 = torch.aten.where.self %367, %358, %370 : !torch.vtensor<[1,1,128,128],i1>, !torch.vtensor<[1,12,128,128],f32>, !torch.vtensor<[],f32> -> !torch.vtensor<[1,12,128,128],f32> loc(#loc180)
    %values_2, %indices_3 = torch.aten.max.dim %371, %int-1, %true : !torch.vtensor<[1,12,128,128],f32>, !torch.int, !torch.bool -> !torch.vtensor<[1,12,128,1],f32>, !torch.vtensor<[1,12,128,1],si64> loc(#loc181)
    %372 = torch.aten.sub.Tensor %371, %values_2, %float1.000000e00 : !torch.vtensor<[1,12,128,128],f32>, !torch.vtensor<[1,12,128,1],f32>, !torch.float -> !torch.vtensor<[1,12,128,128],f32> loc(#loc181)
    %373 = torch.aten.exp %372 : !torch.vtensor<[1,12,128,128],f32> -> !torch.vtensor<[1,12,128,128],f32> loc(#loc181)
    %374 = torch.prim.ListConstruct %int-1 : (!torch.int) -> !torch.list<int> loc(#loc181)
    %375 = torch.aten.sum.dim_IntList %373, %374, %true, %none : !torch.vtensor<[1,12,128,128],f32>, !torch.list<int>, !torch.bool, !torch.none -> !torch.vtensor<[1,12,128,1],f32> loc(#loc181)
    %376 = torch.aten.div.Tensor %373, %375 : !torch.vtensor<[1,12,128,128],f32>, !torch.vtensor<[1,12,128,1],f32> -> !torch.vtensor<[1,12,128,128],f32> loc(#loc181)
    %377 = torch.aten.broadcast_to %376, %130 : !torch.vtensor<[1,12,128,128],f32>, !torch.list<int> -> !torch.vtensor<[1,12,128,128],f32> loc(#loc182)
    %378 = torch.aten.view %377, %156 : !torch.vtensor<[1,12,128,128],f32>, !torch.list<int> -> !torch.vtensor<[12,128,128],f32> loc(#loc183)
    %379 = torch.aten.broadcast_to %347, %121 : !torch.vtensor<[1,12,128,64],f32>, !torch.list<int> -> !torch.vtensor<[1,12,128,64],f32> loc(#loc184)
    %380 = torch.aten.view %379, %123 : !torch.vtensor<[1,12,128,64],f32>, !torch.list<int> -> !torch.vtensor<[12,128,64],f32> loc(#loc185)
    %381 = torch.aten.bmm %378, %380 : !torch.vtensor<[12,128,128],f32>, !torch.vtensor<[12,128,64],f32> -> !torch.vtensor<[12,128,64],f32> loc(#loc186)
    %382 = torch.aten.view %381, %121 : !torch.vtensor<[12,128,64],f32>, !torch.list<int> -> !torch.vtensor<[1,12,128,64],f32> loc(#loc187)
    %383 = torch.aten.permute %382, %114 : !torch.vtensor<[1,12,128,64],f32>, !torch.list<int> -> !torch.vtensor<[1,128,12,64],f32> loc(#loc188)
    %384 = torch.aten.clone %383, %int0 : !torch.vtensor<[1,128,12,64],f32>, !torch.int -> !torch.vtensor<[1,128,12,64],f32> loc(#loc189)
    %385 = torch.aten.view %384, %164 : !torch.vtensor<[1,128,12,64],f32>, !torch.list<int> -> !torch.vtensor<[1,128,768],f32> loc(#loc190)
    %386 = torch.aten.view %385, %102 : !torch.vtensor<[1,128,768],f32>, !torch.list<int> -> !torch.vtensor<[128,768],f32> loc(#loc191)
    %387 = torch.aten.mm %386, %45 : !torch.vtensor<[128,768],f32>, !torch.vtensor<[768,768],f32> -> !torch.vtensor<[128,768],f32> loc(#loc192)
    %388 = torch.aten.mul.Scalar %46, %int1 : !torch.vtensor<[768],f32>, !torch.int -> !torch.vtensor<[768],f32> loc(#loc192)
    %389 = torch.aten.add.Tensor %388, %387, %int1 : !torch.vtensor<[768],f32>, !torch.vtensor<[128,768],f32>, !torch.int -> !torch.vtensor<[128,768],f32> loc(#loc192)
    %390 = torch.aten.view %389, %164 : !torch.vtensor<[128,768],f32>, !torch.list<int> -> !torch.vtensor<[1,128,768],f32> loc(#loc193)
    %391 = torch.aten.add.Tensor %390, %317, %int1 : !torch.vtensor<[1,128,768],f32>, !torch.vtensor<[1,128,768],f32>, !torch.int -> !torch.vtensor<[1,128,768],f32> loc(#loc194)
    %392 = torch.prim.ListConstruct %int2 : (!torch.int) -> !torch.list<int> loc(#loc195)
    %393 = torch.aten.sum.dim_IntList %391, %392, %true, %none : !torch.vtensor<[1,128,768],f32>, !torch.list<int>, !torch.bool, !torch.none -> !torch.vtensor<[1,128,1],f32> loc(#loc195)
    %394 = torch.aten.div.Scalar %393, %int768 : !torch.vtensor<[1,128,1],f32>, !torch.int -> !torch.vtensor<[1,128,1],f32> loc(#loc195)
    %395 = torch.prim.ListConstruct %int1, %int128, %int768 : (!torch.int, !torch.int, !torch.int) -> !torch.list<int> loc(#loc195)
    %396 = torch.aten.broadcast_to %394, %395 : !torch.vtensor<[1,128,1],f32>, !torch.list<int> -> !torch.vtensor<[1,128,768],f32> loc(#loc195)
    %397 = torch.aten.sub.Tensor %391, %396, %int1 : !torch.vtensor<[1,128,768],f32>, !torch.vtensor<[1,128,768],f32>, !torch.int -> !torch.vtensor<[1,128,768],f32> loc(#loc195)
    %398 = torch.aten.mul.Tensor %397, %397 : !torch.vtensor<[1,128,768],f32>, !torch.vtensor<[1,128,768],f32> -> !torch.vtensor<[1,128,768],f32> loc(#loc195)
    %399 = torch.aten.sum.dim_IntList %398, %392, %true, %none : !torch.vtensor<[1,128,768],f32>, !torch.list<int>, !torch.bool, !torch.none -> !torch.vtensor<[1,128,1],f32> loc(#loc195)
    %400 = torch.aten.div.Scalar %399, %int768 : !torch.vtensor<[1,128,1],f32>, !torch.int -> !torch.vtensor<[1,128,1],f32> loc(#loc195)
    %401 = torch.aten.add.Scalar %400, %float1.000000e-05, %int1 : !torch.vtensor<[1,128,1],f32>, !torch.float, !torch.int -> !torch.vtensor<[1,128,1],f32> loc(#loc195)
    %402 = torch.aten.rsqrt %401 : !torch.vtensor<[1,128,1],f32> -> !torch.vtensor<[1,128,1],f32> loc(#loc195)
    %403 = torch.prim.ListConstruct %int1, %int128, %int768 : (!torch.int, !torch.int, !torch.int) -> !torch.list<int> loc(#loc195)
    %404 = torch.aten.broadcast_to %402, %403 : !torch.vtensor<[1,128,1],f32>, !torch.list<int> -> !torch.vtensor<[1,128,768],f32> loc(#loc195)
    %405 = torch.aten.mul.Tensor %397, %404 : !torch.vtensor<[1,128,768],f32>, !torch.vtensor<[1,128,768],f32> -> !torch.vtensor<[1,128,768],f32> loc(#loc195)
    %406 = torch.aten.mul.Tensor %405, %44 : !torch.vtensor<[1,128,768],f32>, !torch.vtensor<[768],f32> -> !torch.vtensor<[1,128,768],f32> loc(#loc195)
    %407 = torch.aten.add.Tensor %406, %43, %int1 : !torch.vtensor<[1,128,768],f32>, !torch.vtensor<[768],f32>, !torch.int -> !torch.vtensor<[1,128,768],f32> loc(#loc195)
    %408 = torch.aten.view %407, %102 : !torch.vtensor<[1,128,768],f32>, !torch.list<int> -> !torch.vtensor<[128,768],f32> loc(#loc196)
    %409 = torch.aten.mm %408, %41 : !torch.vtensor<[128,768],f32>, !torch.vtensor<[768,3072],f32> -> !torch.vtensor<[128,3072],f32> loc(#loc197)
    %410 = torch.aten.mul.Scalar %42, %int1 : !torch.vtensor<[3072],f32>, !torch.int -> !torch.vtensor<[3072],f32> loc(#loc197)
    %411 = torch.aten.add.Tensor %410, %409, %int1 : !torch.vtensor<[3072],f32>, !torch.vtensor<[128,3072],f32>, !torch.int -> !torch.vtensor<[128,3072],f32> loc(#loc197)
    %412 = torch.aten.view %411, %192 : !torch.vtensor<[128,3072],f32>, !torch.list<int> -> !torch.vtensor<[1,128,3072],f32> loc(#loc198)
    %413 = torch.aten.mul.Scalar %412, %float5.000000e-01 : !torch.vtensor<[1,128,3072],f32>, !torch.float -> !torch.vtensor<[1,128,3072],f32> loc(#loc199)
    %414 = torch.aten.pow.Tensor_Scalar %412, %float3.000000e00 : !torch.vtensor<[1,128,3072],f32>, !torch.float -> !torch.vtensor<[1,128,3072],f32> loc(#loc200)
    %415 = torch.aten.mul.Scalar %414, %float4.471500e-02 : !torch.vtensor<[1,128,3072],f32>, !torch.float -> !torch.vtensor<[1,128,3072],f32> loc(#loc201)
    %416 = torch.aten.add.Tensor %412, %415, %int1 : !torch.vtensor<[1,128,3072],f32>, !torch.vtensor<[1,128,3072],f32>, !torch.int -> !torch.vtensor<[1,128,3072],f32> loc(#loc202)
    %417 = torch.aten.mul.Scalar %416, %float7.978850e-01 : !torch.vtensor<[1,128,3072],f32>, !torch.float -> !torch.vtensor<[1,128,3072],f32> loc(#loc203)
    %418 = torch.aten.tanh %417 : !torch.vtensor<[1,128,3072],f32> -> !torch.vtensor<[1,128,3072],f32> loc(#loc204)
    %419 = torch.aten.add.Scalar %418, %float1.000000e00, %int1 : !torch.vtensor<[1,128,3072],f32>, !torch.float, !torch.int -> !torch.vtensor<[1,128,3072],f32> loc(#loc205)
    %420 = torch.aten.mul.Tensor %413, %419 : !torch.vtensor<[1,128,3072],f32>, !torch.vtensor<[1,128,3072],f32> -> !torch.vtensor<[1,128,3072],f32> loc(#loc206)
    %421 = torch.aten.view %420, %202 : !torch.vtensor<[1,128,3072],f32>, !torch.list<int> -> !torch.vtensor<[128,3072],f32> loc(#loc207)
    %422 = torch.aten.mm %421, %39 : !torch.vtensor<[128,3072],f32>, !torch.vtensor<[3072,768],f32> -> !torch.vtensor<[128,768],f32> loc(#loc208)
    %423 = torch.aten.mul.Scalar %40, %int1 : !torch.vtensor<[768],f32>, !torch.int -> !torch.vtensor<[768],f32> loc(#loc208)
    %424 = torch.aten.add.Tensor %423, %422, %int1 : !torch.vtensor<[768],f32>, !torch.vtensor<[128,768],f32>, !torch.int -> !torch.vtensor<[128,768],f32> loc(#loc208)
    %425 = torch.aten.view %424, %164 : !torch.vtensor<[128,768],f32>, !torch.list<int> -> !torch.vtensor<[1,128,768],f32> loc(#loc209)
    %426 = torch.aten.add.Tensor %391, %425, %int1 : !torch.vtensor<[1,128,768],f32>, !torch.vtensor<[1,128,768],f32>, !torch.int -> !torch.vtensor<[1,128,768],f32> loc(#loc210)
    %427 = torch.prim.ListConstruct %int2 : (!torch.int) -> !torch.list<int> loc(#loc211)
    %428 = torch.aten.sum.dim_IntList %426, %427, %true, %none : !torch.vtensor<[1,128,768],f32>, !torch.list<int>, !torch.bool, !torch.none -> !torch.vtensor<[1,128,1],f32> loc(#loc211)
    %429 = torch.aten.div.Scalar %428, %int768 : !torch.vtensor<[1,128,1],f32>, !torch.int -> !torch.vtensor<[1,128,1],f32> loc(#loc211)
    %430 = torch.prim.ListConstruct %int1, %int128, %int768 : (!torch.int, !torch.int, !torch.int) -> !torch.list<int> loc(#loc211)
    %431 = torch.aten.broadcast_to %429, %430 : !torch.vtensor<[1,128,1],f32>, !torch.list<int> -> !torch.vtensor<[1,128,768],f32> loc(#loc211)
    %432 = torch.aten.sub.Tensor %426, %431, %int1 : !torch.vtensor<[1,128,768],f32>, !torch.vtensor<[1,128,768],f32>, !torch.int -> !torch.vtensor<[1,128,768],f32> loc(#loc211)
    %433 = torch.aten.mul.Tensor %432, %432 : !torch.vtensor<[1,128,768],f32>, !torch.vtensor<[1,128,768],f32> -> !torch.vtensor<[1,128,768],f32> loc(#loc211)
    %434 = torch.aten.sum.dim_IntList %433, %427, %true, %none : !torch.vtensor<[1,128,768],f32>, !torch.list<int>, !torch.bool, !torch.none -> !torch.vtensor<[1,128,1],f32> loc(#loc211)
    %435 = torch.aten.div.Scalar %434, %int768 : !torch.vtensor<[1,128,1],f32>, !torch.int -> !torch.vtensor<[1,128,1],f32> loc(#loc211)
    %436 = torch.aten.add.Scalar %435, %float1.000000e-05, %int1 : !torch.vtensor<[1,128,1],f32>, !torch.float, !torch.int -> !torch.vtensor<[1,128,1],f32> loc(#loc211)
    %437 = torch.aten.rsqrt %436 : !torch.vtensor<[1,128,1],f32> -> !torch.vtensor<[1,128,1],f32> loc(#loc211)
    %438 = torch.prim.ListConstruct %int1, %int128, %int768 : (!torch.int, !torch.int, !torch.int) -> !torch.list<int> loc(#loc211)
    %439 = torch.aten.broadcast_to %437, %438 : !torch.vtensor<[1,128,1],f32>, !torch.list<int> -> !torch.vtensor<[1,128,768],f32> loc(#loc211)
    %440 = torch.aten.mul.Tensor %432, %439 : !torch.vtensor<[1,128,768],f32>, !torch.vtensor<[1,128,768],f32> -> !torch.vtensor<[1,128,768],f32> loc(#loc211)
    %441 = torch.aten.mul.Tensor %440, %38 : !torch.vtensor<[1,128,768],f32>, !torch.vtensor<[768],f32> -> !torch.vtensor<[1,128,768],f32> loc(#loc211)
    %442 = torch.aten.add.Tensor %441, %37, %int1 : !torch.vtensor<[1,128,768],f32>, !torch.vtensor<[768],f32>, !torch.int -> !torch.vtensor<[1,128,768],f32> loc(#loc211)
    %443 = torch.aten.view %442, %102 : !torch.vtensor<[1,128,768],f32>, !torch.list<int> -> !torch.vtensor<[128,768],f32> loc(#loc212)
    %444 = torch.aten.mm %443, %35 : !torch.vtensor<[128,768],f32>, !torch.vtensor<[768,2304],f32> -> !torch.vtensor<[128,2304],f32> loc(#loc213)
    %445 = torch.aten.mul.Scalar %36, %int1 : !torch.vtensor<[2304],f32>, !torch.int -> !torch.vtensor<[2304],f32> loc(#loc213)
    %446 = torch.aten.add.Tensor %445, %444, %int1 : !torch.vtensor<[2304],f32>, !torch.vtensor<[128,2304],f32>, !torch.int -> !torch.vtensor<[128,2304],f32> loc(#loc213)
    %447 = torch.aten.view %446, %107 : !torch.vtensor<[128,2304],f32>, !torch.list<int> -> !torch.vtensor<[1,128,2304],f32> loc(#loc214)
    %448 = torch.aten.slice.Tensor %447, %int2, %int0, %int768, %int1 : !torch.vtensor<[1,128,2304],f32>, !torch.int, !torch.int, !torch.int, !torch.int -> !torch.vtensor<[1,128,768],f32> loc(#loc215)
    %449 = torch.aten.slice.Tensor %447, %int2, %int768, %int1536, %int1 : !torch.vtensor<[1,128,2304],f32>, !torch.int, !torch.int, !torch.int, !torch.int -> !torch.vtensor<[1,128,768],f32> loc(#loc216)
    %450 = torch.aten.slice.Tensor %447, %int2, %int1536, %int2304, %int1 : !torch.vtensor<[1,128,2304],f32>, !torch.int, !torch.int, !torch.int, !torch.int -> !torch.vtensor<[1,128,768],f32> loc(#loc217)
    %451 = torch.aten.view %448, %112 : !torch.vtensor<[1,128,768],f32>, !torch.list<int> -> !torch.vtensor<[1,128,12,64],f32> loc(#loc218)
    %452 = torch.aten.permute %451, %114 : !torch.vtensor<[1,128,12,64],f32>, !torch.list<int> -> !torch.vtensor<[1,12,128,64],f32> loc(#loc219)
    %453 = torch.aten.view %449, %112 : !torch.vtensor<[1,128,768],f32>, !torch.list<int> -> !torch.vtensor<[1,128,12,64],f32> loc(#loc220)
    %454 = torch.aten.permute %453, %114 : !torch.vtensor<[1,128,12,64],f32>, !torch.list<int> -> !torch.vtensor<[1,12,128,64],f32> loc(#loc221)
    %455 = torch.aten.view %450, %112 : !torch.vtensor<[1,128,768],f32>, !torch.list<int> -> !torch.vtensor<[1,128,12,64],f32> loc(#loc222)
    %456 = torch.aten.permute %455, %114 : !torch.vtensor<[1,128,12,64],f32>, !torch.list<int> -> !torch.vtensor<[1,12,128,64],f32> loc(#loc223)
    %457 = torch.aten.transpose.int %454, %int-1, %int-2 : !torch.vtensor<[1,12,128,64],f32>, !torch.int, !torch.int -> !torch.vtensor<[1,12,64,128],f32> loc(#loc224)
    %458 = torch.aten.broadcast_to %452, %121 : !torch.vtensor<[1,12,128,64],f32>, !torch.list<int> -> !torch.vtensor<[1,12,128,64],f32> loc(#loc225)
    %459 = torch.aten.view %458, %123 : !torch.vtensor<[1,12,128,64],f32>, !torch.list<int> -> !torch.vtensor<[12,128,64],f32> loc(#loc226)
    %460 = torch.aten.broadcast_to %457, %125 : !torch.vtensor<[1,12,64,128],f32>, !torch.list<int> -> !torch.vtensor<[1,12,64,128],f32> loc(#loc227)
    %461 = torch.aten.view %460, %127 : !torch.vtensor<[1,12,64,128],f32>, !torch.list<int> -> !torch.vtensor<[12,64,128],f32> loc(#loc228)
    %462 = torch.aten.bmm %459, %461 : !torch.vtensor<[12,128,64],f32>, !torch.vtensor<[12,64,128],f32> -> !torch.vtensor<[12,128,128],f32> loc(#loc229)
    %463 = torch.aten.view %462, %130 : !torch.vtensor<[12,128,128],f32>, !torch.list<int> -> !torch.vtensor<[1,12,128,128],f32> loc(#loc230)
    %464 = torch.prim.NumToTensor.Scalar %float8.000000e00 : !torch.float -> !torch.vtensor<[],f64> loc(#loc231)
    %465 = torch.aten.to.dtype %464, %int6, %false, %false, %none : !torch.vtensor<[],f64>, !torch.int, !torch.bool, !torch.bool, !torch.none -> !torch.vtensor<[],f32> loc(#loc231)
    %466 = torch.aten.broadcast_to %465, %132 : !torch.vtensor<[],f32>, !torch.list<int> -> !torch.vtensor<[],f32> loc(#loc231)
    %467 = torch.aten.div.Tensor %463, %466 : !torch.vtensor<[1,12,128,128],f32>, !torch.vtensor<[],f32> -> !torch.vtensor<[1,12,128,128],f32> loc(#loc232)
    %468 = torch.aten.slice.Tensor %71, %int2, %int0, %int128, %int1 : !torch.vtensor<[1,1,1024,1024],ui8>, !torch.int, !torch.int, !torch.int, !torch.int -> !torch.vtensor<[1,1,128,1024],ui8> loc(#loc233)
    %469 = torch.aten.slice.Tensor %468, %int3, %int0, %int128, %int1 : !torch.vtensor<[1,1,128,1024],ui8>, !torch.int, !torch.int, !torch.int, !torch.int -> !torch.vtensor<[1,1,128,128],ui8> loc(#loc234)
    %470 = torch.prim.NumToTensor.Scalar %int0 : !torch.int -> !torch.vtensor<[],si64> loc(#loc235)
    %471 = torch.aten.to.dtype %470, %int11, %false, %false, %none : !torch.vtensor<[],si64>, !torch.int, !torch.bool, !torch.bool, !torch.none -> !torch.vtensor<[],i1> loc(#loc235)
    %472 = torch.prim.ListConstruct %int1, %int1, %int128, %int128 : (!torch.int, !torch.int, !torch.int, !torch.int) -> !torch.list<int> loc(#loc235)
    %473 = torch.aten.broadcast_to %471, %472 : !torch.vtensor<[],i1>, !torch.list<int> -> !torch.vtensor<[1,1,128,128],i1> loc(#loc235)
    %474 = torch.aten.to.dtype %469, %int11, %false, %false, %none : !torch.vtensor<[1,1,128,128],ui8>, !torch.int, !torch.bool, !torch.bool, !torch.none -> !torch.vtensor<[1,1,128,128],i1> loc(#loc235)
    %475 = torch.prim.ListConstruct %int1, %int1, %int128, %int128 : (!torch.int, !torch.int, !torch.int, !torch.int) -> !torch.list<int> loc(#loc235)
    %476 = torch.aten.broadcast_to %474, %475 : !torch.vtensor<[1,1,128,128],i1>, !torch.list<int> -> !torch.vtensor<[1,1,128,128],i1> loc(#loc235)
    %477 = torch.prim.NumToTensor.Scalar %float-3.402820e38 : !torch.float -> !torch.vtensor<[],f64> loc(#loc236)
    %478 = torch.aten.to.dtype %477, %int6, %false, %false, %none : !torch.vtensor<[],f64>, !torch.int, !torch.bool, !torch.bool, !torch.none -> !torch.vtensor<[],f32> loc(#loc236)
    %479 = torch.aten.broadcast_to %478, %132 : !torch.vtensor<[],f32>, !torch.list<int> -> !torch.vtensor<[],f32> loc(#loc236)
    %480 = torch.aten.where.self %476, %467, %479 : !torch.vtensor<[1,1,128,128],i1>, !torch.vtensor<[1,12,128,128],f32>, !torch.vtensor<[],f32> -> !torch.vtensor<[1,12,128,128],f32> loc(#loc237)
    %values_4, %indices_5 = torch.aten.max.dim %480, %int-1, %true : !torch.vtensor<[1,12,128,128],f32>, !torch.int, !torch.bool -> !torch.vtensor<[1,12,128,1],f32>, !torch.vtensor<[1,12,128,1],si64> loc(#loc238)
    %481 = torch.aten.sub.Tensor %480, %values_4, %float1.000000e00 : !torch.vtensor<[1,12,128,128],f32>, !torch.vtensor<[1,12,128,1],f32>, !torch.float -> !torch.vtensor<[1,12,128,128],f32> loc(#loc238)
    %482 = torch.aten.exp %481 : !torch.vtensor<[1,12,128,128],f32> -> !torch.vtensor<[1,12,128,128],f32> loc(#loc238)
    %483 = torch.prim.ListConstruct %int-1 : (!torch.int) -> !torch.list<int> loc(#loc238)
    %484 = torch.aten.sum.dim_IntList %482, %483, %true, %none : !torch.vtensor<[1,12,128,128],f32>, !torch.list<int>, !torch.bool, !torch.none -> !torch.vtensor<[1,12,128,1],f32> loc(#loc238)
    %485 = torch.aten.div.Tensor %482, %484 : !torch.vtensor<[1,12,128,128],f32>, !torch.vtensor<[1,12,128,1],f32> -> !torch.vtensor<[1,12,128,128],f32> loc(#loc238)
    %486 = torch.aten.broadcast_to %485, %130 : !torch.vtensor<[1,12,128,128],f32>, !torch.list<int> -> !torch.vtensor<[1,12,128,128],f32> loc(#loc239)
    %487 = torch.aten.view %486, %156 : !torch.vtensor<[1,12,128,128],f32>, !torch.list<int> -> !torch.vtensor<[12,128,128],f32> loc(#loc240)
    %488 = torch.aten.broadcast_to %456, %121 : !torch.vtensor<[1,12,128,64],f32>, !torch.list<int> -> !torch.vtensor<[1,12,128,64],f32> loc(#loc241)
    %489 = torch.aten.view %488, %123 : !torch.vtensor<[1,12,128,64],f32>, !torch.list<int> -> !torch.vtensor<[12,128,64],f32> loc(#loc242)
    %490 = torch.aten.bmm %487, %489 : !torch.vtensor<[12,128,128],f32>, !torch.vtensor<[12,128,64],f32> -> !torch.vtensor<[12,128,64],f32> loc(#loc243)
    %491 = torch.aten.view %490, %121 : !torch.vtensor<[12,128,64],f32>, !torch.list<int> -> !torch.vtensor<[1,12,128,64],f32> loc(#loc244)
    %492 = torch.aten.permute %491, %114 : !torch.vtensor<[1,12,128,64],f32>, !torch.list<int> -> !torch.vtensor<[1,128,12,64],f32> loc(#loc245)
    %493 = torch.aten.clone %492, %int0 : !torch.vtensor<[1,128,12,64],f32>, !torch.int -> !torch.vtensor<[1,128,12,64],f32> loc(#loc246)
    %494 = torch.aten.view %493, %164 : !torch.vtensor<[1,128,12,64],f32>, !torch.list<int> -> !torch.vtensor<[1,128,768],f32> loc(#loc247)
    %495 = torch.aten.view %494, %102 : !torch.vtensor<[1,128,768],f32>, !torch.list<int> -> !torch.vtensor<[128,768],f32> loc(#loc248)
    %496 = torch.aten.mm %495, %33 : !torch.vtensor<[128,768],f32>, !torch.vtensor<[768,768],f32> -> !torch.vtensor<[128,768],f32> loc(#loc249)
    %497 = torch.aten.mul.Scalar %34, %int1 : !torch.vtensor<[768],f32>, !torch.int -> !torch.vtensor<[768],f32> loc(#loc249)
    %498 = torch.aten.add.Tensor %497, %496, %int1 : !torch.vtensor<[768],f32>, !torch.vtensor<[128,768],f32>, !torch.int -> !torch.vtensor<[128,768],f32> loc(#loc249)
    %499 = torch.aten.view %498, %164 : !torch.vtensor<[128,768],f32>, !torch.list<int> -> !torch.vtensor<[1,128,768],f32> loc(#loc250)
    %500 = torch.aten.add.Tensor %499, %426, %int1 : !torch.vtensor<[1,128,768],f32>, !torch.vtensor<[1,128,768],f32>, !torch.int -> !torch.vtensor<[1,128,768],f32> loc(#loc251)
    %501 = torch.prim.ListConstruct %int2 : (!torch.int) -> !torch.list<int> loc(#loc252)
    %502 = torch.aten.sum.dim_IntList %500, %501, %true, %none : !torch.vtensor<[1,128,768],f32>, !torch.list<int>, !torch.bool, !torch.none -> !torch.vtensor<[1,128,1],f32> loc(#loc252)
    %503 = torch.aten.div.Scalar %502, %int768 : !torch.vtensor<[1,128,1],f32>, !torch.int -> !torch.vtensor<[1,128,1],f32> loc(#loc252)
    %504 = torch.prim.ListConstruct %int1, %int128, %int768 : (!torch.int, !torch.int, !torch.int) -> !torch.list<int> loc(#loc252)
    %505 = torch.aten.broadcast_to %503, %504 : !torch.vtensor<[1,128,1],f32>, !torch.list<int> -> !torch.vtensor<[1,128,768],f32> loc(#loc252)
    %506 = torch.aten.sub.Tensor %500, %505, %int1 : !torch.vtensor<[1,128,768],f32>, !torch.vtensor<[1,128,768],f32>, !torch.int -> !torch.vtensor<[1,128,768],f32> loc(#loc252)
    %507 = torch.aten.mul.Tensor %506, %506 : !torch.vtensor<[1,128,768],f32>, !torch.vtensor<[1,128,768],f32> -> !torch.vtensor<[1,128,768],f32> loc(#loc252)
    %508 = torch.aten.sum.dim_IntList %507, %501, %true, %none : !torch.vtensor<[1,128,768],f32>, !torch.list<int>, !torch.bool, !torch.none -> !torch.vtensor<[1,128,1],f32> loc(#loc252)
    %509 = torch.aten.div.Scalar %508, %int768 : !torch.vtensor<[1,128,1],f32>, !torch.int -> !torch.vtensor<[1,128,1],f32> loc(#loc252)
    %510 = torch.aten.add.Scalar %509, %float1.000000e-05, %int1 : !torch.vtensor<[1,128,1],f32>, !torch.float, !torch.int -> !torch.vtensor<[1,128,1],f32> loc(#loc252)
    %511 = torch.aten.rsqrt %510 : !torch.vtensor<[1,128,1],f32> -> !torch.vtensor<[1,128,1],f32> loc(#loc252)
    %512 = torch.prim.ListConstruct %int1, %int128, %int768 : (!torch.int, !torch.int, !torch.int) -> !torch.list<int> loc(#loc252)
    %513 = torch.aten.broadcast_to %511, %512 : !torch.vtensor<[1,128,1],f32>, !torch.list<int> -> !torch.vtensor<[1,128,768],f32> loc(#loc252)
    %514 = torch.aten.mul.Tensor %506, %513 : !torch.vtensor<[1,128,768],f32>, !torch.vtensor<[1,128,768],f32> -> !torch.vtensor<[1,128,768],f32> loc(#loc252)
    %515 = torch.aten.mul.Tensor %514, %32 : !torch.vtensor<[1,128,768],f32>, !torch.vtensor<[768],f32> -> !torch.vtensor<[1,128,768],f32> loc(#loc252)
    %516 = torch.aten.add.Tensor %515, %31, %int1 : !torch.vtensor<[1,128,768],f32>, !torch.vtensor<[768],f32>, !torch.int -> !torch.vtensor<[1,128,768],f32> loc(#loc252)
    %517 = torch.aten.view %516, %102 : !torch.vtensor<[1,128,768],f32>, !torch.list<int> -> !torch.vtensor<[128,768],f32> loc(#loc253)
    %518 = torch.aten.mm %517, %29 : !torch.vtensor<[128,768],f32>, !torch.vtensor<[768,3072],f32> -> !torch.vtensor<[128,3072],f32> loc(#loc254)
    %519 = torch.aten.mul.Scalar %30, %int1 : !torch.vtensor<[3072],f32>, !torch.int -> !torch.vtensor<[3072],f32> loc(#loc254)
    %520 = torch.aten.add.Tensor %519, %518, %int1 : !torch.vtensor<[3072],f32>, !torch.vtensor<[128,3072],f32>, !torch.int -> !torch.vtensor<[128,3072],f32> loc(#loc254)
    %521 = torch.aten.view %520, %192 : !torch.vtensor<[128,3072],f32>, !torch.list<int> -> !torch.vtensor<[1,128,3072],f32> loc(#loc255)
    %522 = torch.aten.mul.Scalar %521, %float5.000000e-01 : !torch.vtensor<[1,128,3072],f32>, !torch.float -> !torch.vtensor<[1,128,3072],f32> loc(#loc256)
    %523 = torch.aten.pow.Tensor_Scalar %521, %float3.000000e00 : !torch.vtensor<[1,128,3072],f32>, !torch.float -> !torch.vtensor<[1,128,3072],f32> loc(#loc257)
    %524 = torch.aten.mul.Scalar %523, %float4.471500e-02 : !torch.vtensor<[1,128,3072],f32>, !torch.float -> !torch.vtensor<[1,128,3072],f32> loc(#loc258)
    %525 = torch.aten.add.Tensor %521, %524, %int1 : !torch.vtensor<[1,128,3072],f32>, !torch.vtensor<[1,128,3072],f32>, !torch.int -> !torch.vtensor<[1,128,3072],f32> loc(#loc259)
    %526 = torch.aten.mul.Scalar %525, %float7.978850e-01 : !torch.vtensor<[1,128,3072],f32>, !torch.float -> !torch.vtensor<[1,128,3072],f32> loc(#loc260)
    %527 = torch.aten.tanh %526 : !torch.vtensor<[1,128,3072],f32> -> !torch.vtensor<[1,128,3072],f32> loc(#loc261)
    %528 = torch.aten.add.Scalar %527, %float1.000000e00, %int1 : !torch.vtensor<[1,128,3072],f32>, !torch.float, !torch.int -> !torch.vtensor<[1,128,3072],f32> loc(#loc262)
    %529 = torch.aten.mul.Tensor %522, %528 : !torch.vtensor<[1,128,3072],f32>, !torch.vtensor<[1,128,3072],f32> -> !torch.vtensor<[1,128,3072],f32> loc(#loc263)
    %530 = torch.aten.view %529, %202 : !torch.vtensor<[1,128,3072],f32>, !torch.list<int> -> !torch.vtensor<[128,3072],f32> loc(#loc264)
    %531 = torch.aten.mm %530, %27 : !torch.vtensor<[128,3072],f32>, !torch.vtensor<[3072,768],f32> -> !torch.vtensor<[128,768],f32> loc(#loc265)
    %532 = torch.aten.mul.Scalar %28, %int1 : !torch.vtensor<[768],f32>, !torch.int -> !torch.vtensor<[768],f32> loc(#loc265)
    %533 = torch.aten.add.Tensor %532, %531, %int1 : !torch.vtensor<[768],f32>, !torch.vtensor<[128,768],f32>, !torch.int -> !torch.vtensor<[128,768],f32> loc(#loc265)
    %534 = torch.aten.view %533, %164 : !torch.vtensor<[128,768],f32>, !torch.list<int> -> !torch.vtensor<[1,128,768],f32> loc(#loc266)
    %535 = torch.aten.add.Tensor %500, %534, %int1 : !torch.vtensor<[1,128,768],f32>, !torch.vtensor<[1,128,768],f32>, !torch.int -> !torch.vtensor<[1,128,768],f32> loc(#loc267)
    %536 = torch.prim.ListConstruct %int2 : (!torch.int) -> !torch.list<int> loc(#loc268)
    %537 = torch.aten.sum.dim_IntList %535, %536, %true, %none : !torch.vtensor<[1,128,768],f32>, !torch.list<int>, !torch.bool, !torch.none -> !torch.vtensor<[1,128,1],f32> loc(#loc268)
    %538 = torch.aten.div.Scalar %537, %int768 : !torch.vtensor<[1,128,1],f32>, !torch.int -> !torch.vtensor<[1,128,1],f32> loc(#loc268)
    %539 = torch.prim.ListConstruct %int1, %int128, %int768 : (!torch.int, !torch.int, !torch.int) -> !torch.list<int> loc(#loc268)
    %540 = torch.aten.broadcast_to %538, %539 : !torch.vtensor<[1,128,1],f32>, !torch.list<int> -> !torch.vtensor<[1,128,768],f32> loc(#loc268)
    %541 = torch.aten.sub.Tensor %535, %540, %int1 : !torch.vtensor<[1,128,768],f32>, !torch.vtensor<[1,128,768],f32>, !torch.int -> !torch.vtensor<[1,128,768],f32> loc(#loc268)
    %542 = torch.aten.mul.Tensor %541, %541 : !torch.vtensor<[1,128,768],f32>, !torch.vtensor<[1,128,768],f32> -> !torch.vtensor<[1,128,768],f32> loc(#loc268)
    %543 = torch.aten.sum.dim_IntList %542, %536, %true, %none : !torch.vtensor<[1,128,768],f32>, !torch.list<int>, !torch.bool, !torch.none -> !torch.vtensor<[1,128,1],f32> loc(#loc268)
    %544 = torch.aten.div.Scalar %543, %int768 : !torch.vtensor<[1,128,1],f32>, !torch.int -> !torch.vtensor<[1,128,1],f32> loc(#loc268)
    %545 = torch.aten.add.Scalar %544, %float1.000000e-05, %int1 : !torch.vtensor<[1,128,1],f32>, !torch.float, !torch.int -> !torch.vtensor<[1,128,1],f32> loc(#loc268)
    %546 = torch.aten.rsqrt %545 : !torch.vtensor<[1,128,1],f32> -> !torch.vtensor<[1,128,1],f32> loc(#loc268)
    %547 = torch.prim.ListConstruct %int1, %int128, %int768 : (!torch.int, !torch.int, !torch.int) -> !torch.list<int> loc(#loc268)
    %548 = torch.aten.broadcast_to %546, %547 : !torch.vtensor<[1,128,1],f32>, !torch.list<int> -> !torch.vtensor<[1,128,768],f32> loc(#loc268)
    %549 = torch.aten.mul.Tensor %541, %548 : !torch.vtensor<[1,128,768],f32>, !torch.vtensor<[1,128,768],f32> -> !torch.vtensor<[1,128,768],f32> loc(#loc268)
    %550 = torch.aten.mul.Tensor %549, %26 : !torch.vtensor<[1,128,768],f32>, !torch.vtensor<[768],f32> -> !torch.vtensor<[1,128,768],f32> loc(#loc268)
    %551 = torch.aten.add.Tensor %550, %25, %int1 : !torch.vtensor<[1,128,768],f32>, !torch.vtensor<[768],f32>, !torch.int -> !torch.vtensor<[1,128,768],f32> loc(#loc268)
    %552 = torch.aten.view %551, %102 : !torch.vtensor<[1,128,768],f32>, !torch.list<int> -> !torch.vtensor<[128,768],f32> loc(#loc269)
    %553 = torch.aten.mm %552, %23 : !torch.vtensor<[128,768],f32>, !torch.vtensor<[768,2304],f32> -> !torch.vtensor<[128,2304],f32> loc(#loc270)
    %554 = torch.aten.mul.Scalar %24, %int1 : !torch.vtensor<[2304],f32>, !torch.int -> !torch.vtensor<[2304],f32> loc(#loc270)
    %555 = torch.aten.add.Tensor %554, %553, %int1 : !torch.vtensor<[2304],f32>, !torch.vtensor<[128,2304],f32>, !torch.int -> !torch.vtensor<[128,2304],f32> loc(#loc270)
    %556 = torch.aten.view %555, %107 : !torch.vtensor<[128,2304],f32>, !torch.list<int> -> !torch.vtensor<[1,128,2304],f32> loc(#loc271)
    %557 = torch.aten.slice.Tensor %556, %int2, %int0, %int768, %int1 : !torch.vtensor<[1,128,2304],f32>, !torch.int, !torch.int, !torch.int, !torch.int -> !torch.vtensor<[1,128,768],f32> loc(#loc272)
    %558 = torch.aten.slice.Tensor %556, %int2, %int768, %int1536, %int1 : !torch.vtensor<[1,128,2304],f32>, !torch.int, !torch.int, !torch.int, !torch.int -> !torch.vtensor<[1,128,768],f32> loc(#loc273)
    %559 = torch.aten.slice.Tensor %556, %int2, %int1536, %int2304, %int1 : !torch.vtensor<[1,128,2304],f32>, !torch.int, !torch.int, !torch.int, !torch.int -> !torch.vtensor<[1,128,768],f32> loc(#loc274)
    %560 = torch.aten.view %557, %112 : !torch.vtensor<[1,128,768],f32>, !torch.list<int> -> !torch.vtensor<[1,128,12,64],f32> loc(#loc275)
    %561 = torch.aten.permute %560, %114 : !torch.vtensor<[1,128,12,64],f32>, !torch.list<int> -> !torch.vtensor<[1,12,128,64],f32> loc(#loc276)
    %562 = torch.aten.view %558, %112 : !torch.vtensor<[1,128,768],f32>, !torch.list<int> -> !torch.vtensor<[1,128,12,64],f32> loc(#loc277)
    %563 = torch.aten.permute %562, %114 : !torch.vtensor<[1,128,12,64],f32>, !torch.list<int> -> !torch.vtensor<[1,12,128,64],f32> loc(#loc278)
    %564 = torch.aten.view %559, %112 : !torch.vtensor<[1,128,768],f32>, !torch.list<int> -> !torch.vtensor<[1,128,12,64],f32> loc(#loc279)
    %565 = torch.aten.permute %564, %114 : !torch.vtensor<[1,128,12,64],f32>, !torch.list<int> -> !torch.vtensor<[1,12,128,64],f32> loc(#loc280)
    %566 = torch.aten.transpose.int %563, %int-1, %int-2 : !torch.vtensor<[1,12,128,64],f32>, !torch.int, !torch.int -> !torch.vtensor<[1,12,64,128],f32> loc(#loc281)
    %567 = torch.aten.broadcast_to %561, %121 : !torch.vtensor<[1,12,128,64],f32>, !torch.list<int> -> !torch.vtensor<[1,12,128,64],f32> loc(#loc282)
    %568 = torch.aten.view %567, %123 : !torch.vtensor<[1,12,128,64],f32>, !torch.list<int> -> !torch.vtensor<[12,128,64],f32> loc(#loc283)
    %569 = torch.aten.broadcast_to %566, %125 : !torch.vtensor<[1,12,64,128],f32>, !torch.list<int> -> !torch.vtensor<[1,12,64,128],f32> loc(#loc284)
    %570 = torch.aten.view %569, %127 : !torch.vtensor<[1,12,64,128],f32>, !torch.list<int> -> !torch.vtensor<[12,64,128],f32> loc(#loc285)
    %571 = torch.aten.bmm %568, %570 : !torch.vtensor<[12,128,64],f32>, !torch.vtensor<[12,64,128],f32> -> !torch.vtensor<[12,128,128],f32> loc(#loc286)
    %572 = torch.aten.view %571, %130 : !torch.vtensor<[12,128,128],f32>, !torch.list<int> -> !torch.vtensor<[1,12,128,128],f32> loc(#loc287)
    %573 = torch.prim.NumToTensor.Scalar %float8.000000e00 : !torch.float -> !torch.vtensor<[],f64> loc(#loc288)
    %574 = torch.aten.to.dtype %573, %int6, %false, %false, %none : !torch.vtensor<[],f64>, !torch.int, !torch.bool, !torch.bool, !torch.none -> !torch.vtensor<[],f32> loc(#loc288)
    %575 = torch.aten.broadcast_to %574, %132 : !torch.vtensor<[],f32>, !torch.list<int> -> !torch.vtensor<[],f32> loc(#loc288)
    %576 = torch.aten.div.Tensor %572, %575 : !torch.vtensor<[1,12,128,128],f32>, !torch.vtensor<[],f32> -> !torch.vtensor<[1,12,128,128],f32> loc(#loc289)
    %577 = torch.aten.slice.Tensor %71, %int2, %int0, %int128, %int1 : !torch.vtensor<[1,1,1024,1024],ui8>, !torch.int, !torch.int, !torch.int, !torch.int -> !torch.vtensor<[1,1,128,1024],ui8> loc(#loc290)
    %578 = torch.aten.slice.Tensor %577, %int3, %int0, %int128, %int1 : !torch.vtensor<[1,1,128,1024],ui8>, !torch.int, !torch.int, !torch.int, !torch.int -> !torch.vtensor<[1,1,128,128],ui8> loc(#loc291)
    %579 = torch.prim.NumToTensor.Scalar %int0 : !torch.int -> !torch.vtensor<[],si64> loc(#loc292)
    %580 = torch.aten.to.dtype %579, %int11, %false, %false, %none : !torch.vtensor<[],si64>, !torch.int, !torch.bool, !torch.bool, !torch.none -> !torch.vtensor<[],i1> loc(#loc292)
    %581 = torch.prim.ListConstruct %int1, %int1, %int128, %int128 : (!torch.int, !torch.int, !torch.int, !torch.int) -> !torch.list<int> loc(#loc292)
    %582 = torch.aten.broadcast_to %580, %581 : !torch.vtensor<[],i1>, !torch.list<int> -> !torch.vtensor<[1,1,128,128],i1> loc(#loc292)
    %583 = torch.aten.to.dtype %578, %int11, %false, %false, %none : !torch.vtensor<[1,1,128,128],ui8>, !torch.int, !torch.bool, !torch.bool, !torch.none -> !torch.vtensor<[1,1,128,128],i1> loc(#loc292)
    %584 = torch.prim.ListConstruct %int1, %int1, %int128, %int128 : (!torch.int, !torch.int, !torch.int, !torch.int) -> !torch.list<int> loc(#loc292)
    %585 = torch.aten.broadcast_to %583, %584 : !torch.vtensor<[1,1,128,128],i1>, !torch.list<int> -> !torch.vtensor<[1,1,128,128],i1> loc(#loc292)
    %586 = torch.prim.NumToTensor.Scalar %float-3.402820e38 : !torch.float -> !torch.vtensor<[],f64> loc(#loc293)
    %587 = torch.aten.to.dtype %586, %int6, %false, %false, %none : !torch.vtensor<[],f64>, !torch.int, !torch.bool, !torch.bool, !torch.none -> !torch.vtensor<[],f32> loc(#loc293)
    %588 = torch.aten.broadcast_to %587, %132 : !torch.vtensor<[],f32>, !torch.list<int> -> !torch.vtensor<[],f32> loc(#loc293)
    %589 = torch.aten.where.self %585, %576, %588 : !torch.vtensor<[1,1,128,128],i1>, !torch.vtensor<[1,12,128,128],f32>, !torch.vtensor<[],f32> -> !torch.vtensor<[1,12,128,128],f32> loc(#loc294)
    %values_6, %indices_7 = torch.aten.max.dim %589, %int-1, %true : !torch.vtensor<[1,12,128,128],f32>, !torch.int, !torch.bool -> !torch.vtensor<[1,12,128,1],f32>, !torch.vtensor<[1,12,128,1],si64> loc(#loc295)
    %590 = torch.aten.sub.Tensor %589, %values_6, %float1.000000e00 : !torch.vtensor<[1,12,128,128],f32>, !torch.vtensor<[1,12,128,1],f32>, !torch.float -> !torch.vtensor<[1,12,128,128],f32> loc(#loc295)
    %591 = torch.aten.exp %590 : !torch.vtensor<[1,12,128,128],f32> -> !torch.vtensor<[1,12,128,128],f32> loc(#loc295)
    %592 = torch.prim.ListConstruct %int-1 : (!torch.int) -> !torch.list<int> loc(#loc295)
    %593 = torch.aten.sum.dim_IntList %591, %592, %true, %none : !torch.vtensor<[1,12,128,128],f32>, !torch.list<int>, !torch.bool, !torch.none -> !torch.vtensor<[1,12,128,1],f32> loc(#loc295)
    %594 = torch.aten.div.Tensor %591, %593 : !torch.vtensor<[1,12,128,128],f32>, !torch.vtensor<[1,12,128,1],f32> -> !torch.vtensor<[1,12,128,128],f32> loc(#loc295)
    %595 = torch.aten.broadcast_to %594, %130 : !torch.vtensor<[1,12,128,128],f32>, !torch.list<int> -> !torch.vtensor<[1,12,128,128],f32> loc(#loc296)
    %596 = torch.aten.view %595, %156 : !torch.vtensor<[1,12,128,128],f32>, !torch.list<int> -> !torch.vtensor<[12,128,128],f32> loc(#loc297)
    %597 = torch.aten.broadcast_to %565, %121 : !torch.vtensor<[1,12,128,64],f32>, !torch.list<int> -> !torch.vtensor<[1,12,128,64],f32> loc(#loc298)
    %598 = torch.aten.view %597, %123 : !torch.vtensor<[1,12,128,64],f32>, !torch.list<int> -> !torch.vtensor<[12,128,64],f32> loc(#loc299)
    %599 = torch.aten.bmm %596, %598 : !torch.vtensor<[12,128,128],f32>, !torch.vtensor<[12,128,64],f32> -> !torch.vtensor<[12,128,64],f32> loc(#loc300)
    %600 = torch.aten.view %599, %121 : !torch.vtensor<[12,128,64],f32>, !torch.list<int> -> !torch.vtensor<[1,12,128,64],f32> loc(#loc301)
    %601 = torch.aten.permute %600, %114 : !torch.vtensor<[1,12,128,64],f32>, !torch.list<int> -> !torch.vtensor<[1,128,12,64],f32> loc(#loc302)
    %602 = torch.aten.clone %601, %int0 : !torch.vtensor<[1,128,12,64],f32>, !torch.int -> !torch.vtensor<[1,128,12,64],f32> loc(#loc303)
    %603 = torch.aten.view %602, %164 : !torch.vtensor<[1,128,12,64],f32>, !torch.list<int> -> !torch.vtensor<[1,128,768],f32> loc(#loc304)
    %604 = torch.aten.view %603, %102 : !torch.vtensor<[1,128,768],f32>, !torch.list<int> -> !torch.vtensor<[128,768],f32> loc(#loc305)
    %605 = torch.aten.mm %604, %21 : !torch.vtensor<[128,768],f32>, !torch.vtensor<[768,768],f32> -> !torch.vtensor<[128,768],f32> loc(#loc306)
    %606 = torch.aten.mul.Scalar %22, %int1 : !torch.vtensor<[768],f32>, !torch.int -> !torch.vtensor<[768],f32> loc(#loc306)
    %607 = torch.aten.add.Tensor %606, %605, %int1 : !torch.vtensor<[768],f32>, !torch.vtensor<[128,768],f32>, !torch.int -> !torch.vtensor<[128,768],f32> loc(#loc306)
    %608 = torch.aten.view %607, %164 : !torch.vtensor<[128,768],f32>, !torch.list<int> -> !torch.vtensor<[1,128,768],f32> loc(#loc307)
    %609 = torch.aten.add.Tensor %608, %535, %int1 : !torch.vtensor<[1,128,768],f32>, !torch.vtensor<[1,128,768],f32>, !torch.int -> !torch.vtensor<[1,128,768],f32> loc(#loc308)
    %610 = torch.prim.ListConstruct %int2 : (!torch.int) -> !torch.list<int> loc(#loc309)
    %611 = torch.aten.sum.dim_IntList %609, %610, %true, %none : !torch.vtensor<[1,128,768],f32>, !torch.list<int>, !torch.bool, !torch.none -> !torch.vtensor<[1,128,1],f32> loc(#loc309)
    %612 = torch.aten.div.Scalar %611, %int768 : !torch.vtensor<[1,128,1],f32>, !torch.int -> !torch.vtensor<[1,128,1],f32> loc(#loc309)
    %613 = torch.prim.ListConstruct %int1, %int128, %int768 : (!torch.int, !torch.int, !torch.int) -> !torch.list<int> loc(#loc309)
    %614 = torch.aten.broadcast_to %612, %613 : !torch.vtensor<[1,128,1],f32>, !torch.list<int> -> !torch.vtensor<[1,128,768],f32> loc(#loc309)
    %615 = torch.aten.sub.Tensor %609, %614, %int1 : !torch.vtensor<[1,128,768],f32>, !torch.vtensor<[1,128,768],f32>, !torch.int -> !torch.vtensor<[1,128,768],f32> loc(#loc309)
    %616 = torch.aten.mul.Tensor %615, %615 : !torch.vtensor<[1,128,768],f32>, !torch.vtensor<[1,128,768],f32> -> !torch.vtensor<[1,128,768],f32> loc(#loc309)
    %617 = torch.aten.sum.dim_IntList %616, %610, %true, %none : !torch.vtensor<[1,128,768],f32>, !torch.list<int>, !torch.bool, !torch.none -> !torch.vtensor<[1,128,1],f32> loc(#loc309)
    %618 = torch.aten.div.Scalar %617, %int768 : !torch.vtensor<[1,128,1],f32>, !torch.int -> !torch.vtensor<[1,128,1],f32> loc(#loc309)
    %619 = torch.aten.add.Scalar %618, %float1.000000e-05, %int1 : !torch.vtensor<[1,128,1],f32>, !torch.float, !torch.int -> !torch.vtensor<[1,128,1],f32> loc(#loc309)
    %620 = torch.aten.rsqrt %619 : !torch.vtensor<[1,128,1],f32> -> !torch.vtensor<[1,128,1],f32> loc(#loc309)
    %621 = torch.prim.ListConstruct %int1, %int128, %int768 : (!torch.int, !torch.int, !torch.int) -> !torch.list<int> loc(#loc309)
    %622 = torch.aten.broadcast_to %620, %621 : !torch.vtensor<[1,128,1],f32>, !torch.list<int> -> !torch.vtensor<[1,128,768],f32> loc(#loc309)
    %623 = torch.aten.mul.Tensor %615, %622 : !torch.vtensor<[1,128,768],f32>, !torch.vtensor<[1,128,768],f32> -> !torch.vtensor<[1,128,768],f32> loc(#loc309)
    %624 = torch.aten.mul.Tensor %623, %20 : !torch.vtensor<[1,128,768],f32>, !torch.vtensor<[768],f32> -> !torch.vtensor<[1,128,768],f32> loc(#loc309)
    %625 = torch.aten.add.Tensor %624, %19, %int1 : !torch.vtensor<[1,128,768],f32>, !torch.vtensor<[768],f32>, !torch.int -> !torch.vtensor<[1,128,768],f32> loc(#loc309)
    %626 = torch.aten.view %625, %102 : !torch.vtensor<[1,128,768],f32>, !torch.list<int> -> !torch.vtensor<[128,768],f32> loc(#loc310)
    %627 = torch.aten.mm %626, %17 : !torch.vtensor<[128,768],f32>, !torch.vtensor<[768,3072],f32> -> !torch.vtensor<[128,3072],f32> loc(#loc311)
    %628 = torch.aten.mul.Scalar %18, %int1 : !torch.vtensor<[3072],f32>, !torch.int -> !torch.vtensor<[3072],f32> loc(#loc311)
    %629 = torch.aten.add.Tensor %628, %627, %int1 : !torch.vtensor<[3072],f32>, !torch.vtensor<[128,3072],f32>, !torch.int -> !torch.vtensor<[128,3072],f32> loc(#loc311)
    %630 = torch.aten.view %629, %192 : !torch.vtensor<[128,3072],f32>, !torch.list<int> -> !torch.vtensor<[1,128,3072],f32> loc(#loc312)
    %631 = torch.aten.mul.Scalar %630, %float5.000000e-01 : !torch.vtensor<[1,128,3072],f32>, !torch.float -> !torch.vtensor<[1,128,3072],f32> loc(#loc313)
    %632 = torch.aten.pow.Tensor_Scalar %630, %float3.000000e00 : !torch.vtensor<[1,128,3072],f32>, !torch.float -> !torch.vtensor<[1,128,3072],f32> loc(#loc314)
    %633 = torch.aten.mul.Scalar %632, %float4.471500e-02 : !torch.vtensor<[1,128,3072],f32>, !torch.float -> !torch.vtensor<[1,128,3072],f32> loc(#loc315)
    %634 = torch.aten.add.Tensor %630, %633, %int1 : !torch.vtensor<[1,128,3072],f32>, !torch.vtensor<[1,128,3072],f32>, !torch.int -> !torch.vtensor<[1,128,3072],f32> loc(#loc316)
    %635 = torch.aten.mul.Scalar %634, %float7.978850e-01 : !torch.vtensor<[1,128,3072],f32>, !torch.float -> !torch.vtensor<[1,128,3072],f32> loc(#loc317)
    %636 = torch.aten.tanh %635 : !torch.vtensor<[1,128,3072],f32> -> !torch.vtensor<[1,128,3072],f32> loc(#loc318)
    %637 = torch.aten.add.Scalar %636, %float1.000000e00, %int1 : !torch.vtensor<[1,128,3072],f32>, !torch.float, !torch.int -> !torch.vtensor<[1,128,3072],f32> loc(#loc319)
    %638 = torch.aten.mul.Tensor %631, %637 : !torch.vtensor<[1,128,3072],f32>, !torch.vtensor<[1,128,3072],f32> -> !torch.vtensor<[1,128,3072],f32> loc(#loc320)
    %639 = torch.aten.view %638, %202 : !torch.vtensor<[1,128,3072],f32>, !torch.list<int> -> !torch.vtensor<[128,3072],f32> loc(#loc321)
    %640 = torch.aten.mm %639, %15 : !torch.vtensor<[128,3072],f32>, !torch.vtensor<[3072,768],f32> -> !torch.vtensor<[128,768],f32> loc(#loc322)
    %641 = torch.aten.mul.Scalar %16, %int1 : !torch.vtensor<[768],f32>, !torch.int -> !torch.vtensor<[768],f32> loc(#loc322)
    %642 = torch.aten.add.Tensor %641, %640, %int1 : !torch.vtensor<[768],f32>, !torch.vtensor<[128,768],f32>, !torch.int -> !torch.vtensor<[128,768],f32> loc(#loc322)
    %643 = torch.aten.view %642, %164 : !torch.vtensor<[128,768],f32>, !torch.list<int> -> !torch.vtensor<[1,128,768],f32> loc(#loc323)
    %644 = torch.aten.add.Tensor %609, %643, %int1 : !torch.vtensor<[1,128,768],f32>, !torch.vtensor<[1,128,768],f32>, !torch.int -> !torch.vtensor<[1,128,768],f32> loc(#loc324)
    %645 = torch.prim.ListConstruct %int2 : (!torch.int) -> !torch.list<int> loc(#loc325)
    %646 = torch.aten.sum.dim_IntList %644, %645, %true, %none : !torch.vtensor<[1,128,768],f32>, !torch.list<int>, !torch.bool, !torch.none -> !torch.vtensor<[1,128,1],f32> loc(#loc325)
    %647 = torch.aten.div.Scalar %646, %int768 : !torch.vtensor<[1,128,1],f32>, !torch.int -> !torch.vtensor<[1,128,1],f32> loc(#loc325)
    %648 = torch.prim.ListConstruct %int1, %int128, %int768 : (!torch.int, !torch.int, !torch.int) -> !torch.list<int> loc(#loc325)
    %649 = torch.aten.broadcast_to %647, %648 : !torch.vtensor<[1,128,1],f32>, !torch.list<int> -> !torch.vtensor<[1,128,768],f32> loc(#loc325)
    %650 = torch.aten.sub.Tensor %644, %649, %int1 : !torch.vtensor<[1,128,768],f32>, !torch.vtensor<[1,128,768],f32>, !torch.int -> !torch.vtensor<[1,128,768],f32> loc(#loc325)
    %651 = torch.aten.mul.Tensor %650, %650 : !torch.vtensor<[1,128,768],f32>, !torch.vtensor<[1,128,768],f32> -> !torch.vtensor<[1,128,768],f32> loc(#loc325)
    %652 = torch.aten.sum.dim_IntList %651, %645, %true, %none : !torch.vtensor<[1,128,768],f32>, !torch.list<int>, !torch.bool, !torch.none -> !torch.vtensor<[1,128,1],f32> loc(#loc325)
    %653 = torch.aten.div.Scalar %652, %int768 : !torch.vtensor<[1,128,1],f32>, !torch.int -> !torch.vtensor<[1,128,1],f32> loc(#loc325)
    %654 = torch.aten.add.Scalar %653, %float1.000000e-05, %int1 : !torch.vtensor<[1,128,1],f32>, !torch.float, !torch.int -> !torch.vtensor<[1,128,1],f32> loc(#loc325)
    %655 = torch.aten.rsqrt %654 : !torch.vtensor<[1,128,1],f32> -> !torch.vtensor<[1,128,1],f32> loc(#loc325)
    %656 = torch.prim.ListConstruct %int1, %int128, %int768 : (!torch.int, !torch.int, !torch.int) -> !torch.list<int> loc(#loc325)
    %657 = torch.aten.broadcast_to %655, %656 : !torch.vtensor<[1,128,1],f32>, !torch.list<int> -> !torch.vtensor<[1,128,768],f32> loc(#loc325)
    %658 = torch.aten.mul.Tensor %650, %657 : !torch.vtensor<[1,128,768],f32>, !torch.vtensor<[1,128,768],f32> -> !torch.vtensor<[1,128,768],f32> loc(#loc325)
    %659 = torch.aten.mul.Tensor %658, %14 : !torch.vtensor<[1,128,768],f32>, !torch.vtensor<[768],f32> -> !torch.vtensor<[1,128,768],f32> loc(#loc325)
    %660 = torch.aten.add.Tensor %659, %13, %int1 : !torch.vtensor<[1,128,768],f32>, !torch.vtensor<[768],f32>, !torch.int -> !torch.vtensor<[1,128,768],f32> loc(#loc325)
    %661 = torch.aten.view %660, %102 : !torch.vtensor<[1,128,768],f32>, !torch.list<int> -> !torch.vtensor<[128,768],f32> loc(#loc326)
    %662 = torch.aten.mm %661, %11 : !torch.vtensor<[128,768],f32>, !torch.vtensor<[768,2304],f32> -> !torch.vtensor<[128,2304],f32> loc(#loc327)
    %663 = torch.aten.mul.Scalar %12, %int1 : !torch.vtensor<[2304],f32>, !torch.int -> !torch.vtensor<[2304],f32> loc(#loc327)
    %664 = torch.aten.add.Tensor %663, %662, %int1 : !torch.vtensor<[2304],f32>, !torch.vtensor<[128,2304],f32>, !torch.int -> !torch.vtensor<[128,2304],f32> loc(#loc327)
    %665 = torch.aten.view %664, %107 : !torch.vtensor<[128,2304],f32>, !torch.list<int> -> !torch.vtensor<[1,128,2304],f32> loc(#loc328)
    %666 = torch.aten.slice.Tensor %665, %int2, %int0, %int768, %int1 : !torch.vtensor<[1,128,2304],f32>, !torch.int, !torch.int, !torch.int, !torch.int -> !torch.vtensor<[1,128,768],f32> loc(#loc329)
    %667 = torch.aten.slice.Tensor %665, %int2, %int768, %int1536, %int1 : !torch.vtensor<[1,128,2304],f32>, !torch.int, !torch.int, !torch.int, !torch.int -> !torch.vtensor<[1,128,768],f32> loc(#loc330)
    %668 = torch.aten.slice.Tensor %665, %int2, %int1536, %int2304, %int1 : !torch.vtensor<[1,128,2304],f32>, !torch.int, !torch.int, !torch.int, !torch.int -> !torch.vtensor<[1,128,768],f32> loc(#loc331)
    %669 = torch.aten.view %666, %112 : !torch.vtensor<[1,128,768],f32>, !torch.list<int> -> !torch.vtensor<[1,128,12,64],f32> loc(#loc332)
    %670 = torch.aten.permute %669, %114 : !torch.vtensor<[1,128,12,64],f32>, !torch.list<int> -> !torch.vtensor<[1,12,128,64],f32> loc(#loc333)
    %671 = torch.aten.view %667, %112 : !torch.vtensor<[1,128,768],f32>, !torch.list<int> -> !torch.vtensor<[1,128,12,64],f32> loc(#loc334)
    %672 = torch.aten.permute %671, %114 : !torch.vtensor<[1,128,12,64],f32>, !torch.list<int> -> !torch.vtensor<[1,12,128,64],f32> loc(#loc335)
    %673 = torch.aten.view %668, %112 : !torch.vtensor<[1,128,768],f32>, !torch.list<int> -> !torch.vtensor<[1,128,12,64],f32> loc(#loc336)
    %674 = torch.aten.permute %673, %114 : !torch.vtensor<[1,128,12,64],f32>, !torch.list<int> -> !torch.vtensor<[1,12,128,64],f32> loc(#loc337)
    %675 = torch.aten.transpose.int %672, %int-1, %int-2 : !torch.vtensor<[1,12,128,64],f32>, !torch.int, !torch.int -> !torch.vtensor<[1,12,64,128],f32> loc(#loc338)
    %676 = torch.aten.broadcast_to %670, %121 : !torch.vtensor<[1,12,128,64],f32>, !torch.list<int> -> !torch.vtensor<[1,12,128,64],f32> loc(#loc339)
    %677 = torch.aten.view %676, %123 : !torch.vtensor<[1,12,128,64],f32>, !torch.list<int> -> !torch.vtensor<[12,128,64],f32> loc(#loc340)
    %678 = torch.aten.broadcast_to %675, %125 : !torch.vtensor<[1,12,64,128],f32>, !torch.list<int> -> !torch.vtensor<[1,12,64,128],f32> loc(#loc341)
    %679 = torch.aten.view %678, %127 : !torch.vtensor<[1,12,64,128],f32>, !torch.list<int> -> !torch.vtensor<[12,64,128],f32> loc(#loc342)
    %680 = torch.aten.bmm %677, %679 : !torch.vtensor<[12,128,64],f32>, !torch.vtensor<[12,64,128],f32> -> !torch.vtensor<[12,128,128],f32> loc(#loc343)
    %681 = torch.aten.view %680, %130 : !torch.vtensor<[12,128,128],f32>, !torch.list<int> -> !torch.vtensor<[1,12,128,128],f32> loc(#loc344)
    %682 = torch.prim.NumToTensor.Scalar %float8.000000e00 : !torch.float -> !torch.vtensor<[],f64> loc(#loc345)
    %683 = torch.aten.to.dtype %682, %int6, %false, %false, %none : !torch.vtensor<[],f64>, !torch.int, !torch.bool, !torch.bool, !torch.none -> !torch.vtensor<[],f32> loc(#loc345)
    %684 = torch.aten.broadcast_to %683, %132 : !torch.vtensor<[],f32>, !torch.list<int> -> !torch.vtensor<[],f32> loc(#loc345)
    %685 = torch.aten.div.Tensor %681, %684 : !torch.vtensor<[1,12,128,128],f32>, !torch.vtensor<[],f32> -> !torch.vtensor<[1,12,128,128],f32> loc(#loc346)
    %686 = torch.aten.slice.Tensor %71, %int2, %int0, %int128, %int1 : !torch.vtensor<[1,1,1024,1024],ui8>, !torch.int, !torch.int, !torch.int, !torch.int -> !torch.vtensor<[1,1,128,1024],ui8> loc(#loc347)
    %687 = torch.aten.slice.Tensor %686, %int3, %int0, %int128, %int1 : !torch.vtensor<[1,1,128,1024],ui8>, !torch.int, !torch.int, !torch.int, !torch.int -> !torch.vtensor<[1,1,128,128],ui8> loc(#loc348)
    %688 = torch.prim.NumToTensor.Scalar %int0 : !torch.int -> !torch.vtensor<[],si64> loc(#loc349)
    %689 = torch.aten.to.dtype %688, %int11, %false, %false, %none : !torch.vtensor<[],si64>, !torch.int, !torch.bool, !torch.bool, !torch.none -> !torch.vtensor<[],i1> loc(#loc349)
    %690 = torch.prim.ListConstruct %int1, %int1, %int128, %int128 : (!torch.int, !torch.int, !torch.int, !torch.int) -> !torch.list<int> loc(#loc349)
    %691 = torch.aten.broadcast_to %689, %690 : !torch.vtensor<[],i1>, !torch.list<int> -> !torch.vtensor<[1,1,128,128],i1> loc(#loc349)
    %692 = torch.aten.to.dtype %687, %int11, %false, %false, %none : !torch.vtensor<[1,1,128,128],ui8>, !torch.int, !torch.bool, !torch.bool, !torch.none -> !torch.vtensor<[1,1,128,128],i1> loc(#loc349)
    %693 = torch.prim.ListConstruct %int1, %int1, %int128, %int128 : (!torch.int, !torch.int, !torch.int, !torch.int) -> !torch.list<int> loc(#loc349)
    %694 = torch.aten.broadcast_to %692, %693 : !torch.vtensor<[1,1,128,128],i1>, !torch.list<int> -> !torch.vtensor<[1,1,128,128],i1> loc(#loc349)
    %695 = torch.prim.NumToTensor.Scalar %float-3.402820e38 : !torch.float -> !torch.vtensor<[],f64> loc(#loc350)
    %696 = torch.aten.to.dtype %695, %int6, %false, %false, %none : !torch.vtensor<[],f64>, !torch.int, !torch.bool, !torch.bool, !torch.none -> !torch.vtensor<[],f32> loc(#loc350)
    %697 = torch.aten.broadcast_to %696, %132 : !torch.vtensor<[],f32>, !torch.list<int> -> !torch.vtensor<[],f32> loc(#loc350)
    %698 = torch.aten.where.self %694, %685, %697 : !torch.vtensor<[1,1,128,128],i1>, !torch.vtensor<[1,12,128,128],f32>, !torch.vtensor<[],f32> -> !torch.vtensor<[1,12,128,128],f32> loc(#loc351)
    %values_8, %indices_9 = torch.aten.max.dim %698, %int-1, %true : !torch.vtensor<[1,12,128,128],f32>, !torch.int, !torch.bool -> !torch.vtensor<[1,12,128,1],f32>, !torch.vtensor<[1,12,128,1],si64> loc(#loc352)
    %699 = torch.aten.sub.Tensor %698, %values_8, %float1.000000e00 : !torch.vtensor<[1,12,128,128],f32>, !torch.vtensor<[1,12,128,1],f32>, !torch.float -> !torch.vtensor<[1,12,128,128],f32> loc(#loc352)
    %700 = torch.aten.exp %699 : !torch.vtensor<[1,12,128,128],f32> -> !torch.vtensor<[1,12,128,128],f32> loc(#loc352)
    %701 = torch.prim.ListConstruct %int-1 : (!torch.int) -> !torch.list<int> loc(#loc352)
    %702 = torch.aten.sum.dim_IntList %700, %701, %true, %none : !torch.vtensor<[1,12,128,128],f32>, !torch.list<int>, !torch.bool, !torch.none -> !torch.vtensor<[1,12,128,1],f32> loc(#loc352)
    %703 = torch.aten.div.Tensor %700, %702 : !torch.vtensor<[1,12,128,128],f32>, !torch.vtensor<[1,12,128,1],f32> -> !torch.vtensor<[1,12,128,128],f32> loc(#loc352)
    %704 = torch.aten.broadcast_to %703, %130 : !torch.vtensor<[1,12,128,128],f32>, !torch.list<int> -> !torch.vtensor<[1,12,128,128],f32> loc(#loc353)
    %705 = torch.aten.view %704, %156 : !torch.vtensor<[1,12,128,128],f32>, !torch.list<int> -> !torch.vtensor<[12,128,128],f32> loc(#loc354)
    %706 = torch.aten.broadcast_to %674, %121 : !torch.vtensor<[1,12,128,64],f32>, !torch.list<int> -> !torch.vtensor<[1,12,128,64],f32> loc(#loc355)
    %707 = torch.aten.view %706, %123 : !torch.vtensor<[1,12,128,64],f32>, !torch.list<int> -> !torch.vtensor<[12,128,64],f32> loc(#loc356)
    %708 = torch.aten.bmm %705, %707 : !torch.vtensor<[12,128,128],f32>, !torch.vtensor<[12,128,64],f32> -> !torch.vtensor<[12,128,64],f32> loc(#loc357)
    %709 = torch.aten.view %708, %121 : !torch.vtensor<[12,128,64],f32>, !torch.list<int> -> !torch.vtensor<[1,12,128,64],f32> loc(#loc358)
    %710 = torch.aten.permute %709, %114 : !torch.vtensor<[1,12,128,64],f32>, !torch.list<int> -> !torch.vtensor<[1,128,12,64],f32> loc(#loc359)
    %711 = torch.aten.clone %710, %int0 : !torch.vtensor<[1,128,12,64],f32>, !torch.int -> !torch.vtensor<[1,128,12,64],f32> loc(#loc360)
    %712 = torch.aten.view %711, %164 : !torch.vtensor<[1,128,12,64],f32>, !torch.list<int> -> !torch.vtensor<[1,128,768],f32> loc(#loc361)
    %713 = torch.aten.view %712, %102 : !torch.vtensor<[1,128,768],f32>, !torch.list<int> -> !torch.vtensor<[128,768],f32> loc(#loc362)
    %714 = torch.aten.mm %713, %9 : !torch.vtensor<[128,768],f32>, !torch.vtensor<[768,768],f32> -> !torch.vtensor<[128,768],f32> loc(#loc363)
    %715 = torch.aten.mul.Scalar %10, %int1 : !torch.vtensor<[768],f32>, !torch.int -> !torch.vtensor<[768],f32> loc(#loc363)
    %716 = torch.aten.add.Tensor %715, %714, %int1 : !torch.vtensor<[768],f32>, !torch.vtensor<[128,768],f32>, !torch.int -> !torch.vtensor<[128,768],f32> loc(#loc363)
    %717 = torch.aten.view %716, %164 : !torch.vtensor<[128,768],f32>, !torch.list<int> -> !torch.vtensor<[1,128,768],f32> loc(#loc364)
    %718 = torch.aten.add.Tensor %717, %644, %int1 : !torch.vtensor<[1,128,768],f32>, !torch.vtensor<[1,128,768],f32>, !torch.int -> !torch.vtensor<[1,128,768],f32> loc(#loc365)
    %719 = torch.prim.ListConstruct %int2 : (!torch.int) -> !torch.list<int> loc(#loc366)
    %720 = torch.aten.sum.dim_IntList %718, %719, %true, %none : !torch.vtensor<[1,128,768],f32>, !torch.list<int>, !torch.bool, !torch.none -> !torch.vtensor<[1,128,1],f32> loc(#loc366)
    %721 = torch.aten.div.Scalar %720, %int768 : !torch.vtensor<[1,128,1],f32>, !torch.int -> !torch.vtensor<[1,128,1],f32> loc(#loc366)
    %722 = torch.prim.ListConstruct %int1, %int128, %int768 : (!torch.int, !torch.int, !torch.int) -> !torch.list<int> loc(#loc366)
    %723 = torch.aten.broadcast_to %721, %722 : !torch.vtensor<[1,128,1],f32>, !torch.list<int> -> !torch.vtensor<[1,128,768],f32> loc(#loc366)
    %724 = torch.aten.sub.Tensor %718, %723, %int1 : !torch.vtensor<[1,128,768],f32>, !torch.vtensor<[1,128,768],f32>, !torch.int -> !torch.vtensor<[1,128,768],f32> loc(#loc366)
    %725 = torch.aten.mul.Tensor %724, %724 : !torch.vtensor<[1,128,768],f32>, !torch.vtensor<[1,128,768],f32> -> !torch.vtensor<[1,128,768],f32> loc(#loc366)
    %726 = torch.aten.sum.dim_IntList %725, %719, %true, %none : !torch.vtensor<[1,128,768],f32>, !torch.list<int>, !torch.bool, !torch.none -> !torch.vtensor<[1,128,1],f32> loc(#loc366)
    %727 = torch.aten.div.Scalar %726, %int768 : !torch.vtensor<[1,128,1],f32>, !torch.int -> !torch.vtensor<[1,128,1],f32> loc(#loc366)
    %728 = torch.aten.add.Scalar %727, %float1.000000e-05, %int1 : !torch.vtensor<[1,128,1],f32>, !torch.float, !torch.int -> !torch.vtensor<[1,128,1],f32> loc(#loc366)
    %729 = torch.aten.rsqrt %728 : !torch.vtensor<[1,128,1],f32> -> !torch.vtensor<[1,128,1],f32> loc(#loc366)
    %730 = torch.prim.ListConstruct %int1, %int128, %int768 : (!torch.int, !torch.int, !torch.int) -> !torch.list<int> loc(#loc366)
    %731 = torch.aten.broadcast_to %729, %730 : !torch.vtensor<[1,128,1],f32>, !torch.list<int> -> !torch.vtensor<[1,128,768],f32> loc(#loc366)
    %732 = torch.aten.mul.Tensor %724, %731 : !torch.vtensor<[1,128,768],f32>, !torch.vtensor<[1,128,768],f32> -> !torch.vtensor<[1,128,768],f32> loc(#loc366)
    %733 = torch.aten.mul.Tensor %732, %8 : !torch.vtensor<[1,128,768],f32>, !torch.vtensor<[768],f32> -> !torch.vtensor<[1,128,768],f32> loc(#loc366)
    %734 = torch.aten.add.Tensor %733, %7, %int1 : !torch.vtensor<[1,128,768],f32>, !torch.vtensor<[768],f32>, !torch.int -> !torch.vtensor<[1,128,768],f32> loc(#loc366)
    %735 = torch.aten.view %734, %102 : !torch.vtensor<[1,128,768],f32>, !torch.list<int> -> !torch.vtensor<[128,768],f32> loc(#loc367)
    %736 = torch.aten.mm %735, %5 : !torch.vtensor<[128,768],f32>, !torch.vtensor<[768,3072],f32> -> !torch.vtensor<[128,3072],f32> loc(#loc368)
    %737 = torch.aten.mul.Scalar %6, %int1 : !torch.vtensor<[3072],f32>, !torch.int -> !torch.vtensor<[3072],f32> loc(#loc368)
    %738 = torch.aten.add.Tensor %737, %736, %int1 : !torch.vtensor<[3072],f32>, !torch.vtensor<[128,3072],f32>, !torch.int -> !torch.vtensor<[128,3072],f32> loc(#loc368)
    %739 = torch.aten.view %738, %192 : !torch.vtensor<[128,3072],f32>, !torch.list<int> -> !torch.vtensor<[1,128,3072],f32> loc(#loc369)
    %740 = torch.aten.mul.Scalar %739, %float5.000000e-01 : !torch.vtensor<[1,128,3072],f32>, !torch.float -> !torch.vtensor<[1,128,3072],f32> loc(#loc370)
    %741 = torch.aten.pow.Tensor_Scalar %739, %float3.000000e00 : !torch.vtensor<[1,128,3072],f32>, !torch.float -> !torch.vtensor<[1,128,3072],f32> loc(#loc371)
    %742 = torch.aten.mul.Scalar %741, %float4.471500e-02 : !torch.vtensor<[1,128,3072],f32>, !torch.float -> !torch.vtensor<[1,128,3072],f32> loc(#loc372)
    %743 = torch.aten.add.Tensor %739, %742, %int1 : !torch.vtensor<[1,128,3072],f32>, !torch.vtensor<[1,128,3072],f32>, !torch.int -> !torch.vtensor<[1,128,3072],f32> loc(#loc373)
    %744 = torch.aten.mul.Scalar %743, %float7.978850e-01 : !torch.vtensor<[1,128,3072],f32>, !torch.float -> !torch.vtensor<[1,128,3072],f32> loc(#loc374)
    %745 = torch.aten.tanh %744 : !torch.vtensor<[1,128,3072],f32> -> !torch.vtensor<[1,128,3072],f32> loc(#loc375)
    %746 = torch.aten.add.Scalar %745, %float1.000000e00, %int1 : !torch.vtensor<[1,128,3072],f32>, !torch.float, !torch.int -> !torch.vtensor<[1,128,3072],f32> loc(#loc376)
    %747 = torch.aten.mul.Tensor %740, %746 : !torch.vtensor<[1,128,3072],f32>, !torch.vtensor<[1,128,3072],f32> -> !torch.vtensor<[1,128,3072],f32> loc(#loc377)
    %748 = torch.aten.view %747, %202 : !torch.vtensor<[1,128,3072],f32>, !torch.list<int> -> !torch.vtensor<[128,3072],f32> loc(#loc378)
    %749 = torch.aten.mm %748, %3 : !torch.vtensor<[128,3072],f32>, !torch.vtensor<[3072,768],f32> -> !torch.vtensor<[128,768],f32> loc(#loc379)
    %750 = torch.aten.mul.Scalar %4, %int1 : !torch.vtensor<[768],f32>, !torch.int -> !torch.vtensor<[768],f32> loc(#loc379)
    %751 = torch.aten.add.Tensor %750, %749, %int1 : !torch.vtensor<[768],f32>, !torch.vtensor<[128,768],f32>, !torch.int -> !torch.vtensor<[128,768],f32> loc(#loc379)
    %752 = torch.aten.view %751, %164 : !torch.vtensor<[128,768],f32>, !torch.list<int> -> !torch.vtensor<[1,128,768],f32> loc(#loc380)
    %753 = torch.aten.add.Tensor %718, %752, %int1 : !torch.vtensor<[1,128,768],f32>, !torch.vtensor<[1,128,768],f32>, !torch.int -> !torch.vtensor<[1,128,768],f32> loc(#loc381)
    %754 = torch.prim.ListConstruct %int2 : (!torch.int) -> !torch.list<int> loc(#loc382)
    %755 = torch.aten.sum.dim_IntList %753, %754, %true, %none : !torch.vtensor<[1,128,768],f32>, !torch.list<int>, !torch.bool, !torch.none -> !torch.vtensor<[1,128,1],f32> loc(#loc382)
    %756 = torch.aten.div.Scalar %755, %int768 : !torch.vtensor<[1,128,1],f32>, !torch.int -> !torch.vtensor<[1,128,1],f32> loc(#loc382)
    %757 = torch.prim.ListConstruct %int1, %int128, %int768 : (!torch.int, !torch.int, !torch.int) -> !torch.list<int> loc(#loc382)
    %758 = torch.aten.broadcast_to %756, %757 : !torch.vtensor<[1,128,1],f32>, !torch.list<int> -> !torch.vtensor<[1,128,768],f32> loc(#loc382)
    %759 = torch.aten.sub.Tensor %753, %758, %int1 : !torch.vtensor<[1,128,768],f32>, !torch.vtensor<[1,128,768],f32>, !torch.int -> !torch.vtensor<[1,128,768],f32> loc(#loc382)
    %760 = torch.aten.mul.Tensor %759, %759 : !torch.vtensor<[1,128,768],f32>, !torch.vtensor<[1,128,768],f32> -> !torch.vtensor<[1,128,768],f32> loc(#loc382)
    %761 = torch.aten.sum.dim_IntList %760, %754, %true, %none : !torch.vtensor<[1,128,768],f32>, !torch.list<int>, !torch.bool, !torch.none -> !torch.vtensor<[1,128,1],f32> loc(#loc382)
    %762 = torch.aten.div.Scalar %761, %int768 : !torch.vtensor<[1,128,1],f32>, !torch.int -> !torch.vtensor<[1,128,1],f32> loc(#loc382)
    %763 = torch.aten.add.Scalar %762, %float1.000000e-05, %int1 : !torch.vtensor<[1,128,1],f32>, !torch.float, !torch.int -> !torch.vtensor<[1,128,1],f32> loc(#loc382)
    %764 = torch.aten.rsqrt %763 : !torch.vtensor<[1,128,1],f32> -> !torch.vtensor<[1,128,1],f32> loc(#loc382)
    %765 = torch.prim.ListConstruct %int1, %int128, %int768 : (!torch.int, !torch.int, !torch.int) -> !torch.list<int> loc(#loc382)
    %766 = torch.aten.broadcast_to %764, %765 : !torch.vtensor<[1,128,1],f32>, !torch.list<int> -> !torch.vtensor<[1,128,768],f32> loc(#loc382)
    %767 = torch.aten.mul.Tensor %759, %766 : !torch.vtensor<[1,128,768],f32>, !torch.vtensor<[1,128,768],f32> -> !torch.vtensor<[1,128,768],f32> loc(#loc382)
    %768 = torch.aten.mul.Tensor %767, %2 : !torch.vtensor<[1,128,768],f32>, !torch.vtensor<[768],f32> -> !torch.vtensor<[1,128,768],f32> loc(#loc382)
    %769 = torch.aten.add.Tensor %768, %1, %int1 : !torch.vtensor<[1,128,768],f32>, !torch.vtensor<[768],f32>, !torch.int -> !torch.vtensor<[1,128,768],f32> loc(#loc382)
    %770 = torch.aten.view %769, %164 : !torch.vtensor<[1,128,768],f32>, !torch.list<int> -> !torch.vtensor<[1,128,768],f32> loc(#loc383)
    %771 = torch.aten.transpose.int %0, %int0, %int1 : !torch.vtensor<[2,768],f32>, !torch.int, !torch.int -> !torch.vtensor<[768,2],f32> loc(#loc384)
    %772 = torch.prim.ListConstruct %int128, %int768 : (!torch.int, !torch.int) -> !torch.list<int> loc(#loc403)
    %773 = torch.aten.view %770, %772 : !torch.vtensor<[1,128,768],f32>, !torch.list<int> -> !torch.vtensor<[128,768],f32> loc(#loc385)
    %774 = torch.aten.mm %773, %771 : !torch.vtensor<[128,768],f32>, !torch.vtensor<[768,2],f32> -> !torch.vtensor<[128,2],f32> loc(#loc386)
    %775 = torch.prim.ListConstruct %int1, %int128, %int2 : (!torch.int, !torch.int, !torch.int) -> !torch.list<int> loc(#loc)
    %776 = torch.aten.view %774, %775 : !torch.vtensor<[128,2],f32>, !torch.list<int> -> !torch.vtensor<[1,128,2],f32> loc(#loc387)
    %777 = torch.aten.arange.start_step %int0, %int1, %int1, %none, %none, %cpu, %false : !torch.int, !torch.int, !torch.int, !torch.none, !torch.none, !torch.Device, !torch.bool -> !torch.vtensor<[1],si64> loc(#loc388)
    %778 = torch.aten.slice.Tensor %776, %int1, %int127, %int128, %int1 : !torch.vtensor<[1,128,2],f32>, !torch.int, !torch.int, !torch.int, !torch.int -> !torch.vtensor<[1,1,2],f32> loc(#loc2)
    %779 = torch.aten.squeeze.dim %778, %int1 : !torch.vtensor<[1,1,2],f32>, !torch.int -> !torch.vtensor<[1,2],f32> loc(#loc2)
    %780 = torch.prim.ListConstruct %777 : (!torch.vtensor<[1],si64>) -> !torch.list<vtensor> loc(#loc389)
    %781 = torch.aten.index.Tensor %779, %780 : !torch.vtensor<[1,2],f32>, !torch.list<vtensor> -> !torch.vtensor<[1,2],f32> loc(#loc389)
    return %781 : !torch.vtensor<[1,2],f32> loc(#loc)
  } loc(#loc)
 } loc(#loc)
 #loc1 = loc("<eval_with_key>.2":5:44)
 #loc2 = loc("<eval_with_key>.2":507:13)
 #loc3 = loc("<eval_with_key>.2":5:41)
 #loc4 = loc("<eval_with_key>.2":16:24)
 #loc5 = loc("<eval_with_key>.2":6:35)
 #loc6 = loc("<eval_with_key>.2":19:34)
 #loc7 = loc("<eval_with_key>.2":16:63)
 #loc8 = loc("<eval_with_key>.2":86:37)
 #loc9 = loc("<eval_with_key>.2":41:48)
 #loc10 = loc("<eval_with_key>.2":6:106)
 #loc11 = loc("<eval_with_key>.2":48:56)
 #loc12 = loc("<eval_with_key>.2":34:56)
 #loc13 = loc("<eval_with_key>.2":49:37)
 #loc14 = loc("<eval_with_key>.2":6:51)
 #loc15 = loc("<eval_with_key>.2":5:40)
 #loc16 = loc("<eval_with_key>.2":16:105)
 #loc17 = loc("<eval_with_key>.2":24:49)
 #loc18 = loc("<eval_with_key>.2":26:51)
 #loc19 = loc("<eval_with_key>.2":28:51)
 #loc20 = loc("<eval_with_key>.2":28:55)
 #loc21 = loc("<eval_with_key>.2":29:55)
 #loc22 = loc("<eval_with_key>.2":41:35)
 #loc23 = loc("<eval_with_key>.2":78:52)
 #loc24 = loc("<eval_with_key>.2":79:38)
 #loc25 = loc("<eval_with_key>.2":80:40)
 #loc26 = loc("<eval_with_key>.2":81:38)
 #loc27 = loc("<eval_with_key>.2":83:38)
 #loc28 = loc("<eval_with_key>.2":5:11)
 #loc29 = loc("<eval_with_key>.2":6:13)
 #loc30 = loc("<eval_with_key>.2":7:16)
 #loc31 = loc("<eval_with_key>.2":8:13)
 #loc32 = loc("<eval_with_key>.2":10:16)
 #loc33 = loc("<eval_with_key>.2":12:18)
 #loc34 = loc("<eval_with_key>.2":13:10)
 #loc35 = loc("<eval_with_key>.2":20:13)
 #loc36 = loc("<eval_with_key>.2":23:12)
 #loc37 = loc("-":4783:13)
 #loc38 = loc("-":6691:10)
 #loc39 = loc("<eval_with_key>.2":24:13)
 #loc40 = loc("<eval_with_key>.2":25:14)
 #loc41 = loc("<eval_with_key>.2":26:14)
 #loc42 = loc("<eval_with_key>.2":27:14)
 #loc43 = loc("<eval_with_key>.2":28:13)
 #loc44 = loc("<eval_with_key>.2":29:14)
 #loc45 = loc("<eval_with_key>.2":30:13)
 #loc46 = loc("<eval_with_key>.2":31:16)
 #loc47 = loc("<eval_with_key>.2":32:13)
 #loc48 = loc("<eval_with_key>.2":33:16)
 #loc49 = loc("<eval_with_key>.2":34:16)
 #loc50 = loc("-":4951:15)
 #loc51 = loc("-":6679:10)
 #loc52 = loc("<eval_with_key>.2":35:13)
 #loc53 = loc("<eval_with_key>.2":36:13)
 #loc54 = loc("<eval_with_key>.2":37:15)
 #loc55 = loc("<eval_with_key>.2":38:13)
 #loc56 = loc("<eval_with_key>.2":39:10)
 #loc57 = loc("-":1322:13)
 #loc58 = loc("-":7035:10)
 #loc59 = loc("<eval_with_key>.2":42:10)
 #loc60 = loc("<eval_with_key>.2":40:19)
 #loc61 = loc("<eval_with_key>.2":41:11)
 #loc62 = loc("<eval_with_key>.2":46:14)
 #loc63 = loc("<eval_with_key>.2":47:14)
 #loc64 = loc("<eval_with_key>.2":48:15)
 #loc65 = loc("<eval_with_key>.2":49:13)
 #loc66 = loc("<eval_with_key>.2":50:12)
 #loc67 = loc("<eval_with_key>.2":51:15)
 #loc68 = loc("<eval_with_key>.2":53:15)
 #loc69 = loc("<eval_with_key>.2":54:13)
 #loc70 = loc("<eval_with_key>.2":55:15)
 #loc71 = loc("<eval_with_key>.2":56:14)
 #loc72 = loc("<eval_with_key>.2":57:12)
 #loc73 = loc("<eval_with_key>.2":58:21)
 #loc74 = loc("<eval_with_key>.2":59:16)
 #loc75 = loc("<eval_with_key>.2":60:12)
 #loc76 = loc("<eval_with_key>.2":61:14)
 #loc77 = loc("<eval_with_key>.2":62:14)
 #loc78 = loc("<eval_with_key>.2":65:14)
 #loc79 = loc("<eval_with_key>.2":66:14)
 #loc80 = loc("<eval_with_key>.2":67:12)
 #loc81 = loc("<eval_with_key>.2":70:26)
 #loc82 = loc("<eval_with_key>.2":74:14)
 #loc83 = loc("<eval_with_key>.2":77:14)
 #loc84 = loc("<eval_with_key>.2":78:14)
 #loc85 = loc("<eval_with_key>.2":79:10)
 #loc86 = loc("<eval_with_key>.2":80:12)
 #loc87 = loc("<eval_with_key>.2":81:12)
 #loc88 = loc("<eval_with_key>.2":82:12)
 #loc89 = loc("<eval_with_key>.2":83:12)
 #loc90 = loc("<eval_with_key>.2":84:11)
 #loc91 = loc("<eval_with_key>.2":86:12)
 #loc92 = loc("<eval_with_key>.2":87:12)
 #loc93 = loc("<eval_with_key>.2":88:14)
 #loc94 = loc("<eval_with_key>.2":91:14)
 #loc95 = loc("<eval_with_key>.2":92:14)
 #loc96 = loc("<eval_with_key>.2":93:12)
 #loc97 = loc("<eval_with_key>.2":96:26)
 #loc98 = loc("<eval_with_key>.2":100:14)
 #loc99 = loc("<eval_with_key>.2":103:14)
 #loc100 = loc("<eval_with_key>.2":104:14)
 #loc101 = loc("<eval_with_key>.2":105:14)
 #loc102 = loc("<eval_with_key>.2":106:14)
 #loc103 = loc("<eval_with_key>.2":107:15)
 #loc104 = loc("<eval_with_key>.2":108:14)
 #loc105 = loc("<eval_with_key>.2":109:16)
 #loc106 = loc("<eval_with_key>.2":110:14)
 #loc107 = loc("<eval_with_key>.2":111:16)
 #loc108 = loc("<eval_with_key>.2":112:14)
 #loc109 = loc("<eval_with_key>.2":113:16)
 #loc110 = loc("<eval_with_key>.2":114:18)
 #loc111 = loc("<eval_with_key>.2":115:15)
 #loc112 = loc("<eval_with_key>.2":116:14)
 #loc113 = loc("<eval_with_key>.2":117:15)
 #loc114 = loc("<eval_with_key>.2":118:14)
 #loc115 = loc("<eval_with_key>.2":119:12)
 #loc116 = loc("<eval_with_key>.2":120:21)
 #loc117 = loc("<eval_with_key>.2":121:13)
 #loc118 = loc("<eval_with_key>.2":122:12)
 #loc119 = loc("<eval_with_key>.2":126:15)
 #loc120 = loc("<eval_with_key>.2":127:15)
 #loc121 = loc("<eval_with_key>.2":128:17)
 #loc122 = loc("<eval_with_key>.2":129:13)
 #loc123 = loc("<eval_with_key>.2":130:14)
 #loc124 = loc("<eval_with_key>.2":131:17)
 #loc125 = loc("<eval_with_key>.2":133:15)
 #loc126 = loc("<eval_with_key>.2":134:14)
 #loc127 = loc("<eval_with_key>.2":135:15)
 #loc128 = loc("<eval_with_key>.2":136:14)
 #loc129 = loc("<eval_with_key>.2":137:12)
 #loc130 = loc("<eval_with_key>.2":138:21)
 #loc131 = loc("<eval_with_key>.2":139:16)
 #loc132 = loc("<eval_with_key>.2":140:14)
 #loc133 = loc("<eval_with_key>.2":141:14)
 #loc134 = loc("<eval_with_key>.2":142:14)
 #loc135 = loc("<eval_with_key>.2":145:14)
 #loc136 = loc("<eval_with_key>.2":146:14)
 #loc137 = loc("<eval_with_key>.2":147:12)
 #loc138 = loc("<eval_with_key>.2":150:26)
 #loc139 = loc("<eval_with_key>.2":154:14)
 #loc140 = loc("<eval_with_key>.2":157:14)
 #loc141 = loc("<eval_with_key>.2":158:14)
 #loc142 = loc("<eval_with_key>.2":159:12)
 #loc143 = loc("<eval_with_key>.2":160:12)
 #loc144 = loc("<eval_with_key>.2":161:12)
 #loc145 = loc("<eval_with_key>.2":162:12)
 #loc146 = loc("<eval_with_key>.2":163:12)
 #loc147 = loc("<eval_with_key>.2":164:13)
 #loc148 = loc("<eval_with_key>.2":166:12)
 #loc149 = loc("<eval_with_key>.2":167:12)
 #loc150 = loc("<eval_with_key>.2":168:14)
 #loc151 = loc("<eval_with_key>.2":171:14)
 #loc152 = loc("<eval_with_key>.2":172:14)
 #loc153 = loc("<eval_with_key>.2":173:12)
 #loc154 = loc("<eval_with_key>.2":176:26)
 #loc155 = loc("<eval_with_key>.2":180:14)
 #loc156 = loc("<eval_with_key>.2":183:14)
 #loc157 = loc("<eval_with_key>.2":184:14)
 #loc158 = loc("<eval_with_key>.2":185:15)
 #loc159 = loc("<eval_with_key>.2":186:15)
 #loc160 = loc("<eval_with_key>.2":187:15)
 #loc161 = loc("<eval_with_key>.2":188:14)
 #loc162 = loc("<eval_with_key>.2":189:16)
 #loc163 = loc("<eval_with_key>.2":190:14)
 #loc164 = loc("<eval_with_key>.2":191:16)
 #loc165 = loc("<eval_with_key>.2":192:14)
 #loc166 = loc("<eval_with_key>.2":193:17)
 #loc167 = loc("<eval_with_key>.2":194:18)
 #loc168 = loc("<eval_with_key>.2":195:15)
 #loc169 = loc("<eval_with_key>.2":196:14)
 #loc170 = loc("<eval_with_key>.2":197:15)
 #loc171 = loc("<eval_with_key>.2":198:14)
 #loc172 = loc("<eval_with_key>.2":199:12)
 #loc173 = loc("<eval_with_key>.2":200:21)
 #loc174 = loc("<eval_with_key>.2":201:13)
 #loc175 = loc("<eval_with_key>.2":202:12)
 #loc176 = loc("<eval_with_key>.2":206:15)
 #loc177 = loc("<eval_with_key>.2":207:15)
 #loc178 = loc("<eval_with_key>.2":208:17)
 #loc179 = loc("<eval_with_key>.2":209:13)
 #loc180 = loc("<eval_with_key>.2":210:14)
 #loc181 = loc("<eval_with_key>.2":211:17)
 #loc182 = loc("<eval_with_key>.2":213:16)
 #loc183 = loc("<eval_with_key>.2":214:14)
 #loc184 = loc("<eval_with_key>.2":215:16)
 #loc185 = loc("<eval_with_key>.2":216:14)
 #loc186 = loc("<eval_with_key>.2":217:12)
 #loc187 = loc("<eval_with_key>.2":218:21)
 #loc188 = loc("<eval_with_key>.2":219:17)
 #loc189 = loc("<eval_with_key>.2":220:14)
 #loc190 = loc("<eval_with_key>.2":221:14)
 #loc191 = loc("<eval_with_key>.2":222:14)
 #loc192 = loc("<eval_with_key>.2":225:14)
 #loc193 = loc("<eval_with_key>.2":226:14)
 #loc194 = loc("<eval_with_key>.2":227:12)
 #loc195 = loc("<eval_with_key>.2":230:26)
 #loc196 = loc("<eval_with_key>.2":234:14)
 #loc197 = loc("<eval_with_key>.2":237:15)
 #loc198 = loc("<eval_with_key>.2":238:14)
 #loc199 = loc("<eval_with_key>.2":239:12)
 #loc200 = loc("<eval_with_key>.2":240:12)
 #loc201 = loc("<eval_with_key>.2":241:12)
 #loc202 = loc("<eval_with_key>.2":242:13)
 #loc203 = loc("<eval_with_key>.2":243:13)
 #loc204 = loc("<eval_with_key>.2":244:13)
 #loc205 = loc("<eval_with_key>.2":246:13)
 #loc206 = loc("<eval_with_key>.2":247:13)
 #loc207 = loc("<eval_with_key>.2":248:14)
 #loc208 = loc("<eval_with_key>.2":251:15)
 #loc209 = loc("<eval_with_key>.2":252:14)
 #loc210 = loc("<eval_with_key>.2":253:13)
 #loc211 = loc("<eval_with_key>.2":256:26)
 #loc212 = loc("<eval_with_key>.2":260:14)
 #loc213 = loc("<eval_with_key>.2":263:15)
 #loc214 = loc("<eval_with_key>.2":264:14)
 #loc215 = loc("<eval_with_key>.2":265:15)
 #loc216 = loc("<eval_with_key>.2":266:15)
 #loc217 = loc("<eval_with_key>.2":267:15)
 #loc218 = loc("<eval_with_key>.2":268:14)
 #loc219 = loc("<eval_with_key>.2":269:17)
 #loc220 = loc("<eval_with_key>.2":270:14)
 #loc221 = loc("<eval_with_key>.2":271:17)
 #loc222 = loc("<eval_with_key>.2":272:14)
 #loc223 = loc("<eval_with_key>.2":273:17)
 #loc224 = loc("<eval_with_key>.2":274:18)
 #loc225 = loc("<eval_with_key>.2":275:16)
 #loc226 = loc("<eval_with_key>.2":276:14)
 #loc227 = loc("<eval_with_key>.2":277:16)
 #loc228 = loc("<eval_with_key>.2":278:14)
 #loc229 = loc("<eval_with_key>.2":279:12)
 #loc230 = loc("<eval_with_key>.2":280:21)
 #loc231 = loc("<eval_with_key>.2":281:13)
 #loc232 = loc("<eval_with_key>.2":282:12)
 #loc233 = loc("<eval_with_key>.2":286:15)
 #loc234 = loc("<eval_with_key>.2":287:15)
 #loc235 = loc("<eval_with_key>.2":288:17)
 #loc236 = loc("<eval_with_key>.2":289:13)
 #loc237 = loc("<eval_with_key>.2":290:14)
 #loc238 = loc("<eval_with_key>.2":291:17)
 #loc239 = loc("<eval_with_key>.2":293:16)
 #loc240 = loc("<eval_with_key>.2":294:14)
 #loc241 = loc("<eval_with_key>.2":295:16)
 #loc242 = loc("<eval_with_key>.2":296:14)
 #loc243 = loc("<eval_with_key>.2":297:12)
 #loc244 = loc("<eval_with_key>.2":298:21)
 #loc245 = loc("<eval_with_key>.2":299:17)
 #loc246 = loc("<eval_with_key>.2":300:14)
 #loc247 = loc("<eval_with_key>.2":301:14)
 #loc248 = loc("<eval_with_key>.2":302:14)
 #loc249 = loc("<eval_with_key>.2":305:15)
 #loc250 = loc("<eval_with_key>.2":306:14)
 #loc251 = loc("<eval_with_key>.2":307:13)
 #loc252 = loc("<eval_with_key>.2":310:26)
 #loc253 = loc("<eval_with_key>.2":314:14)
 #loc254 = loc("<eval_with_key>.2":317:15)
 #loc255 = loc("<eval_with_key>.2":318:14)
 #loc256 = loc("<eval_with_key>.2":319:13)
 #loc257 = loc("<eval_with_key>.2":320:12)
 #loc258 = loc("<eval_with_key>.2":321:13)
 #loc259 = loc("<eval_with_key>.2":322:13)
 #loc260 = loc("<eval_with_key>.2":323:13)
 #loc261 = loc("<eval_with_key>.2":324:13)
 #loc262 = loc("<eval_with_key>.2":326:13)
 #loc263 = loc("<eval_with_key>.2":327:13)
 #loc264 = loc("<eval_with_key>.2":328:14)
 #loc265 = loc("<eval_with_key>.2":331:15)
 #loc266 = loc("<eval_with_key>.2":332:14)
 #loc267 = loc("<eval_with_key>.2":333:13)
 #loc268 = loc("<eval_with_key>.2":336:26)
 #loc269 = loc("<eval_with_key>.2":340:14)
 #loc270 = loc("<eval_with_key>.2":343:15)
 #loc271 = loc("<eval_with_key>.2":344:14)
 #loc272 = loc("<eval_with_key>.2":345:15)
 #loc273 = loc("<eval_with_key>.2":346:15)
 #loc274 = loc("<eval_with_key>.2":347:15)
 #loc275 = loc("<eval_with_key>.2":348:14)
 #loc276 = loc("<eval_with_key>.2":349:17)
 #loc277 = loc("<eval_with_key>.2":350:14)
 #loc278 = loc("<eval_with_key>.2":351:17)
 #loc279 = loc("<eval_with_key>.2":352:14)
 #loc280 = loc("<eval_with_key>.2":353:17)
 #loc281 = loc("<eval_with_key>.2":354:18)
 #loc282 = loc("<eval_with_key>.2":355:16)
 #loc283 = loc("<eval_with_key>.2":356:14)
 #loc284 = loc("<eval_with_key>.2":357:16)
 #loc285 = loc("<eval_with_key>.2":358:14)
 #loc286 = loc("<eval_with_key>.2":359:12)
 #loc287 = loc("<eval_with_key>.2":360:21)
 #loc288 = loc("<eval_with_key>.2":361:13)
 #loc289 = loc("<eval_with_key>.2":362:12)
 #loc290 = loc("<eval_with_key>.2":366:15)
 #loc291 = loc("<eval_with_key>.2":367:15)
 #loc292 = loc("<eval_with_key>.2":368:17)
 #loc293 = loc("<eval_with_key>.2":369:13)
 #loc294 = loc("<eval_with_key>.2":370:14)
 #loc295 = loc("<eval_with_key>.2":371:17)
 #loc296 = loc("<eval_with_key>.2":373:16)
 #loc297 = loc("<eval_with_key>.2":374:14)
 #loc298 = loc("<eval_with_key>.2":375:16)
 #loc299 = loc("<eval_with_key>.2":376:14)
 #loc300 = loc("<eval_with_key>.2":377:12)
 #loc301 = loc("<eval_with_key>.2":378:21)
 #loc302 = loc("<eval_with_key>.2":379:17)
 #loc303 = loc("<eval_with_key>.2":380:14)
 #loc304 = loc("<eval_with_key>.2":381:14)
 #loc305 = loc("<eval_with_key>.2":382:14)
 #loc306 = loc("<eval_with_key>.2":385:15)
 #loc307 = loc("<eval_with_key>.2":386:14)
 #loc308 = loc("<eval_with_key>.2":387:13)
 #loc309 = loc("<eval_with_key>.2":390:26)
 #loc310 = loc("<eval_with_key>.2":394:14)
 #loc311 = loc("<eval_with_key>.2":397:15)
 #loc312 = loc("<eval_with_key>.2":398:14)
 #loc313 = loc("<eval_with_key>.2":399:13)
 #loc314 = loc("<eval_with_key>.2":400:12)
 #loc315 = loc("<eval_with_key>.2":401:13)
 #loc316 = loc("<eval_with_key>.2":402:13)
 #loc317 = loc("<eval_with_key>.2":403:13)
 #loc318 = loc("<eval_with_key>.2":404:13)
 #loc319 = loc("<eval_with_key>.2":406:13)
 #loc320 = loc("<eval_with_key>.2":407:13)
 #loc321 = loc("<eval_with_key>.2":408:14)
 #loc322 = loc("<eval_with_key>.2":411:15)
 #loc323 = loc("<eval_with_key>.2":412:14)
 #loc324 = loc("<eval_with_key>.2":413:13)
 #loc325 = loc("<eval_with_key>.2":416:27)
 #loc326 = loc("<eval_with_key>.2":420:14)
 #loc327 = loc("<eval_with_key>.2":423:15)
 #loc328 = loc("<eval_with_key>.2":424:14)
 #loc329 = loc("<eval_with_key>.2":425:15)
 #loc330 = loc("<eval_with_key>.2":426:15)
 #loc331 = loc("<eval_with_key>.2":427:15)
 #loc332 = loc("<eval_with_key>.2":428:14)
 #loc333 = loc("<eval_with_key>.2":429:17)
 #loc334 = loc("<eval_with_key>.2":430:14)
 #loc335 = loc("<eval_with_key>.2":431:17)
 #loc336 = loc("<eval_with_key>.2":432:14)
 #loc337 = loc("<eval_with_key>.2":433:17)
 #loc338 = loc("<eval_with_key>.2":434:18)
 #loc339 = loc("<eval_with_key>.2":435:16)
 #loc340 = loc("<eval_with_key>.2":436:14)
 #loc341 = loc("<eval_with_key>.2":437:16)
 #loc342 = loc("<eval_with_key>.2":438:14)
 #loc343 = loc("<eval_with_key>.2":439:13)
 #loc344 = loc("<eval_with_key>.2":440:22)
 #loc345 = loc("<eval_with_key>.2":441:14)
 #loc346 = loc("<eval_with_key>.2":442:12)
 #loc347 = loc("<eval_with_key>.2":446:15)
 #loc348 = loc("<eval_with_key>.2":447:15)
 #loc349 = loc("<eval_with_key>.2":448:17)
 #loc350 = loc("<eval_with_key>.2":449:14)
 #loc351 = loc("<eval_with_key>.2":450:14)
 #loc352 = loc("<eval_with_key>.2":451:17)
 #loc353 = loc("<eval_with_key>.2":453:16)
 #loc354 = loc("<eval_with_key>.2":454:14)
 #loc355 = loc("<eval_with_key>.2":455:16)
 #loc356 = loc("<eval_with_key>.2":456:14)
 #loc357 = loc("<eval_with_key>.2":457:13)
 #loc358 = loc("<eval_with_key>.2":458:22)
 #loc359 = loc("<eval_with_key>.2":459:17)
 #loc360 = loc("<eval_with_key>.2":460:14)
 #loc361 = loc("<eval_with_key>.2":461:14)
 #loc362 = loc("<eval_with_key>.2":462:14)
 #loc363 = loc("<eval_with_key>.2":465:15)
 #loc364 = loc("<eval_with_key>.2":466:14)
 #loc365 = loc("<eval_with_key>.2":467:13)
 #loc366 = loc("<eval_with_key>.2":470:27)
 #loc367 = loc("<eval_with_key>.2":474:14)
 #loc368 = loc("<eval_with_key>.2":477:15)
 #loc369 = loc("<eval_with_key>.2":478:14)
 #loc370 = loc("<eval_with_key>.2":479:13)
 #loc371 = loc("<eval_with_key>.2":480:12)
 #loc372 = loc("<eval_with_key>.2":481:13)
 #loc373 = loc("<eval_with_key>.2":482:13)
 #loc374 = loc("<eval_with_key>.2":483:13)
 #loc375 = loc("<eval_with_key>.2":484:13)
 #loc376 = loc("<eval_with_key>.2":486:13)
 #loc377 = loc("<eval_with_key>.2":487:13)
 #loc378 = loc("<eval_with_key>.2":488:14)
 #loc379 = loc("<eval_with_key>.2":491:15)
 #loc380 = loc("<eval_with_key>.2":492:14)
 #loc381 = loc("<eval_with_key>.2":493:13)
 #loc382 = loc("<eval_with_key>.2":496:27)
 #loc383 = loc("<eval_with_key>.2":500:14)
 #loc384 = loc("<eval_with_key>.2":502:8)
 #loc385 = loc("<eval_with_key>.2":503:14)
 #loc386 = loc("<eval_with_key>.2":504:9)
 #loc387 = loc("<eval_with_key>.2":505:22)
 #loc388 = loc("<eval_with_key>.2":506:15)
 #loc389 = loc("<eval_with_key>.2":508:12)
 #loc390 = loc(callsite(#loc37 at #loc38))
 #loc391 = loc(callsite(#loc50 at #loc51))
 #loc392 = loc(callsite(#loc57 at #loc58))
 #loc393 = loc(callsite(#loc390 at #loc39))
 #loc394 = loc(callsite(#loc390 at #loc43))
 #loc395 = loc(callsite(#loc391 at #loc52))
 #loc396 = loc(callsite(#loc390 at #loc53))
 #loc397 = loc(callsite(#loc391 at #loc54))
 #loc398 = loc(callsite(#loc390 at #loc55))
 #loc399 = loc(callsite(#loc392 at #loc59))
 #loc400 = loc(callsite(#loc390 at #loc69))
 #loc401 = loc(callsite(#loc390 at #loc76))
 #loc402 = loc(callsite(#loc390 at #loc84))
 #loc403 = loc(callsite(#loc390 at #loc385))