Xenova HF staff commited on
Commit
c650d27
1 Parent(s): 440a8c3

Update quantize_config.json

Browse files
Files changed (1) hide show
  1. quantize_config.json +380 -23
quantize_config.json CHANGED
@@ -1,6 +1,70 @@
1
  {
 
2
  "q8": {
3
  "per_model_config": {
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
4
  "text_encoder": {
5
  "op_types": [
6
  "Abs",
@@ -38,8 +102,11 @@
38
  "Cast",
39
  "Concat",
40
  "Constant",
 
41
  "Div",
 
42
  "Erf",
 
43
  "Gather",
44
  "MatMul",
45
  "Mul",
@@ -52,8 +119,101 @@
52
  "Sqrt",
53
  "Sub",
54
  "Transpose",
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
55
  "Unsqueeze"
56
  ],
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
57
  "weight_type": "QInt8"
58
  },
59
  "decoder_model": {
@@ -87,6 +247,65 @@
87
  ],
88
  "weight_type": "QInt8"
89
  },
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
90
  "encodec_decode": {
91
  "op_types": [
92
  "Add",
@@ -111,44 +330,66 @@
111
  "Transpose",
112
  "Unsqueeze"
113
  ],
114
- "weight_type": "QUInt8"
115
  },
116
- "encodec_encoder": {
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
117
  "op_types": [
118
  "Add",
119
- "ArgMax",
120
  "Cast",
121
- "Ceil",
122
  "Concat",
123
- "ConcatFromSequence",
124
  "Constant",
125
  "ConstantOfShape",
126
- "Conv",
127
  "Div",
128
- "Elu",
129
  "Equal",
 
130
  "Expand",
131
  "Gather",
132
- "Identity",
133
  "If",
134
- "LSTM",
135
- "LessOrEqual",
136
- "Loop",
137
  "MatMul",
138
- "Max",
139
  "Mul",
140
- "Neg",
141
- "Pad",
142
  "Pow",
143
- "ReduceL2",
144
- "ReduceMin",
145
- "ReduceSum",
146
  "Reshape",
147
- "ScatterND",
148
- "SequenceEmpty",
149
- "SequenceInsert",
150
  "Shape",
151
  "Slice",
 
 
152
  "Squeeze",
153
  "Sub",
154
  "Transpose",
@@ -157,7 +398,7 @@
157
  ],
158
  "weight_type": "QUInt8"
159
  },
160
- "decoder_model_merged": {
161
  "op_types": [
162
  "Add",
163
  "Cast",
@@ -169,7 +410,6 @@
169
  "Erf",
170
  "Expand",
171
  "Gather",
172
- "If",
173
  "Less",
174
  "MatMul",
175
  "Mul",
@@ -187,10 +427,127 @@
187
  "Unsqueeze",
188
  "Where"
189
  ],
190
- "weight_type": "QInt8"
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
191
  }
192
  },
193
  "per_channel": false,
194
  "reduce_range": false
 
 
 
 
195
  }
196
  }
 
1
  {
2
+ "fp16": {},
3
  "q8": {
4
  "per_model_config": {
5
+ "decoder_model_merged": {
6
+ "op_types": [
7
+ "Add",
8
+ "Cast",
9
+ "Concat",
10
+ "Constant",
11
+ "ConstantOfShape",
12
+ "Div",
13
+ "Equal",
14
+ "Erf",
15
+ "Expand",
16
+ "Gather",
17
+ "If",
18
+ "Less",
19
+ "MatMul",
20
+ "Mul",
21
+ "Pow",
22
+ "Range",
23
+ "ReduceMean",
24
+ "Reshape",
25
+ "Shape",
26
+ "Slice",
27
+ "Softmax",
28
+ "Sqrt",
29
+ "Squeeze",
30
+ "Sub",
31
+ "Transpose",
32
+ "Unsqueeze",
33
+ "Where"
34
+ ],
35
+ "weight_type": "QInt8"
36
+ },
37
+ "decoder_model": {
38
+ "op_types": [
39
+ "Add",
40
+ "Cast",
41
+ "Concat",
42
+ "Constant",
43
+ "ConstantOfShape",
44
+ "Div",
45
+ "Equal",
46
+ "Erf",
47
+ "Expand",
48
+ "Gather",
49
+ "Less",
50
+ "MatMul",
51
+ "Mul",
52
+ "Pow",
53
+ "Range",
54
+ "ReduceMean",
55
+ "Reshape",
56
+ "Shape",
57
+ "Slice",
58
+ "Softmax",
59
+ "Sqrt",
60
+ "Squeeze",
61
+ "Sub",
62
+ "Transpose",
63
+ "Unsqueeze",
64
+ "Where"
65
+ ],
66
+ "weight_type": "QInt8"
67
+ },
68
  "text_encoder": {
69
  "op_types": [
70
  "Abs",
 
102
  "Cast",
103
  "Concat",
104
  "Constant",
105
+ "ConstantOfShape",
106
  "Div",
107
+ "Equal",
108
  "Erf",
109
+ "Expand",
110
  "Gather",
111
  "MatMul",
112
  "Mul",
 
119
  "Sqrt",
120
  "Sub",
121
  "Transpose",
122
+ "Unsqueeze",
123
+ "Where"
124
+ ],
125
+ "weight_type": "QInt8"
126
+ },
127
+ "encodec_decode": {
128
+ "op_types": [
129
+ "Add",
130
+ "Cast",
131
+ "Ceil",
132
+ "Concat",
133
+ "Constant",
134
+ "ConstantOfShape",
135
+ "Conv",
136
+ "ConvTranspose",
137
+ "Div",
138
+ "Elu",
139
+ "Gather",
140
+ "LSTM",
141
+ "Pad",
142
+ "Reshape",
143
+ "Shape",
144
+ "Slice",
145
+ "Split",
146
+ "Squeeze",
147
+ "Sub",
148
+ "Transpose",
149
  "Unsqueeze"
150
  ],
151
+ "weight_type": "QUInt8"
152
+ },
153
+ "build_delay_pattern_mask": {
154
+ "op_types": [
155
+ "Add",
156
+ "Cast",
157
+ "Concat",
158
+ "Constant",
159
+ "ConstantOfShape",
160
+ "Equal",
161
+ "Expand",
162
+ "Gather",
163
+ "GreaterOrEqual",
164
+ "Mul",
165
+ "NonZero",
166
+ "Not",
167
+ "Range",
168
+ "ReduceMin",
169
+ "Reshape",
170
+ "ScatterND",
171
+ "Shape",
172
+ "Slice",
173
+ "Sub",
174
+ "Transpose",
175
+ "Trilu",
176
+ "Unsqueeze",
177
+ "Where"
178
+ ],
179
+ "weight_type": "QInt8"
180
+ }
181
+ },
182
+ "per_channel": false,
183
+ "reduce_range": false
184
+ },
185
+ "int8": {
186
+ "per_model_config": {
187
+ "decoder_model_merged": {
188
+ "op_types": [
189
+ "Add",
190
+ "Cast",
191
+ "Concat",
192
+ "Constant",
193
+ "ConstantOfShape",
194
+ "Div",
195
+ "Equal",
196
+ "Erf",
197
+ "Expand",
198
+ "Gather",
199
+ "If",
200
+ "Less",
201
+ "MatMul",
202
+ "Mul",
203
+ "Pow",
204
+ "Range",
205
+ "ReduceMean",
206
+ "Reshape",
207
+ "Shape",
208
+ "Slice",
209
+ "Softmax",
210
+ "Sqrt",
211
+ "Squeeze",
212
+ "Sub",
213
+ "Transpose",
214
+ "Unsqueeze",
215
+ "Where"
216
+ ],
217
  "weight_type": "QInt8"
218
  },
219
  "decoder_model": {
 
247
  ],
248
  "weight_type": "QInt8"
249
  },
250
+ "text_encoder": {
251
+ "op_types": [
252
+ "Abs",
253
+ "Add",
254
+ "Cast",
255
+ "Concat",
256
+ "Constant",
257
+ "ConstantOfShape",
258
+ "Div",
259
+ "Gather",
260
+ "Greater",
261
+ "Less",
262
+ "Log",
263
+ "MatMul",
264
+ "Min",
265
+ "Mul",
266
+ "Pow",
267
+ "Range",
268
+ "ReduceMean",
269
+ "Relu",
270
+ "Reshape",
271
+ "Shape",
272
+ "Softmax",
273
+ "Sqrt",
274
+ "Sub",
275
+ "Transpose",
276
+ "Unsqueeze",
277
+ "Where"
278
+ ],
279
+ "weight_type": "QInt8"
280
+ },
281
+ "decoder_with_past_model": {
282
+ "op_types": [
283
+ "Add",
284
+ "Cast",
285
+ "Concat",
286
+ "Constant",
287
+ "ConstantOfShape",
288
+ "Div",
289
+ "Equal",
290
+ "Erf",
291
+ "Expand",
292
+ "Gather",
293
+ "MatMul",
294
+ "Mul",
295
+ "Pow",
296
+ "Range",
297
+ "ReduceMean",
298
+ "Reshape",
299
+ "Shape",
300
+ "Softmax",
301
+ "Sqrt",
302
+ "Sub",
303
+ "Transpose",
304
+ "Unsqueeze",
305
+ "Where"
306
+ ],
307
+ "weight_type": "QInt8"
308
+ },
309
  "encodec_decode": {
310
  "op_types": [
311
  "Add",
 
330
  "Transpose",
331
  "Unsqueeze"
332
  ],
333
+ "weight_type": "QInt8"
334
  },
335
+ "build_delay_pattern_mask": {
336
+ "op_types": [
337
+ "Add",
338
+ "Cast",
339
+ "Concat",
340
+ "Constant",
341
+ "ConstantOfShape",
342
+ "Equal",
343
+ "Expand",
344
+ "Gather",
345
+ "GreaterOrEqual",
346
+ "Mul",
347
+ "NonZero",
348
+ "Not",
349
+ "Range",
350
+ "ReduceMin",
351
+ "Reshape",
352
+ "ScatterND",
353
+ "Shape",
354
+ "Slice",
355
+ "Sub",
356
+ "Transpose",
357
+ "Trilu",
358
+ "Unsqueeze",
359
+ "Where"
360
+ ],
361
+ "weight_type": "QInt8"
362
+ }
363
+ },
364
+ "per_channel": false,
365
+ "reduce_range": false
366
+ },
367
+ "uint8": {
368
+ "per_model_config": {
369
+ "decoder_model_merged": {
370
  "op_types": [
371
  "Add",
 
372
  "Cast",
 
373
  "Concat",
 
374
  "Constant",
375
  "ConstantOfShape",
 
376
  "Div",
 
377
  "Equal",
378
+ "Erf",
379
  "Expand",
380
  "Gather",
 
381
  "If",
382
+ "Less",
 
 
383
  "MatMul",
 
384
  "Mul",
 
 
385
  "Pow",
386
+ "Range",
387
+ "ReduceMean",
 
388
  "Reshape",
 
 
 
389
  "Shape",
390
  "Slice",
391
+ "Softmax",
392
+ "Sqrt",
393
  "Squeeze",
394
  "Sub",
395
  "Transpose",
 
398
  ],
399
  "weight_type": "QUInt8"
400
  },
401
+ "decoder_model": {
402
  "op_types": [
403
  "Add",
404
  "Cast",
 
410
  "Erf",
411
  "Expand",
412
  "Gather",
 
413
  "Less",
414
  "MatMul",
415
  "Mul",
 
427
  "Unsqueeze",
428
  "Where"
429
  ],
430
+ "weight_type": "QUInt8"
431
+ },
432
+ "text_encoder": {
433
+ "op_types": [
434
+ "Abs",
435
+ "Add",
436
+ "Cast",
437
+ "Concat",
438
+ "Constant",
439
+ "ConstantOfShape",
440
+ "Div",
441
+ "Gather",
442
+ "Greater",
443
+ "Less",
444
+ "Log",
445
+ "MatMul",
446
+ "Min",
447
+ "Mul",
448
+ "Pow",
449
+ "Range",
450
+ "ReduceMean",
451
+ "Relu",
452
+ "Reshape",
453
+ "Shape",
454
+ "Softmax",
455
+ "Sqrt",
456
+ "Sub",
457
+ "Transpose",
458
+ "Unsqueeze",
459
+ "Where"
460
+ ],
461
+ "weight_type": "QUInt8"
462
+ },
463
+ "decoder_with_past_model": {
464
+ "op_types": [
465
+ "Add",
466
+ "Cast",
467
+ "Concat",
468
+ "Constant",
469
+ "ConstantOfShape",
470
+ "Div",
471
+ "Equal",
472
+ "Erf",
473
+ "Expand",
474
+ "Gather",
475
+ "MatMul",
476
+ "Mul",
477
+ "Pow",
478
+ "Range",
479
+ "ReduceMean",
480
+ "Reshape",
481
+ "Shape",
482
+ "Softmax",
483
+ "Sqrt",
484
+ "Sub",
485
+ "Transpose",
486
+ "Unsqueeze",
487
+ "Where"
488
+ ],
489
+ "weight_type": "QUInt8"
490
+ },
491
+ "encodec_decode": {
492
+ "op_types": [
493
+ "Add",
494
+ "Cast",
495
+ "Ceil",
496
+ "Concat",
497
+ "Constant",
498
+ "ConstantOfShape",
499
+ "Conv",
500
+ "ConvTranspose",
501
+ "Div",
502
+ "Elu",
503
+ "Gather",
504
+ "LSTM",
505
+ "Pad",
506
+ "Reshape",
507
+ "Shape",
508
+ "Slice",
509
+ "Split",
510
+ "Squeeze",
511
+ "Sub",
512
+ "Transpose",
513
+ "Unsqueeze"
514
+ ],
515
+ "weight_type": "QUInt8"
516
+ },
517
+ "build_delay_pattern_mask": {
518
+ "op_types": [
519
+ "Add",
520
+ "Cast",
521
+ "Concat",
522
+ "Constant",
523
+ "ConstantOfShape",
524
+ "Equal",
525
+ "Expand",
526
+ "Gather",
527
+ "GreaterOrEqual",
528
+ "Mul",
529
+ "NonZero",
530
+ "Not",
531
+ "Range",
532
+ "ReduceMin",
533
+ "Reshape",
534
+ "ScatterND",
535
+ "Shape",
536
+ "Slice",
537
+ "Sub",
538
+ "Transpose",
539
+ "Trilu",
540
+ "Unsqueeze",
541
+ "Where"
542
+ ],
543
+ "weight_type": "QUInt8"
544
  }
545
  },
546
  "per_channel": false,
547
  "reduce_range": false
548
+ },
549
+ "bnb4": {
550
+ "block_size": 64,
551
+ "quant_type": 1
552
  }
553
  }