Skip to content

Instantly share code, notes, and snippets.

@EvilFreelancer
Last active September 15, 2024 15:32
Show Gist options
  • Save EvilFreelancer/2bb019ecfb5313f47792120e702047f4 to your computer and use it in GitHub Desktop.
Save EvilFreelancer/2bb019ecfb5313f47792120e702047f4 to your computer and use it in GitHub Desktop.
import requests
import json
import timeit
start = timeit.default_timer()
prompt = "С какой периодичностью происходит ледниковый период"
result = requests.post('http://localhost:11434/api/generate', json={'model': "llama3.1:70b", "options":{ "seed": 123,"num_predict":500,"temperature": 0,"num_ctx": 4000}, "keep_alive":"10m", "prompt":prompt, "stream": False}).content
a = json.loads(result)
print( a['response'])
print("Всего токенов: ",a['eval_count'])
nanoseconds = a['eval_duration'] # 5 billion nanoseconds
seconds = nanoseconds / 1_000_000_000
print("Длительность: ",seconds) # Output: 5.0
print("T/s - ",a['eval_count']/seconds)
end = timeit.default_timer()
print(f"Time to retrieve response: {end - start}")

Setup

gpu01

2x Xeon 2960v2
1x RTX 3050 8Гб VRAM
128Гб RAM

gpu02

1x Ryzen 9 5950x
1x RTX 4090 24Гб VRAM
128Гб RAM

pasha-lt

1x Intel i7
1x 1050Ti 4Гб VRAM
32Гб RAM

pasha-lt / llama3.1:8b (q4_0)

На холодную

Всего токенов:  243
Длительность:  37.378617
T/s -  6.501043096377804
Time to retrieve response: 105.62243712800046

На горячую

Всего токенов:  248
Длительность:  38.200508
T/s -  6.492060262654099
Time to retrieve response: 38.48217011599991

pasha-lt / llama3.1:70b (q4_0)

На холодную

На горячую

gpu01 / llama3.1:8b (q4_0)

На холодную

Всего токенов:  234
Длительность:  6.026694
T/s -  38.8272575312435
Time to retrieve response: 9.268475782002497

На горячую

Всего токенов:  303
Длительность:  7.822503
T/s -  38.734405087476475
Time to retrieve response: 7.974212805995194

gpu01 / llama3.1:70b (q4_0)

На холодную

Всего токенов:  500
Длительность:  608.091294
T/s -  0.8222449571856558
Time to retrieve response: 628.272821548002

На горячую

Всего токенов:  500
Длительность:  608.471496
T/s -  0.8217311793353094
Time to retrieve response: 609.8467430899982

gpu02 / llama3.1:8b (q4_0)

На холодную

Всего токенов:  282
Длительность:  1.949385
T/s -  144.66100847190268
Time to retrieve response: 44.73267623397987

На горячую

Всего токенов:  316
Длительность:  2.185112
T/s -  144.61501286890555
Time to retrieve response: 2.316456050029956

gpu02 / llama3.1:70b (q4_0)

На холодную

Всего токенов:  500
Длительность:  308.619119
T/s -  1.6201199770776353
Time to retrieve response: 412.98193889897084
Всего токенов:  500
Длительность:  297.636743
T/s -  1.6799001190521694
Time to retrieve response: 305.1775945289992

На горячую

Всего токенов:  500
Длительность:  297.747933
T/s -  1.6792727827265892
Time to retrieve response: 298.44293835101416
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment