Sandy4321

	Variable	Definition
	User_ID	User ID
	Product_ID	Product ID
	Gender	Sex of User
	Age	Age in bins
	Occupation	Occupation (Masked)
	City_Category	Category of the City (A,B,C)
	Stay_In_Current_City_Years	Number of years stay in current city
	Marital_Status	Marital Status
	Product_Category_1	Product Category (Masked)

Как сжать модель fastText в 100 раз

Модель fastText - одно из самых эффективных векторных представлений слов для русского языка. Однако её прикладная польза страдает из-за внушительных (несколько гигабайт) размеров модели. В этой статье мы показываем, как можно уменьшить модель fastText до пары десятков мегабайт, не слишком потеряв в её качестве. Спойлер: квантизация и отбор признаков работают хорошо, а матричные разложения - не очень. Также мы публикуем пакет на Python для этого сжатия и пример компактной модели для русских слов.

Зачем и о чём это

Я не первый, кто пытается это сжать fastText: сами разработчики fastText давно предусмотрели этот режим для своих классификаторов, сжимая их на порядк

	#!/bin/python
	from flashtext.keyword import KeywordProcessor
	import random
	import string
	import re
	import time

	def get_word_of_length(str_length):
	# generate a random word of given length
	return ''.join(random.choice(string.ascii_lowercase) for _ in range(str_length))

	#!/bin/python
	from flashtext.keyword import KeywordProcessor
	import random
	import string
	import re
	import time


	def get_word_of_length(str_length):
	# generate a random word of given length