TEXT REPRESENTATION
from gensim.corpora import Dictionary
from gensim.utils import tokenize
texts = [u"Пушистый котенок мурлыкал." , u"Пушистый кот
мурлыкал и мяукал.", u"Пушистый котенок мяукал.", u"Громкий
пушистый пудель бегал и лаял."]
tokenized_texts = [list(tokenize(text.lower())) for text in
texts]
dictionary = Dictionary(tokenized_texts)
corpus = [dictionary.doc2bow(text) for text in
tokenized_texts]
corpus(doc-term matrix):
[[(0, 1), (1, 1), (2, 1)],
[(1, 1), (2, 1), (3, 1), (4, 1), (5, 1)],
[(0, 1), (1, 1), (5, 1)],
[(1, 1), (4, 1), (6, 1), (7, 1), (8, 1), (9, 1)]]