Загрузчик из неструктурированных файлов
В файлы en.txt и ru.txt следует поместить большие, выверенные корректорами тексты той тематики,
которая будет превалировать в поисковых фразах. Например, это может быть каталог маркетплейса.
Затем включить парсер rawtest в файле rawdata.index_builder.go и запустить его.
33 // parser := rawtext.New(logger)
34 parser := wordfreq.New(logger)
Вот тут надо раскомментировать первую строку и закомментировать вторую.
В результате в директории .datafiles будут либо созданы, либо перезаписаны следующие файлы:
en.txt
ru.txt
bloom.dat
Их следует перенести в директорию, которая будет указана в качестве DataDir в структуре options.Options,
передаваемой в конструкторы bloomfilter.New и index.New.
NB! чтобы использовать тестовые данные, прежде, чем запускать парсер, надо распаковать исходные данные:
(в директории rawdata/rawtext):
tar xzf en.txt.tgz
tar xzf ru.txt.tgz