rawtext

package
v1.0.1 Latest Latest
Warning

This package is not in the latest version of its module.

Go to latest
Published: Mar 19, 2025 License: MIT Imports: 11 Imported by: 0

README

Загрузчик из неструктурированных файлов

В файлы en.txt и ru.txt следует поместить большие, выверенные корректорами тексты той тематики, которая будет превалировать в поисковых фразах. Например, это может быть каталог маркетплейса.

Затем включить парсер rawtest в файле rawdata.index_builder.go и запустить его.

33  // parser := rawtext.New(logger)
34  parser := wordfreq.New(logger)

Вот тут надо раскомментировать первую строку и закомментировать вторую.

В результате в директории .datafiles будут либо созданы, либо перезаписаны следующие файлы:

en.txt
ru.txt
bloom.dat

Их следует перенести в директорию, которая будет указана в качестве DataDir в структуре options.Options, передаваемой в конструкторы bloomfilter.New и index.New.

NB! чтобы использовать тестовые данные, прежде, чем запускать парсер, надо распаковать исходные данные: (в директории rawdata/rawtext):

tar xzf en.txt.tgz 
tar xzf ru.txt.tgz 

Documentation

Index

Constants

This section is empty.

Variables

This section is empty.

Functions

This section is empty.

Types

type Parser

type Parser struct {
	// contains filtered or unexported fields
}

func New

func New(l *logrus.Entry) *Parser

func (*Parser) BuildLangIndex

func (p *Parser) BuildLangIndex(lang string) (map[string]uint32, error)

Jump to

Keyboard shortcuts

? : This menu
/ : Search site
f or F : Jump to
y or Y : Canonical URL