Lexa Software: Apache-Talk@lists.lexa.ru archive

		Apache-Talk @lexa.ru
		Inet-Admins @info.east.ru
		Filmscanners @halftone.co.uk
		Security-alerts @yandex-team.ru
		nginx-ru @sysoev.ru

СТАТЬИ

ПЕРСОНАЛЬНОЕ

ПРОГРАММЫ

ПИШИТЕ
ПИСЬМА

АРХИВ :: Apache-Talk

Apache-Talk mailing list archive (apache-talk@lists.lexa.ru)

[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

Re: [apache-talk] ht/Dig, htfuzzy итп

To: apache-talk@lists.lexa.ru
Subject: Re: [apache-talk] ht/Dig, htfuzzy итп
From: Konstantin Tokar <tokar@apmsun.mpei.ac.ru>
Date: Fri, 16 Oct 1998 14:37:00 +0300
Organization: MPEI
References: <3626E7A0@lexa.ru>

Словарь Лебедева можно собрать, подставляя htfuzzy
не весь исходный словарь, а кусочками по 100 слов,
сделать кучу wor2root и root2word и слить их.
Скорость - примерно 30 сек на 100 слов на PPro200.
Потом english + книжник+лебедев именно в этом
порядке, чтобы Лебедевский словарь добавился
последним.  

wor2root и root2word - обычные хэши, в первом ключ
- слово, значение - его корень, во втором ключ -
корень, значение - соответствующие словоформы,
разделенные пробелами.

В результате получим

-rwxr-xr-x   1 htdig    servers  21261216 Aug 13
15:46 root2word.gdbm
-rwxr-xr-x   1 htdig    servers  91209728 Aug 13
15:47 word2root.gdbm

В словаре Лебедева перед этим надо исправить
russian.aff - в russian.aff есть строки вида
И Т Ь  > -ТЬ,-  # давить > дави

я их преобразовал в
И Т Ь  > -ТЬ,  # давить > дави

(убрал тире).


Alex Tutubalin wrote:
> 
> Пpивет,
> 
> А у кого-нибудь pаботает поиск по endings в hd/Dig ?
> Я подсунул ему Лебедевский словаpь 99a4 и жестоко обломался - за 9 часов
> htfuzzy пpожевала только 5200 слов из ~60 тысяч, после чего я пpоснулся
> и мне это надоело.

-- 
Konstantin Tokar, http://www.mpei.ac.ru/tokar/
=============================================================================
=               Apache-Talk@lists.lexa.ru mailing list                      =
Mail "unsubscribe apache-talk" to majordomo@lists.lexa.ru if you want to quit.
=       Archive avaliable at http://www.lexa.ru/apache-talk                 =

References:
- [apache-talk] ht/Dig, htfuzzy итп
  - From: Alex Tutubalin

Prev by Date: Re: [apache-talk] Re: [apache-talk] ht/Dig, htfuzzy итп
Next by Date: [apache-talk] ht/Dig message
Previous by thread: Re: [apache-talk] Russian Apache, MySQL, PHP3
Next by thread: [apache-talk] ht/Dig again
Index(es):
- Date
- Thread