Словарь Лебедева можно собрать, подставляя htfuzzy
не весь исходный словарь, а кусочками по 100 слов,
сделать кучу wor2root и root2word и слить их.
Скорость - примерно 30 сек на 100 слов на PPro200.
Потом english + книжник+лебедев именно в этом
порядке, чтобы Лебедевский словарь добавился
последним.
wor2root и root2word - обычные хэши, в первом ключ
- слово, значение - его корень, во втором ключ -
корень, значение - соответствующие словоформы,
разделенные пробелами.
В результате получим
-rwxr-xr-x 1 htdig servers 21261216 Aug 13
15:46 root2word.gdbm
-rwxr-xr-x 1 htdig servers 91209728 Aug 13
15:47 word2root.gdbm
В словаре Лебедева перед этим надо исправить
russian.aff - в russian.aff есть строки вида
И Т Ь > -ТЬ,- # давить > дави
я их преобразовал в
И Т Ь > -ТЬ, # давить > дави
(убрал тире).
Alex Tutubalin wrote:
>
> Пpивет,
>
> А у кого-нибудь pаботает поиск по endings в hd/Dig ?
> Я подсунул ему Лебедевский словаpь 99a4 и жестоко обломался - за 9 часов
> htfuzzy пpожевала только 5200 слов из ~60 тысяч, после чего я пpоснулся
> и мне это надоело.
--
Konstantin Tokar, http://www.mpei.ac.ru/tokar/
=============================================================================
= Apache-Talk@lists.lexa.ru mailing list =
Mail "unsubscribe apache-talk" to majordomo@lists.lexa.ru if you want to quit.
= Archive avaliable at http://www.lexa.ru/apache-talk =