ПРОЕКТЫ 


  АРХИВ 


Apache-Talk @lexa.ru 

Inet-Admins @info.east.ru 

Filmscanners @halftone.co.uk 

Security-alerts @yandex-team.ru 

nginx-ru @sysoev.ru 

  СТАТЬИ 


  ПЕРСОНАЛЬНОЕ 


  ПРОГРАММЫ 



ПИШИТЕ
ПИСЬМА














     АРХИВ :: Apache-Talk
Apache-Talk mailing list archive (apache-talk@lists.lexa.ru)

[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

Re: [apache-talk] ht/Dig, htfuzzy итп



Словарь Лебедева можно собрать, подставляя htfuzzy
не весь исходный словарь, а кусочками по 100 слов,
сделать кучу wor2root и root2word и слить их.
Скорость - примерно 30 сек на 100 слов на PPro200.
Потом english + книжник+лебедев именно в этом
порядке, чтобы Лебедевский словарь добавился
последним.  

wor2root и root2word - обычные хэши, в первом ключ
- слово, значение - его корень, во втором ключ -
корень, значение - соответствующие словоформы,
разделенные пробелами.

В результате получим

-rwxr-xr-x   1 htdig    servers  21261216 Aug 13
15:46 root2word.gdbm
-rwxr-xr-x   1 htdig    servers  91209728 Aug 13
15:47 word2root.gdbm

В словаре Лебедева перед этим надо исправить
russian.aff - в russian.aff есть строки вида
И Т Ь  > -ТЬ,-  # давить > дави

я их преобразовал в
И Т Ь  > -ТЬ,  # давить > дави

(убрал тире).


Alex Tutubalin wrote:
> 
> Пpивет,
> 
> А у кого-нибудь pаботает поиск по endings в hd/Dig ?
> Я подсунул ему Лебедевский словаpь 99a4 и жестоко обломался - за 9 часов
> htfuzzy пpожевала только 5200 слов из ~60 тысяч, после чего я пpоснулся
> и мне это надоело.

-- 
Konstantin Tokar, http://www.mpei.ac.ru/tokar/
=============================================================================
=               Apache-Talk@lists.lexa.ru mailing list                      =
Mail "unsubscribe apache-talk" to majordomo@lists.lexa.ru if you want to quit.
=       Archive avaliable at http://www.lexa.ru/apache-talk                 =



 




Copyright © Lexa Software, 1996-2009.