Настольный поиск
Автор: Евгений Яворских
Опубликовано в журнале "Домашний компьютер" №8 от 21 июля 2005 года.
Вроде бы и немного по нынешним временам — «каких-то» 160
гигабайт дискового пространства. Да вот незадача — «лишняя» сотня этих самых
«гектаров» нередко вынуждает тратить массу времени на поиск нужного документа:
поди, запомни, куда ты сохранил очередной программный мануал в PDF-формате или
несколько веб-страниц с интересной информацией. Хорошо хоть исходные тексты
статей всегда хранятся в надежном месте…
Действительно, за пару-тройку лет в дисковых разделах скапливаются, помимо
всевозможного хлама, тысячи файлов, весьма востребованных в самый неподходящий
момент времени. Для начала потребуется вспомнить, в каком файловом формате
содержался текст, что вы немедленно захотели получить: возможно, это
HTML-страница, заботливо сохраненная несколько месяцев назад, или «кладезь
человеческой мудрости» расположен в DOC- или RTF-файле. Все было бы просто
замечательно, если бы искомый файл носил русскоязычное имя, соответствующее
нашему запросу. Но, как известно, жизнь редко балует счастливыми совпадениями. В
особенности, если запрашиваемая информация не имеет ничего общего с названием
документа, а «прописана» где-то в текстовых дебрях неизвестного файла.
Разумеется, можно заняться созданием некой картотеки, где с бюрократической
скрупулезностью отмечать все файлы и документы с текстовой информацией, но…
впрочем, и я не готов к такому подвигу.
О системном поисковом инструменте (Пуск > Поиск) можно говорить лишь в контексте
традиционной «функциональности», присущей большинству инструментов от Microsoft.
Никто не спорит — можно отыскать файл по имени и расширению или группу файлов по
маске, но, увы, не всегда. Типичный случай: для увеличения производительности
Windows мы отключаем индексацию диска и ждем до второго пришествия, пока система
будет тупо перебирать все файловое добро. К слову сказать, в «умолчальном»
варианте системного поисковика нас будет сопровождать этакий веселый щенок.
По-моему, очень символичный персонаж — какова «ищейка», таковы и возможности
поиска…
Поиск информации по ключевому слову в Windows тоже не блещет эффективностью:
попробуйте ввести в крохотное поле поиска запрос из двух-трех предложений — дело
даже не во времени, затраченном на поиск, а в том, что решительно невозможно
задать определенный каталог, где обретается искомое. Ко всему прочему, моя
англоязычная Windows XP напрочь игнорирует мало-мальски сложные русскоязычные
словосочетания1. Выход есть: использование программных решений на базе поисковых
технологий. Схема работы таких поисковых систем, в первом приближении, довольно
проста: поиск по фразе с учетом всех синонимов и словоформ.
Однако есть одно «но»: поиск по нескольким словам или крохотной фразе никогда не
даст точного результата среди найденных документов. А поиск по длиннющей фразе
(например, в половину документа) в существующих приложениях займет слишком много
времени и весьма привередлив к ресурсам компьютера. Например, при вводе запроса
в виде обычного документа, содержащего около 2000 уникальных слов, поиск с
учетом морфологии (всех словоформ) и тезаурусов (синонимов), а также вывод
списка найденных документов займет несколько десятков минут. Вы согласитесь
столько ждать? В итоге получается своеобразная дилемма: при хорошей скорости
«хромает» качество поиска; при точных и адекватных результатах понадобится уйма
времени и системно-аппаратных ресурсов.
Сегодняшний «чемпионат по настольному поиску» позволит выбрать оптимальный
продукт в соответствии с личными предпочтениями и нуждами. Исходные условия:
индексация и последующий поиск в логическом разделе, содержащем каталоги с
текстами статей, всевозможных «Руководств пользователя» в PDF-формате и массой
HTML-страниц. Там же разместились папки с архивами сообщений почтовых клиентов
Outlook Express и The Bat2. Попутно программам будут предложены архивы с
офисными документами и — не удивляйтесь! — звуковые файлы формата MP3 с
ID3-тегами3.
Собачья радость
Мне до сих пор неловко за тот щенячий восторг, с каким я загружал бесплатную
версию знаменитой «Ищейки 4.5». Позарившись на
дармовую «косточку», я получил крайне ограниченную версию программы: мне
предложили индексацию и поиск лишь в трех файловых форматах: TXT, DOC и HTM/HTML,
и создание единственной базы данных. Сам виноват — нужно было заранее взглянуть
на программные возможности. Пришлось вызвать «пса» по кличке «Ищейка Проф»
($15). Четыре сотни рублей по нашим временам — не столь большие деньги. «Ищейка
Проф» умеет «вынюхивать», помимо упомянутых, расширения DOT (шаблоны MS Word)
вкупе со старым добрым RTF.
На этом выучка «Ищейки Проф» заканчивается. Однако, радостно тявкнув, «собачка»
поведала о своих дополнительных талантах, если «скормить» животине
дополнительные модули. Тогда все станет действительно по-взрослому — это вам не
глупый щенок из системного поисковика: без проблем станет индексироваться и
обнаруживаться текстовая информация в файлах ASP и Adobe Acrobat (PDF), в
презентациях MS PowerPoint и скучнейших документах MS Excel4. Ко всему прочему,
«Ищейка» расправится с архивным расширением ZIP, справочным форматом CHM,
ID3-тэгами MP3-файлов и PHP-документами. Правда, за модуль с поддержкой одного
формата придется отдать еще 6 долларов (20 баксов чохом за весь комплект
плагинов) или заказать «Ищейку Проф Deluxe» за $29. Что же, придется
пожертвовать ради объективного теста. Правда, вызывает недоумение дата выпуска
этих модулей — 2002 год…
Первое, что я бы посоветовал сделать по окончании установки, это отказаться от
предложения создать новую зону поиска и выбрать заранее созданную папку для
хранения базы проиндексированных документов (Опции > Индекс > Папка индексных
файлов) — рис. 1. Дело в том, что по умолчанию «Ищейка» горит желанием
немедленно проиндексировать указанные разделы, создав индексную базу в
программном каталоге. При переустановке системы гораздо проще подсунуть «Ищейке»
готовую базу индексации. В моем случае использовался логический диск F:, где я
отключил поиск в каталогах с рисунками и файлами, поиск в которых не имеет
смысла (рис. 2): время индексации в этом случае уменьшится. Затем «Ищейке»
следует дать команду относительно файловых расширений для индексации. Помните,
изначально отключена индексация почтовых форматов EML и MSG, ZIP-архивов и
некоторых других (рис. 3). В этом случае выбор форматов остается за «хозяином».
«Ищейка» шустро просчитала индексируемые документы (15968 штук суммарным объемом
1,75 Гбайта), после чего немедля приступила к индексации (рис. 4), которая
продолжалась 24 минуты. Размер индексной базы составил 144 Мбайта. Обратите
внимание на эти цифры: эти данные будут, в числе прочих параметров, определять
нашего поискового лидера.
Что же, проверим хваленый «нюх»: в качестве жертвы выберем название цикла статей
вашего покорного слуги — «Антивирусные записки». Вводим в поле запроса,
командуем программе «Ищи!» и почти мгновенно получаем результаты поиска:
название и расположение документов с этим словосочетанием, дату и время создания
опусов, а также исходный текст (рис. 5).
Усложним задачу, и «натравим» программу на поиск ID3-тэгов в MP3-файлах. В одном
из каталогов хранился альбом «Аквариума» с русскими тэгами. Поиск по русским
названиям композиций, равно как по имени «Борис Гребенщиков» не дал результата.
В чем дело? Пробую ввести знакомые всем буквы BG, после чего получаю массу
ссылок на документы с чужой критикой в адрес Билла Гейтса и… единственной
MP3-шкой, в тэге которой содержались искомые буквы. Действительно, Гребенщиков
там и вправду повествовал об экзистенции, но тэги были выполнены латиницей!
Стало быть, о поиске в русских тэгах можно забыть.
Еще один «садистский» метод удался на славу: решаю запросить поиск по вступлению
к своей статье «Второе пришествие SPасителя» (см. ДК, #10, 2004 г.): три сотни
печатных знаков. Увы, «Ищейка», поджав хвост, скорбно заскулила, рапортуя о
нулевом результате. Расширенный поиск также не привел к успеху (рис. 6). Вот вам
и хваленое собачье чутье. Безусловно, «Ищейка Проф Deluxe» обладает и
положительными качествами: создание неограниченного количества зон поиска
(«Менеджер зон поиска») и отсутствие лимита на число документов в одной зоне
поиска; возможность обновления поисковых баз по расписанию и вручную, а также
создания «Избранных запросов» и «Популярных запросов», что обеспечивает высокую
эффективность при работе с офисными документами. Но главный плюс, на мой взгляд,
— крайний аскетизм в отношении системных ресурсов: «Ищейка» поедает
всего-навсего 3 мегабайта оперативной памяти. Однако на сайте разработчиков вы
не найдете демо-версии «Ищейки Проф», не говоря уже о «Deluxe»-модификации.
Может быть, способности человека лучше собачьего нюха? Посмотрим, что скажет
бывалый искатель.
1 А что прикажете делать корпоративному сектору, работающему с гигантскими
базами данных и впадающему в ступор при попытке найти очередной «шедевр»
бухгалтерской мысли?
2 Есть у меня такая «странность»: хранить архивы электронных писем в другом
дисковом разделе.
3 Специальная информация о музыкальном произведении, авторе, названии
альбома, дате выпуска, жанре и т. п., «зашитая» в MP3-файл.
4 Модуль для документов Microsoft Excel не работает с документами,
защищенными паролем и содержащими связанные таблицы.