О журнале

Тематический поиск в интернете: назад в будущее
Попов С.В.

Тематический поиск в интернете: назад в будущее
____________________

Попов С.В.

Аннотация. В статье анализируется противоречие между коммерческими интересами владельцев интернет-поисковиков и уровнем развития средств тематического информационного поиска в глобальной компьютерной сети. Подчеркивается, что одной из важных проблем тематического текстового поиска для поисковых систем интернета является недостаточная эффективность алгоритмов ранжирования найденных документов. Пользователям приходится многократно реформулировать запросы для того, чтобы ссылки на релевантную информацию по заданной тематике оказались на первых станицах выдачи. При этом пользователи нуждаются в поддержке процесса реформулирования запроса со стороны информационно-поисковой системы. Предлагается вернуться к использованию интерактивных методов тематического поиска, разработанных в 1970-х годах Г. Сэлтоном и его школой.

Ключевые слова: информационно-поисковые системы; тематический поиск; ранжирование по релевантности; обратная связь по релевантности; глобальная компьютерная сеть, реформулирование запросов.

Одной из основных проблем поисковых систем в интернете является неэффективность алгоритмов ранжирования найденных документов. Это во многом обусловлено тем, что в основе современных поисковых машин, работающих в Сети, лежат алгоритмы документального поиска, разработанные ещё в 60-х, 70-х годах прошлого века. В то время документальные информационно-поисковые системы (ИПС) в первую очередь предназначались для поиска научно-технической информации и основными их пользователями были инженеры и учёные. Вот что пишет в связи с этим разработчик системы Яндекс Илья Сегалович: «Но что же поменялось в действительности за последние годы? Не алгоритмы и не структуры данных, не математические модели. Хотя и они тоже. Поменялась парадигма использования систем. Проще говоря, к экрану со строчкой поиска подсели домохозяйка, ищущая утюг подешевле, и выпускник вспомогательного интерната в надежде найти работу автомеханика» [1].

Другими словами, подключение к поиску информации широких масс населения коренным образом повлияло на развитие информационно-поисковых систем (ИПС). Да, основные поисковые алгоритмы остаются прежними. Но, согласитесь, что поиск расписания электропоездов и поиск информации о рентгенолитографии – две разные задачи. К сожалению, задачи тематического научного поиска уходят на периферию интересов разработчиков популярных поисковиков интернета. Илья Сегалович пишет: «Мечты 60-х - 80-х об итеративном уточнении запросов, о понимании естественного языка, о поиске по смыслу, о генерации связного ответа на вопрос с трудом выдерживают сейчас жестокое испытание реальностью»[1].

В то же время небескорыстное желание владельцев известных поисковых машин привлечь как можно больше разнообразных пользователей приводит к новым проблемам. Как сказано в работе [2], все основные технологические проблемы интернета, которые мы сейчас видим и зачастую ощущаем на себе, имеют своей причиной то, что когда эти технологии разрабатывались, никто из разработчиков (по их собственным высказываниям) не представлял себе, что интернет станет глобальной информационной средой.

Особое внимание следует уделить алгоритмам ранжирования выдачи (ранжирование по релевантности).

Словарные ИПС способны выдавать списки документов, содержащие миллионы ссылок. Даже просто просмотреть такие списки невозможно, да и не нужно. Было бы удобно иметь возможность задать формальные критерии (хотя бы относительной) важности документов с тем, чтобы наиболее нужные документы попадали в начало списка. Все разработчики ИПС в настоящее время уделяют основное внимание именно алгоритму ранжирования полученных ссылок.

Наиболее часто используемыми критериями при ранжировании в поисковых машинах интернета являются:

наличие слов из запроса в документе, их количество, близость к началу документа, близость друг к другу;
наличие слов из запроса в заголовках и подзаголовках документов (заголовки должны быть специально отформатированы);
количество ссылок на данный документ с других документов;
«респектабельность» ссылающихся документов.

С одной стороны, как видно, из критериев ранжирования, реальный критерий релевантности документа – наличие слов из запроса не так сильно влияет на его ранг в результатах поиска. С другой стороны, использование синтетических критериев дает возможность манипулирования результатами вычислений ранга страницы, с чем и борются все ИПС. Такая ситуация ведет к снижению качества поиска, поскольку потенциально более полезные документы неминуемо оттесняются своими «оптимизированными» конкурентами в конец списка. Наверно, многие сталкивались с тем, что реально полезные ресурсы в поисковиках находятся на второй-третьей странице выдачи поискового запроса [2]. В случае тематического поиска релевантные ссылки могут находиться и на 10-ой и даже на 100-ой страницах выдачи.

Интересный факт сообщает новостная служба портала «Открытые системы». Как показало исследование, проведенное специалистами Квинслендского технологического университета и университета Пенсильвании с помощью портала метапоиска Dogpile.com, крупнейшие поисковые системы крайне редко выдают идентичный набор верхних строчек результатов при поиске по одним и тем же запросам. Исследователи в общей сложности ввели около 19,3 тыс. запросов к Google, Yahoo, Windows Live Search и Ask.com. Совпадение первого результата во всех системах было выявлено только в 3,6% случаев. Совпадение первых трех не выпало ни разу, даже если не учитывать порядок следования результатов. В среднем менее 1% результатов первой страницы совпадало на всех четырех сайтах. Для сравнения, четыре года тому назад в аналогичном исследовании совпадения первого результата отмечались в 7% случаев[3].

В то же время, по данным компании Forrester Research [4]:

90% пользователей находят новые сайты через поисковые системы;
работа с поисковыми системами – второй по популярности вид деятельности в интернете после использования электронной почты;
80% пользователей поисковых систем не смотрят результаты дальше первой страницы;
по сравнению с баннерной рекламой, посетители сайта в пять раз охотнее станут dашими клиентами, найдя dаш сайт через поисковую систему;
55% онлайн-покупок и заказов совершаются на сайтах, найденных через поисковые системы;
четверо из пяти пользователей используют поисковые системы ежедневно.

Другими словами, поисковые машины – один из самых важных инструментов работы с информацией в интернете. Мы уже частично дали ответ на вопрос, почему поисковые машины интернета не используют весь арсенал средств поиска документальной информации, разработанных во второй половине прошлого века. Одна из основных причин – смена категорий пользователей, следовательно, и смена типов запросов. С другой стороны, в настоящее время, судя по спискам использованных источников в статьях и книгах, учёные всё чаще обращаются в глобальную Сеть для поиска необходимой им информации. Таким образом, тематические запросы снова становятся предметом головной боли разработчиков поисковых машин и, следовательно, они вынуждены обращаться к опыту прошлых лет. Как пишет И. Сегалович [1], «все многообразие моделей традиционного информационного поиска принято делить на три вида: теоретико-множественные (булевская, нечетких множеств, расширенная булевская), алгебраические (векторная, обобщенная векторная, латентно-семантическая, нейросетевая) и вероятностные. Булевское семейство моделей, по сути, – первое, приходящее на ум программисту, реализующему полнотекстовый поиск. Есть слово – документ считается найденным, нет – не найденным».

Далее приведены некоторые этапы развития моделей документального поиска:

1. 1957 год. Т. Джойс и Р.М. Нидхэм предложили векторную модель поиска.

2. 1960 год. М.Е. Марон и Дж. Л. Кунс предложили вероятностную модель поиска.

3. 1968 год. Векторная модель реализована Герардом Сэлтоном в поисковой системе SMART (Salton's Magical Automatic Retriever of Text).

4. 1977 год. К.Е. Робертсон и К. Спарк-Джоунз обосновали и реализовали вероятностную модель поиска.

5. 1988 год. Дж. В. Фурнас и С. Дирвестер разработали метод латентно-семантического индексирования.

Опыт моделирования документального поиска, накопленный в прошлом веке, постепенно начинает использоваться при разработке поисковых машин интернета. Среди отечественных интернет-поисковиков, использующих такой опыт, можно отметить системы Галактика-Зум (корпорация Галактика), Артефакт (компания Интегрум-Техно), Nigma (МГУ).

Как уже отмечалось выше, одной из основных проблем поисковых систем является неэффективность алгоритмов ранжирования найденных документов. Это во многом обусловлено тем, что поисковые запросы в среднем состоят всего из двух-трёх слов, т.е. просто не хватает исходной информации для эффективного ранжирования выдачи. В уже упомянутой ИПС SMART проблема, связанная с короткими запросами, была успешно преодолена с помощью так называемой «обратной связи по релевантности». При этом поиск проходит в несколько итераций. На каждом шаге итерации поисковый запрос расширяется за счёт терминов, выделенных пользователем из понравившихся ему среди найденных на этом шаге документов. Заметим, что сам термин «ранжирование по релевантности» появился на фоне реализации обратной связи по релевантности в системе SMART [5].

Попытки реализации обратной связи по релевантности в интернете осуществляются, например, в отечественной поисковой системе WEB ИРБИС, работающей с массивами научной информации (ИНИОН, ГПНТБ).

В заключение хочется отметить, что противоречие между коммерциализацией и качеством поиска ИПС в глобальной компьютерной сети продолжает существовать. Приведу еще одно сообщение с портала «Открытые системы».

«В компании Yahoo надеются, что с переходом на новую поисковую технологию ей удастся восстановить позиции на рынке, где сейчас преобладает Google. В числе улучшений – упрощенный пользовательский интерфейс с меньшим количеством баннеров, функция поиска изображений и модификация настроек: выбор одного из 30 поддерживаемых языков, поиск с учетом домена, страны и времени создания документов. Служба расположена по новому адресу: http://new.search.yahoo.com. Поисковая система основана на усовершенствованном варианте технологии компании Inktomi, приобретенной Yahoo. Кроме того, система частично полагается на технологии Google. Привлечь внимание к порталу в Yahoo рассчитывают за счет совершенствования его служб, в числе которых – спортивные результаты, желтые страницы, поиск по Internet-магазинам, знакомства, биржа труда и т.д» [6].

Литература

1. Сегалович И.В. Как работают поисковые системы // Мир Internet. 2002. № 10. С. 24-32.

2. Тактаев С. Поиск информации в компьютерных сетях: новые подходы. http://www.searchengines.ru/articles/004603.html

3. http://www.osp.ru/news/2007/0618/4233621/

4. http://promo.by/

5. Сэлтон Г. Автоматизированная обработка, хранение и поиск информации. М.: Советское радио, 1973.

6. http://www.osp.ru/news/2003/0410/611142

*Исследование выполнено при поддержке РГНФ (проект 08-02-00064а).

___________________________________

Попов Сергей Витальевич - кандидат технических наук, заведующий отделом научной политики и развития науки Российского научно-исследовательского института экономики, политики и права в научно-технической сфере

&copy Информационное общество, 2009, вып. 6, с. 54-56.

О журнале

Рекомендации

Тематический поиск в интернете: назад в будущее Попов С.В.

Тематический поиск в интернете: назад в будущее
Попов С.В.