ФЕДЕРАЛЬНОЕ АГЕНТСТВО ПО ОБРАЗОВАНИЮ ТВЕРСКОЙ ГОСУДАРСТВЕННЫЙ ТЕХНИЧЕСКИЙ УНИВЕРСИТЕТ __________________________________...
5 downloads
356 Views
376KB Size
Report
This content was uploaded by our users and we assume good faith they have the permission to share this book. If you own the copyright to this book and it is wrongfully on our website, we offer a simple DMCA procedure to remove your content from our site. Start by pressing the button below!
Report copyright / DMCA form
ФЕДЕРАЛЬНОЕ АГЕНТСТВО ПО ОБРАЗОВАНИЮ ТВЕРСКОЙ ГОСУДАРСТВЕННЫЙ ТЕХНИЧЕСКИЙ УНИВЕРСИТЕТ __________________________________________________________________ КАФЕДРА «ИНФОРМАЦИОННЫЕ СИСТЕМЫ»
Введение в информационно-поисковые системы Часть 1
Методические указания по изучению дисциплины "Мировые информационные ресурсы" для студентов специальностей «Прикладная информатика (в экономике)» и «Информационные системы и технологии»
Тверь 2005
УДК 025.4.036:004.6(075.8)+025.4.036:004.738.5(075.8); 681.3.01(075.8)+681.324(075.8) ББК 73.я7+32.81.я7 В методических указаниях рассматриваются основные принципы построения информационно-поисковых систем (ИПС) и их практического применения. Приводятся понятия и определения, обсуждаются информационные потребности пользователей. Рассматривается представление информации в ИПС, принципы анализа текстов и индексирования документов, типичные модели (булева и векторная) и алгоритмы поиска информации. Приводятся основные сведения о классификации документов. Обсуждаются современные словарные, классификационные и метапоисковые ИПС, их практическое применение и критерии эффективности. Методические указания предназначены для студентов специальностей «Прикладная информатика (в экономике)» и «Информационные системы и технологии». Методические указания обсуждены и рекомендованы к печати на заседании кафедры «Информационные системы» (протокол № 5 от 20.12.2004 г.). Составители: В.К. Иванов, К.В. Иванов.
Введение в информационно-поисковые системы Часть 1 Методические указания по изучению дисциплины "Мировые информационные ресурсы" для студентов специальностей «Прикладная информатика (в экономике)» и «Информационные системы и технологии»
Редактор Т.С. Синицына Технический редактор _____________________________________________________________________
Подписано в печать Формат 60x84/16
Бумага писчая
Физ. печ. л. 2.25 Усл. печ. л. 2.09 Уч.-изд. л. 1.96 Тираж 100 экз.
Заказ № 14
С-14
_____________________________________________________________________
Типография ТГТУ Тверской государственный технический университет, 2005
3
Содержание ВВЕДЕНИЕ.......................................................................................................................................................................4 1. ОСНОВНЫЕ ПРИНЦИПЫ ПОСТРОЕНИЯ ИПС...............................................................................................6 1.1. ПОНЯТИЯ И ОПРЕДЕЛЕНИЯ..............................................................................................................................................6 1.2. ИНФОРМАЦИОННАЯ ПОТРЕБНОСТЬ ПОЛЬЗОВАТЕЛЯ..............................................................................................................7 1.3. РЕЛЕВАНТНОСТЬ............................................................................................................................................................9 1.4. ОБЩАЯ СХЕМА ПРОЦЕССА ПОИСКА.................................................................................................................................11 2. ПРЕДСТАВЛЕНИЕ ИНФОРМАЦИИ В ИПС......................................................................................................13 2.1. ИНДЕКСИРОВАНИЕ ДОКУМЕНТОВ....................................................................................................................................13 2.2. ВЕКТОРНАЯ МОДЕЛЬ ТЕКСТА.........................................................................................................................................14 2.3. СТАТИСТИЧЕСКИЙ АНАЛИЗ ТЕКСТОВ. ЗАКОН ЦИПФА........................................................................................................15 2.4. АНАЛИЗ ИНФОРМАЦИОННЫХ МАССИВОВ.........................................................................................................................19 2.4.1. Понятие относительной частоты.............................................................................................................19 2.4.2. Распределение частоты встречаемости терминов..................................................................................21 2.5. ОПРЕДЕЛЕНИЕ ВЕСОВ ТЕРМИНОВ....................................................................................................................................23 2.5.1. Частотная модель.........................................................................................................................................24 2.5.2. Вероятностная модель.................................................................................................................................24 2.5.3. Латентно-семантический анализ................................................................................................................28 3. ХРАНЕНИЕ ИНДЕКСИРОВАННЫХ ДОКУМЕНТОВ.....................................................................................30 СПИСОК РЕКОМЕНДУЕМОЙ ЛИТЕРАТУРЫ...................................................................................................34
4
Введение Очень давно человек впервые задумался о том, как хранить знания для дальнейшего удобного и эффективного использования. Классический пример этого – оглавление книги, которое делает возможным быстрый доступ к любому интересующему нас разделу. С ростом числа книг возникла необходимость в более удобных способах хранения. В библиотеках появились каталоги, или индексы – наборы ключевых слов или понятий, связанные с коллекциями книг и других документов. С помощью каталогов доступ к информации становится достаточно простым, а скорость его относительно велика. Тем не менее, решение задач по поиску информации было в основном уделом работников библиотек и специалистов по теории поиска. В ХХ веке развитие информационных технологий повлияло на все сферы человеческой жизни. Не стал исключением и информационный поиск. В 60 и 70-е годы для ускорения процессов каталогизации и поиска появились первые автоматизированные информационно-поисковые системы1 (ИПС). Они применялись в каталогах и информационных отделах крупных библиотек. Тогда и начались серьезные исследования теории и практики информационного поиска и построения ИПС [, , ]. Говоря об ИПС, следует разделять понятия «поиск информации» и «поиск данных». Поиск информации – это более широкое понятие, допускающее более мягкие критерии соответствия искомой информации потребности пользователя. В отличие от систем поиска данных, которые имеют дело со строго формализованными данными и запросами2, ИПС работают с информационными объектами разной (чаще всего небольшой) степени формализованности, в основном с текстами на естественном языке. Точность работы ИПС определяется релевантностью найденных документов, четкого однозначного критерия которой не существует (это будет показано в разделе 1.3) [, ]. За последние десять лет область информационного поиска значительно расширилась. Создание электронных библиотек на базе крупнейших мировых хранилищ информации, развитие систем мультимедийного поиска, широкое внедрение систем управления документами и т. п. являются стимулом для непрерывного совершенствования технологий поиска информации. Английское обозначение информационно-поисковых систем – information storage and retrieval systems, information retrieval systems. 2 Такие системы обычно реализуются в системах управления базами данных (СУБД). Языки запросов, например, SQL или XPath, оперируют математически точными критериями поиска, а хранимые данные имеют четко определенную структуру. В настоящих методических указаниях эти системы не рассматриваются. 1
5
Однако наиболее революционным событием стало зарождение и развитие сети Интернет. В 90-е гг. ХХ в. человечество получило доступ к огромному массиву информации в самых разных предметных областях – миллионам связанных документов, которые расположены на компьютерах по всему миру. Интернет сегодня – это неструктурированное распределенное хранилище динамичной информации громадного объёма, в котором постоянно добавляются новые документы, а устаревшие редактируются или удаляются. Колоссальное и непрерывно растущее количество информации приводит к тому, что обеспечение поиска в Интернете становится критически важной задачей. Однако без соответствующих поисковых средств проблема поиска в сети необходимой информации становится в настоящее время практически неразрешимой. Появление поисковых систем сети Интернет стало новым этапом в развитии информационного поиска. Сегодня ИПС сети Интернет эффективно применяют разработанные за много лет методы поиска информации. Более 75% пользователей пользуются ИПС для поиска информации в Интернете []. В то же время специфика природы сети Интернет и ее непрерывное развитие ставят перед исследователями новые задачи, многие из которых не решены до сих пор. Современные теоретические и практические исследования информационного поиска сконцентрированы вокруг нескольких крупных международных конференций []. К ним относятся серия конференций TREC (Text Retrieval Conference), проводимая институтом NIST (National Institute for Standards and Technology) США, конференции SIGIR (Special Interest Group on Information Retrieval), организованные международной группой исследователей и разработчиков технологий информационного поиска ACM (Association of Computing Machinery), а также конференция, которая занимается различными проблемами, связанными с Интернет – WWW Conference [, ]. В России по вопросам информационного поиска ежегодно проводится конференция «Электронные библиотеки (RCDL)» [, ]. В настоящих методических указаниях рассматриваются информационный поиск и поисковые системы в основном с точки зрения используемых в них информационных технологий. Изложенный материал носит обзорный характер. Описаны модели и реализующие их алгоритмы, архитектура систем и технические особенности их реализации. Определенное внимание уделено и взаимодействию человека, осуществляющего поиск, с поисковой системой. Рассмотрены проблемы восприятия и интерпретации информации пользователем ИПС. Рекомендации состоят из двух частей. В части 1 перечислена основная терминология информационного поиска, дано определение информационной потребности
6
пользователя и описана общая схема процесса поиска. Далее анализируются информационные массивы и их представление в ИПС, процессы индексирования и взвешивания терминов. Рассматривается порядок хранения индексированных документов. В части 2 описываются основные модели и алгоритмы поиска информации в ИПС, а также один из традиционных методов анализа документов – классификация. Перечисляются главные критерии эффективности ИПС и способы их оценки. В заключении описывается архитектура и состав современных ИПС, работающих в сети Интернет. Изложение материала предполагает, что студенты знакомы с матричной алгеброй и теорией вероятностей, с основами математической логики, теорией информационных систем и основами теории баз данных, основами методологии тестирования и оценки систем, а также с основами Интернет-технологий.
1. Основные принципы построения ИПС 1.1. Понятия и определения Информационный поиск – это отрасль знания, которая занимается представлением, хранением и доступом к информационным ресурсам. Теория информационного поиска оперирует несколькими ключевыми понятиями, определения которых даны ниже. Информационный ресурс – это любой материальный объект, который фиксирует или подтверждает какие-либо знания и может быть включен в определенное собрание. По форме различают текстовые (книги, журналы, рукописи), графические или изобразительные (чертежи, схемы, графики, планы, карты, диаграммы), аудиовизуальные (звукозаписи, видеозаписи, фильмы) информационные ресурсы []. Наряду с информационным ресурсом, в информационном поиске также используется понятие «документ». Под документом чаще всего понимается содержательно законченный текстовый информационный ресурс, который можно каким-либо образом уникально идентифицировать. ИПС оперируют электронными документами, т. е. представлениями документов на машиночитаемых носителях в ЭВМ []. С понятием документа тесно связаны метаданные и суррогаты. Метаданные (метаинформация) – это структурированная информация о документе, например, библиографические сведения, информация о качестве документа, отзывы других пользователей. Под суррогатом понимают представление документа в виде заголовка, имени автора, аннотации, ключевых слов и т. д. [].
7
ИПС представляет собой комплекс программных и аппаратных средств, который обеспечивает отбор и представление электронных документов по заданным критериям. На рис. 1 представлена общая схема работы информационно-поисковой системы. Документ 1 Документ 3
Сведения о документах
Документ 2
Информационнопоисковая система
Запрос
Ответ
Пользователь
Документ N
Множество информационных ресурсов
Рис. 1. Информационно-поисковая система
ИПС работают с множествами документов, которые называются также коллекциями документов. Примерами таких множеств могут служить электронная библиотека, русскоязычная часть Интернета, энциклопедия на лазерном диске.
1.2. Информационная потребность пользователя Итак, в определенный момент времени у некоторого пользователя возникает информационная потребность в документах по той или иной нужной ему тематике, которая обычно достаточно узка []. В начальный момент эта потребность часто не может быть точно выражена словами. При этом любая поисковая система требует достаточно четких запросов. Следовательно, пользователь должен представить свою информационную потребность в виде некоторого выражения, которое может быть воспринято поисковой системой. Выделяют четыре этапа представления информационной потребности [, , ]: −реальная информационная потребность – это неосознанная истинная информационная потребность пользователя (потребность в некоторой новой информации при решении стоящей перед пользователем задачи); −осознанная информационная потребность – появляется после осознания пользователем стоящей перед ним проблемы (осознанная потребность отличается
8
от реальной, более того, пользователь может понимать имеющуюся проблему неправильно); −выраженная информационная потребность – результат описания осознанной информационной потребности с помощью естественного языка; −формализованная информационная потребность – это результат представления выраженной потребности средствами формального поискового языка ИПС. На рис. Рис. 2 показана эволюция представлений информационной потребности. По мере переходов от одного представления к другому отличие от первоначальной реальной потребности увеличивается. Проблема, стоящая перед пользователем
Реальная информационная потребность
Осознание
Осознанная информационная потребность
Выражение
Выраженная информационная потребность
Формализация
Формализованная информационная потребность
Информационнопоисковая система Рис. 2. Представления информационной потребности
Необходимость формулирования информационной потребности на специальном информационно-поисковом языке (ИПЯ) определяется тем, что интерпретировать естественный язык весьма сложно. Это научно-практическое направление интенсивно развивается в настоящее время, и некоторые поисковые системы позволяют пользователям составлять запросы на естественном языке []. Однако в таком
9
случае информационную потребность в формализованном виде определяет сама система. Информационная потребность, сформулированная на информационно-поисковом языке, называется запросом. Запрос поступает в ИПС, и система возвращает некоторый ответ. Степень соответствия ответов поисковой системы запросу пользователя, а значит, и его информационной потребности, называется релевантностью [].
1.3. Релевантность Релевантность – это фундаментальное понятие теории информационного поиска. Тем не менее, оно не является специфичным для информационно-поисковых систем, и изучается многими направлениями науки: философией, психологией, теорией искусственного интеллекта, теорией обработки естественных языков и т. д. []. Понятие релевантности возникло одновременно с появлением первых библиотек, посетителям которых требовалось найти книги для удовлетворения информационной потребности. Стимулом для детального анализа релевантности послужило появление в середине ХХ века информационно-поисковых систем. Обсуждение понятия релевантности продолжается уже более полувека, но, несмотря на это, его единого общепринятого определения до сих пор не существует []. Наиболее часто используются следующие виды релевантности [, ]: 1. Когнитивная релевантность, или пертинентность – характеризует степень соответствия информации из документа и реальной информационной потребности пользователя. Это истинная и наиболее трудноопределимая релевантность. Все остальные виды релевантности являются ее приближениями. 2.Тематическая (предметная) релевантность – характеризует степень близости предмета (тематики) информационной потребности и найденного документа. Под тематикой здесь понимается область интересов пользователя, в пределах которой существует его информационная потребность. 3.Ситуационная релевантность – определяет полезность информационного ресурса для задачи, решаемой пользователем, с точки зрения временных затрат, способа взаимодействия пользователя с системой и т. п. 4.Системная (алгоритмическая) релевантность – характеризует степень близости между формализованной информационной потребностью (запросом) и найденным поисковой системой документом. Поскольку информационно-поисковый язык является формальным языком, для сравнения запросов и документов можно применять формальные критерии. Поэтому
10
алгоритмическую релевантность, в отличие от остальных видов релевантности, можно рассчитать без участия пользователя. Обычно она определяется самой поисковой системой в ходе работы поискового алгоритма. Теоретически релевантность можно измерить некоторым числом в интервале от нуля (полностью непертинентный документ) до единицы (полностью пертинентный документ). На практике же релевантность в основном определяется при оценке просматриваемых документов – подходит ли данный документ пользователю или не подходит. Таким образом, релевантность обычно характеризуется бинарным значением [, , ]. Существуют также методы оценки релевантности по многозначной шкале. В этом случае коллектив экспертов просматривает доступные документы и присваивает каждому из них некоторое значение релевантности, которое определяется для каждого запроса. Такая методика используется главным образом при сравнении эффективности нескольких поисковых систем. Один и тот же документ может быть релевантным согласно одному определению релевантности и нерелевантным согласно другому. Так, документ, релевантный алгоритмически, может оказаться непертинентным. Например, если в неспециализированной ИПС искать информацию о компьютерных манипуляторах типа "мышь" и использовать для этого запрос, состоящий из слова "мышь", то велика вероятность получения ряда непертинентных документов из области зоологии и географии, описывающих мышей-грызунов. При этом найденные непертинентные документы формально будут соответствовать запросу, так как в их тексте содержится термин запроса – "мышь". Релевантность не является статичной величиной и может со временем меняться. Например, знания пользователя могут измениться после прочтения найденного документа, что в свою очередь может привести к составлению нового запроса, то есть к изменению формализованной информационной потребности. Это иллюстрирует интерактивную природу информационного поиска [, ]. Различные определения релевантности весьма затрудняют оценку эффективности поиска информации. Качество поиска в информационно-поисковых системах обычно характеризуется двумя критериями – полнотой и точностью. Полнота поиска определяется общим количеством найденных документов, а точность – соотношением между найденными релевантными и нерелевантными документами. Из-за многозначности определения релевантности абсолютного критерия точности поиска не существует, и в результатах любого поиска всегда присутствуют как релевантные, так и нерелевантные документы.
11
Нерелевантные документы, которые сравниваются с релевантными, иногда называются шумом, по аналогии с теорией передачи информации К. Шеннона. Релевантные документы в таком случае можно называть сигналом, а эффективность поиска оценивать по соотношению "сигнал - шум". Слишком большой шум затрудняет выделение пертинентных документов из множества найденных, а слишком малый не даёт уверенности в достаточной полноте поиска. Практика показывает, что пользователь, который ищет информацию, полагает число найденных документов удовлетворительным, когда количество непертинентных документов лежит в интервале 10–30% от общего числа найденных []. Важно отметить, что в результате анализа статистики запросов большого числа пользователей к известным поисковым системам выяснилось, что средняя длина запроса не превышает двух слов, и пользователи, как правило, используют самую простую форму запроса. Поэтому нельзя рассчитывать на то, что пользователь поисковой системы будет формулировать достаточно сложные эффективные запросы. Современная поисковая система должна самостоятельно выявлять информационные потребности конкретного пользователя и учитывать их при поиске [, ].
1.4. Общая схема процесса поиска Существует два базовых подхода к поиску информации [, ]. Один из них заключается в использовании специальных тематических каталогов и реализуется в классификационных ИПС. Для поиска документа в этом случае используются его название, выходные данные, тематика и другие реквизиты. Второй подход, применяемый в словарных ИПС, использует для поиска словари, составленные из терминов, описывающих содержание индексированных документов, с которыми работают программные средства, называемые поисковыми машинами. Наиболее продуктивной схемой поиска является комплексное использование обоих основных подходов. Независимо от типа поисковой системы1, все операции информационного поиска можно разбить на четыре группы []: −информационный анализ, −хранение информации, −поисковые операции, −выдача информации. Общая схема процесса поиска в информационно-поисковой системе представлена на рис. Рис. 3. 1
Подробнее о типах современных ИПС см. Часть 2 методических указаний.
12
Документы
Запросы
Анализ содержания документов
Анализ содержания запросов
Описания документов
Формулировки запросов
Сравнение запросов и документов
Выдача описаний документов , соответствующих формулировкам запросов
Ответы Рис. 3. Общая схема процесса поиска
Содержание документов и запросов в информационно-поисковых системах обычно описывается некоторыми наборами терминов, состоящими из отдельных слов или словосочетаний. Часто для характеристики терминов используются их веса, которые отражают предполагаемую важность каждого из терминов. Решение о выдаче того или иного документа принимается в результате сравнения наборов терминов, относящихся соответственно к документам и запросам. Вниманию пользователя предлагаются те документы, наборы терминов которых совпадают с наборами терминов запросов. Наряду с отбором из документов определенных терминов существуют и другие способы их описания. Они подробно рассматриваются в следующих разделах. Здесь же важно отметить, что основа любого описания документа – это термины, входящие в его состав.
13
2. Представление информации в ИПС 2.1. Индексирование документов Первая задача, которую должна решить информационно-поисковая система – это создание описания документа или любого другого информационного ресурса. Такая процедура называется индексированием. Основная цель процесса индексирования – поставить в соответствие каждому документу некоторое множество ключевых слов, отражающих содержание документа. Ключевые слова называются также идентификаторами, индексационными терминами, дескрипторами, понятиями. Ключевые слова управляют поиском, приводя в результате к тем документам, термины которых оказываются наиболее сходными с терминами запроса. Результатом индексирования является поисковый образ документа, который представляет документ в ИПС [, ]. Любой метод индексирования основан на текстах исходных документов, или же на определенных фрагментах этих текстов (заглавия, рефераты и др.). Обычный процесс индексирования состоит из следующих операций []: −отбор индексационных терминов, используемых для описания содержания документа; −приписывание этим терминам некоторого веса, который отражает предполагаемую важность терминов. −отнесение каждого термина к некоторому типу (например, к классу действий, свойств или объектов); −определение отношений (синонимических, иерархических, ассоциативных и т. д.) между терминами. В зависимости от принятой модели индексирования и поиска документов некоторые операции из вышеперечисленного списка могут быть исключены. В большинстве ИПС для описания содержания документов и запросов используются полученные таким образом множества терминов с весами. Расчеты весовых коэффициентов обычно основаны на частоте появления данного термина в документе или частоте его появления во всех доступных документах. Тем не менее, современные способы индексирования не ограничиваются анализом частотных параметров текста, предоставляя возможность весьма подробного описания документов. Коэффициенты значимости терминов определяются с учетом положения термина внутри документа (например, в заголовке) и взаимного расположения терминов в тексте.
14
Некоторые современные поисковые системы выполняют полнотекстовое индексирование, при котором в описание включается большой объем информации о документе: позиция каждого слова, раздел текста, в который входит данное слово, шрифт и т. д. В результате размер такого описания может превышать размер исходного документа [].
2.2. Векторная модель текста Большинство современных алгоритмов индексации и поиска в той или иной степени основано на векторной модели текста, предложенной Дж. Солтоном в 1973 году. В векторной модели каждому документу приписывается список терминов, наиболее адекватно отражающих его смысл. Иными словами, каждому документу соответствует вектор, размерность которого равна числу терминов, которыми можно воспользоваться при поиске []. Для дальнейшего изложения введем несколько важных понятий: словарь, поисковый образ документа, информационный массив []. Словарь – это упорядоченное множество терминов. Мощность словаря обозначается как
D.
Поисковый образ документа – это вектор размерности
D . Самый простой поис-
ковый образ документа – двоичный вектор. Если термин входит в документ, то в соответствующем разряде этого двоичного вектора проставляется 1, в противном же случае – 0. Более сложные поисковые образы документов связаны с понятием относительного веса терминов или частоты встречаемости терминов []. Любой запрос также является текстом, а значит, его тоже можно представить в виде вектора
q.
В процессе работы поискового алгоритма происходит сравнение
векторов поискового образа документа и поискового образа запроса. Чем ближе вектор документа находится к вектору запроса, тем более релевантным он является1. Обычно все операции информационного поиска выполняются над поисковыми образами, но при этом их, как правило, называют просто документами и запросами. Информационный массив
L
представляют в виде матрицы размерности
N × D , где в качестве строк выступают поисковые образы N L = { ∀ i = 1, N ; j = 1, D : bij = где
tj
– термин,
di
0, t ∉ j 1, t j ∈
di
di
документов:
},
– документ. Информационный массив называют также ин-
формационным потоком, набором документов или коллекцией документов. 1
(2.1)
Подробнее о мерах близости документов и запросов см. Часть 2 методических указаний.
15
Описанная модель информационного массива является наиболее широко используемой. В первую очередь это связано с простотой реализации и, как следствие, возможностью быстрой обработки больших объемов документов. В случае использования весов терминов информационный массив
L = { ∀ i = 1, N ; j = 1, D : bij = где Wij – вес термина t j в документе
L
может быть представлен в виде
0, t ∉ d j i W ij , t j ∈ d i
},
di .
Матрица информационного массива изображена на рис. Рис. 4. Термин 1
Документ 1 Документ 2 ... Документ i ... Документ N
W 11 W 21 W i1 W N1
Термин 2
W
12
W
22
W
i2
W
N 2
...
Термин j
...
W
W
1j 2 j
W
ij
W
Nj
Термин D
W
1D W 2D W iD W ND
Рис. 4. Матрица "термин-документ" информационного массива
Процедура обращения к информационно-поисковой системе может быть определена следующим образом:
L× q = R . Здесь q – вектор запроса, R – вектор отклика системы на запрос. Остановимся подробнее на статистических закономерностях, которые используются в процессе индексирования документов.
2.3. Статистический анализ текстов. Закон Ципфа Начальным этапом любого метода индексирования является отбор из документов терминов, которые бы наилучшим образом характеризовали их содержимое. Такая необходимость вызвана тем, что непосредственное сканирование текстов документов во время поиска занимает слишком много времени, особенно в поисковых системах сети Интернет. С другой стороны, хранение полных текстов документов в базах данных поисковых систем привело бы, во-первых, к резкому росту их объема, и, во-вторых, поставило бы проблему соблюдения авторских прав. Для выделения из документа индексационных терминов используются главным образом статистические закономерности распределения частоты появления различ-
16
ных слов в текстах. В частности, в теории индексирования особый интерес представляют явления, поведение которых носит гиперболический характер. Другими словами, произведение фиксированных степеней переменных остается для таких явлений постоянным. Наиболее известный гиперболический закон, относящийся к статистической обработке текстов, сформулирован Дж. Ципфом. Он касается распределения слов в достаточно больших выборках текста и используется для решения задачи выделения ключевых слов (терминов) произвольного документа. Основываясь на общем "принципе наименьшего усилия"1, Дж. Ципф вывел универсальный закон, который применим ко всем созданным человеком текстам [, , ]. Рассмотрим некоторый текст, количество слов в котором обозначим как число вхождений каждого слова t i в этот текст обозначим как
T,
а
ni . Частота появле-
ния2 слова t i в таком случае будет определяться формулой
(TF ) i = ni T . Если расположить слова текста в порядке убывания частоты их появления, начиная с наиболее часто встречающихся, то произведение частоты слова
(TF ) i
на
порядковый номер частоты будет постоянным для любого данного слова t i :
где
(TF ) i ⋅ ri = C , (2.2) C – некоторая константа, ri – порядковый номер (ранг) частоты слова ti .
Наиболее часто встречающиеся слова будут иметь ранг 1, следующие за ними – 2 и т. д. Если несколько слов имеет одинаковую частоту, то ранг присваивается только одному значению из каждой группы. Выражение (2.2) описывает функцию вида
y= k x
и её график – гипербола,
или прямая в логарифмических координатах (рис. ).
Подобному распределению подчиняются не только все естественные языки мира, но и другие явления: распределения ученых по числу опубликованных ими статей, городов по численности населения, биологических родов по численности видов, посетителей сайтов сети Интернет и т. д. [] 2 TF – англ. Term Frequency – частота термина в отдельных документах. 1
17
(TF )i
log(TF ) i
ri
0
log ri
0
Рис. 5. Закон Ципфа
Эксперименты показывают, что частота
(TF ) i
и количество слов
ni ,
входя-
щих в текст с этой частотой (другими словами, количество слов, имеющих одинаковый ранг частоты), также связаны между собой. Обозначим это количество как
mr
i
. Форма кривой зависимости
mr ((TF ) i ) i
сохраняет свои параметры для всех
текстов в пределах одного языка. Вид такой зависимости представлен на рис. .
mr
i
0
(TF ) i
Рис. 6. Зависимость числа слов каждого ранга от частоты их встречаемости
Вероятность
pi
встретить произвольно выбранное слово t i , очевидно, будет
равна частоте встречаемости этого слова в тексте:
pi = (TF ) i .
18
Таким образом, согласно закону Ципфа, если самое распространенное слово встречается в тексте, например 50 раз, то следующее по частоте слово с высокой долей вероятности встретится 25 раз. Связь, задаваемая зависимостью (2.2), описывает реальные данные приближенно. Более точное совпадение с экспериментом дает несколько измененное уравнение
Здесь
C
и
s
(TF ) i = C ( ri + B) −
s
.
– параметры распределения, а
(2.3)
B
– малая константа, называе-
мая поправкой Мандельброта. Она улучшает совпадение для общеупотребительных слов, имеющих низкий ранг, а параметр чение константы
C
s
– для слов, имеющих высокий ранг. Зна-
в разных языках различно, но внутри одной языковой группы оно
остается неизменным вне зависимости от анализируемого текста. Выражение (2.3) называется каноническим законом Ципфа []. Оно используется для составления поискового образа документа, то есть для извлечения из текста документа слов, наиболее адекватно отражающих его смысл. Практика показывает, что наиболее значимые слова лежат в средней части графика зависимости (рис. Рис. 7). Иными словами, самыми ценными для представления содержания документов являются термины не слишком редкие и не слишком частые. Слова, которые попадаются слишком часто, в основном оказываются предлогами, союзами и т. д. Редко встречающиеся слова также не имеют решающего смыслового значения в большинстве случаев.
(TF ) i
Ключевые слова
0
ri
Рис. 7. Выделение ключевых слов по закону Ципфа
Границы выделения ключевых слов определяют качество поиска в ИПС. Высокочастотные термины хоть и не являются специфическими, но все же дают большое
19
число совпадений при сравнении терминов запроса и документа. Тем самым обеспечивается выдача многих релевантных документов, то есть увеличивается полнота поиска. С другой стороны, низкочастотные термины вносят относительно небольшой вклад в поиск нужных документов, так как редкие термины дают малое число совпадений образов запроса и документа. Но если они все же совпадают, то соответствующий найденный документ почти наверняка является релевантным [, ]. Ширина и границы диапазона частот зависят от используемых механизмов поиска, а также от анализируемых документов, и отличаются друг от друга в разных ИПС. Во всех существующих методах индексирования применяется процедура исключения некоторых высокочастотных терминов, которые заведомо не являются ценными для отражения содержания документа []. Для исключения общеупотребительных слов, к которым относятся предлоги, союзы, артикли, вспомогательные глаголы, частицы, местоимения и т. п., используются стоп-словари. Стоп-словарь (стоп-лист, стоп-список, отрицательный словарь) – это словарь служебных и неинформативных терминов, которые не должны входить в число терминов индексации. Число служебных слов в отрицательном словаре составляет обычно несколько сотен, в зависимости от системы.
2.4. Анализ информационных массивов 2.4.1. Понятие относительной частоты Использование во время индексации частоты встречаемости термина в документе (абсолютной частоты) эффективно лишь в случае очень малого объема информационного массива. В действительности же современные массивы данных образованы тысячами и десятками тысяч документов, а в Интернете доступны миллиарды информационных объектов. Поскольку число слов, используемых при индексации, ограничено числом слов в естественном языке и стоп-словарем, для индексации разных документов использовались бы одни и те же термины. Применение абсолютных значений частоты привело бы к резкому уменьшению точности поиска из-за постоянного использования при индексировании высокочастотных терминов, которые встречаются в большинстве документов. Один из методов усовершенствования этих грубых частотных параметров заключается в использовании относительных частот терминов в массиве. При этом частота появления термина в данном документе сравнивается с частотой появления этого же термина во всем информационном массиве. Наиболее адекватным при ин-
20
дексации оказывается тот термин, который отражает содержание отдельного документа и в то же время отличает один документ от другого. В частотной модели индексирования предпочтительными для описания документов являются те термины, которые встречаются с высокой частотой в отдельных документах, а суммарная частота их появления в массиве низка [, ]. Определим документную частоту термина t i как число документов массива, в которых встречается этот термин, и обозначим ее
( DF ) i .
Тогда взвешивающую
функцию, обратную документной частоте1, можно определить следующим образом:
( IDF ) i = log где
N
N ( DF ) i ,
(2.4)
– общее число документов в информационном массиве. Функция (2.4)
приписывает наибольшие значения терминам, появляющимся лишь в нескольких документах. Чем чаще термин встречается в документах массива, тем меньше значение обратной документной частоты. Несколько иной подход применяется при использовании методов оценки различительной силы термина. Здесь хорошим для индексации считается такой термин, который делает документы максимально непохожими друг на друга. Тем самым обеспечивается максимальное удаление одного документа от другого в пространстве индексирования. Плохим считается такой термин, который делает документы более похожими друг на друга, вследствие чего различить их становится труднее. Чем больше будет разделение отдельных документов, то есть чем менее похожими будут соответствующие векторы поисковых образов, тем легче будет находить одни документы, отбрасывая другие. Если же документы представлены похожими векторами терминов, пространство индексирования сжимается, и обеспечить достаточное разграничение релевантных и нерелевантных документов затруднительно. Значимость термина
ti
измеряется его различительной силой
( DV ) i .
Она
определяется как разность между средним попарным подобием документов, когда термин t i отсутствует в векторах документов массива, и средним попарным подобием, когда термин t i присутствует. Если данный термин представляет ценность для индексирования, его присутствие в векторе документа должно делать документы менее похожими друг на друга. Тогда среднее попарное подобие уменьшается, а раз-
1
IDF – англ. Inversed Document Frequency – обратная документная частота.
21
личительная сила становится положительной. В противном случае значение различительной силы отрицательно.
2.4.2. Распределение частоты встречаемости терминов Практика показывает, что хорошие, средние и плохие индексационные термины можно характеризовать по распределению их документной частоты пределению частоты встречаемости
Fi
( DF ) i
и рас-
[].
Суммарная частота встречаемости термина t i в массиве документов определяется следующей формулой: N
Fi = ∑ f i . k
k= 1 1.Лучшими для индексации терминами с наивысшими значениями различительной силы являются термины со средними значениями суммарной частоты встречаемости
Fi
и документной частотой, составляющей менее половины его частоты как
термина (суммарной частоты в массиве). 2.Следующими по качеству являются термины со значениями различительной силы, близкими к нулю, и очень низкой документной и суммарной частотой. 3.Худшими терминами, имеющими отрицательные значения различительной силы, являются те термины, которые имеют высокую документную частоту (порядка объема всего массива документов) и суммарную частоту термина большую, чем число документов в массиве. Рис. Рис. 8 иллюстрирует вышеописанное разделение терминов. Если расположить термины в порядке увеличения документной частоты
( DF ) i , то индексацион-
ные термины должны, насколько это возможно, попадать в средний интервал значений. Внутри каждой из этих категорий, и вообще в массиве документов, термины с относительно плоскими распределениями, для которых частота термина при переходе от документа к документу меняется незначительно, имеют более низкие значения различительной силы. Наоборот, термины с более острыми распределениями, которые часто встречаются в некоторых документах и редко – в остальных, имеют более высокие значения различительной силы. Индексационные термины должны обладать средними по величине значениями документной частоты, и иметь распределения частот, сосредоточенные в одной точке.
22 Низкая DF
Средняя DF
Высокая DF
Нулевые значения DV
Положительные значения DV
Отрицательные значения DV
2
1
3
Документная частота DF N
0 Улучшение полноты Улучшение точности
Рис. 8. Характеристика терминов по распределению документной частоты
На рис. Рис. 9 изображено несколько типичных распределений частот терминов. Наилучшими для индексации являются термины, имеющие распределение (рис. Рис. 9 а). Они обеспечивают приемлемые значения полноты и точности поиска. Термины с распределениями (рис. Рис. 9 б) повышают точность, но резко снижают полноту поиска, а с распределениями (рис. Рис. 9 в) – наоборот, увеличивают полноту, но уменьшают точность. Наконец, равномерное распределение частоты (рис. Рис. 9 г) свойственно общеупотребительным терминам, которые не обеспечивают ни надлежащей точности поиска, ни его полноты. (TF ) i
(TF )i
0
Документы
0
а
Документы
б (TF )i
(TF )i
0
Документы
в
0
Документы
г
Рис. 9. Распределения частот терминов в документах
23
2.5. Определение весов терминов После того как из документа отобраны термины для поискового образа, возникает вопрос об оценке их значимости для поиска. Ценность того или иного термина определяется его способностью наиболее адекватно характеризовать содержание документа. Обычно она характеризуется некоторым весовым коэффициентом, который рассчитывается в процессе индексации. Запрос, выражающий информационную потребность пользователя, состоит из отдельных терминов. Во время выполнения поискового алгоритма происходит сравнение терминов запроса и поискового образа документа и определяется степень их близости, то есть формальная релевантность. Чем больше вес термина в документе, тем более релевантным оказывается этот документ, и тем более высокую позицию этот документ занимает в списке результатов поиска. Особенно актуальным такое упорядочение представляется для крупных информационных массивов. Таким образом, взвешивание терминов необходимо для решения главной задачи поисковой системы – обеспечения пользователя релевантными документами. Веса также влияют на составление поисковых образов документов. В предыдущих разделах при анализе частот встречаемости терминов был описан ряд критериев, по которым происходит отбор индексационных терминов. Численной характеристикой этих критериев может быть вес терминов. Поскольку количество терминов, которые могут быть использованы для индексации, ограничено, термины, получившие наименьший вес, отбрасываются. Наиболее простая и самая распространенная модель поиска – булева модель – использует двоичную систему взвешивания терминов. Этот метод реализуется на стадии отбора индексационных терминов, и заключается в том, что терминам, вошедшим в поисковый образ, приписывается единичный вес, а остальным терминам – нулевой вес. Таким образом, все термины из поискового образа документа считаются равнозначными []. Недостатки булевой модели широко известны. В частности, использование абсолютных единичных весов приводит к значительным трудностям восприятия результатов поиска, когда в ответ на запрос пользователю система выдает множество неупорядоченных документов, поисковые образы которых содержат термины запроса. Выделение истинно релевантных документов из этого множества представляет значительные трудности. Выходом из такой ситуации является приписывание терминам дифференцированных весов. Термины поискового образа одного и того же документа в таком слу-
24
чае могут иметь различный вес. Одновременно значение веса для одного и того же термина может быть различным в разных документах. Помимо описанного двоичного метода, в настоящее время для оценки весов терминов используется главным образом следующие три модели: −частотная модель, −вероятностная модель, −латентно-семантический анализ. Остановимся на них более подробно.
2.5.1. Частотная модель Частотная модель взвешивания терминов тесно связана с частотным методом индексирования (раздел 2.4). Одна из наиболее известных весовых функций записывается следующим образом []:
Wi = (TF ) i × ( IDF ) i . Здесь Wi – вес, приписываемый термину t i , (TF ) i менте,
( IDF ) i
– частота термина в доку-
– обратная документная частота.
Также на практике широко применяется весовая функция
Wi = где
(TF ) max
0.5 +
0.5 ( IDF ) i , (TF ) max
(TF ) i
– максимальная частота термина в
k -ом документе, то есть ча-
стота термина, который встречается в документе чаще всего. Весовой коэффициент
Wi
отражает значимость термина t i в
k -ом документе.
При использовании различительной силы терминов их индексационные веса могут быть вычислены по формуле
где
( DV ) i
Wi = (TF ) i × ( DV ) i ,
– значение различительной силы термина t i . Полнота поиска здесь
может быть обеспечена путем поиска высокочастотных терминов, а точность поиска определяется положительными значениями различительной силы.
2.5.2. Вероятностная модель Недостатком частотных методов взвешивания терминов является тот факт, что частотные веса рассчитываются формально, без учета реальных информационных потребностей. Для того чтобы установить соответствие между истинной информаци-
25
онной потребностью и терминами, составляющими поисковый образ документа, разработана вероятностная модель оценки весов терминов [, ]. Вероятностная модель основана на точной оценке вероятности того, что данный документ является релевантным (точнее, пертинентным) данному запросу [, ].
P ( w1 | d ) , где w1 – событие, кото-
Обозначим вероятность такого события как рое состоит в том, что документ су
d
является релевантным по отношению к запро-
q . Аналогично, предположим, что P ( w 2 | d )
– вероятность того, что документ
d
окажется нерелевантным. Для определения вероятности
P ( w1 )
релевантным,
воспользуемся теоремой Байеса:
P (d | w1 ) P ( w1 )
P ( w1 | d ) = Здесь
P ( w1 | d ) P (d )
.
– вероятность того, что случайно выбранный документ является
P (d )
– вероятность того, что из всего множества документов для
рассмотрения выбран документ
d , P (d | w 1 )
– вероятность того, что документ
d
выбран из множества релевантных документов. Для дальнейшего изложения примем несколько упрощений. Во-первых, предположим, что поисковый образ документа
D
представлен двоичным вектором (2.1):
0, t ∉ d= d i = i 1, t i ∈ – размер словаря поисковой системы. d , 1
где
d
d 2 , , d i ,, d D ,
d , d
Далее, будем считать, что любая пара терминов входит в документ независимо друг от друга, то есть вероятности появления всех терминов в документе равны:
P ( d 1 | w 1 ) = P (d 2 | w 1 ) = = P ( d D | w 1 ) . Тогда вероятность
P (d | w 1 )
для документа
d
будет равна произведению со-
ответствующих вероятностей для всех входящих в него терминов:
P ( d | w1 ) =
∏
t∈ d
P ( t | w1 ) ⋅
∏
t∉ d
P ( t | w1 ) =
D
∏
P ( d i | w1 ) .
(2.5)
i= 1
Если вероятность появления термина t i в релевантном документе обозначить как
26
p i = P (d i = 1 | w 1 ) ,
)
то выражение (2.5) можно представить в виде D
∏
i= 1
P ( d | w1 ) = где
pi
d
i
1 −
pi
1− d
i
,
(2.6)
1 − p i = P ( d i = 0 | w1 ) . Аналогично, для нерелевантных документов D
D
d 1− d q i 1 − q i , (2.7) i i i= 1 i= 1 где q i – вероятность появления термина t i в нерелевантном документе, кото-
P (d | w 2 ) =
∏
P (d i | w 2 ) =
∏
рая равна
q i = P (d i = 1 | w 2 ),
1 − q i = P (d i = 0 | w 2 ). В вероятностной модели считается, что адекватной мерой релевантности документа
R(d )
является отношение
P (d | w1 )
R(d ) =
P (d | w 2 )
.
Подставляя в это выражение формулы (2.6) и (2.7), получим d D p i 1 − p i i R(d ) = q 1− q i i = 1 i После логарифмирования и упрощения
∏
1− d i . (2.8) выражения (2.8) меру релевантности
можно описать следующим образом:
R(d ) =
D
∑
(2.9)
i= 1
где
W i = log C= В выражении (2.9)
Wi d i + C ,
Wi
D
∑
i= 1
pi (1 − q i ) q i (1 − pi )
log
1 − pi 1 − qi
,
.
есть вес термина t i в документе
d. В
данном случае
вес характеризует способность термина отличить релевантный документ от нереле-
27
вантного. Наименьший вес будут, очевидно, иметь общеупотребительные слова (термины из стоп-словаря), вероятности появления которых в релевантных и нерелевантных документах одинаковы и равны 50%. Значение константы
C
одинаково для всех документов, поэтому обычно при
вычислении релевантности ее игнорируют. Для расчета вероятностей
pi = qi =
pi
и
qi
( DF ) iR
часто используются упрощенные формулы
,
R ( DF ) i − ( DF ) iR N− R
.
В этих формулах используются следующие обозначения:
( DF ) i
– число документов информационного массива, в которых встречается
термин t i ;
( DF ) iR
– число релевантных документов, в которых встречается этот термин;
R – общее число релевантных документов; N – общее число документов в информационном массиве. Таким образом, формула для определения веса термина t i примет вид W i = log
( DF ) iR N − R − ( DF ) i + ( DF ) iR
. ( DF ) − ( DF ) R − ( DF ) i iR iR На практике в основном используется несколько измененное выражение [, ]:
Wi =
( DF ) + 0.5 N − iR log ( DF ) − ( DF ) i iR
R − ( DF ) i + ( DF ) iR + 0.5
+
Во время индексации величины
0.5
R − ( DF ) iR +
( DF ) iR
и
R
0.5
.
(2.10)
обычно неизвестны. Для их
определения используется динамический итерационный процесс обратной связи с пользователем, который заключается в следующем. При индексации величины
( DF ) iR
и
R
полагаются равными нулю, и вес тер-
мина t i рассчитывается как
W i = log
N − ( DF ) i + 0.5 ( DF ) i + 0.5
.
28
При больших объемах информационного массива вес термина становится равным обратной документной частоте (2.4):
W i ≈ ( IDF ) i = log
N ( DF ) i
.
Когда информационно-поисковая система в ответ на запрос пользователя выдает список документов, пользователь может оценить релевантность некоторых из них. Если пользователь пометил несколько документов, которые являются пертинентными по отношению к его запросу, становится возможным определение значений
( DF ) iR
и
R
и, как следствие, более точный расчет весов терминов согласно
выражению (2.10). Процесс динамической подстройки весов терминов будет сходиться к некоторому оптимальному значению для каждого термина, поскольку ошибочно завышенные веса приведут к выдаче нерелевантных документов, в результате чего веса уменьшатся, в то время как ошибочно заниженные веса вызовут соответствующее увеличение веса терминов [, , , ].
2.5.3. Латентно-семантический анализ Основное предназначение взвешивания терминов, как отмечалось выше, заключается в определении того, насколько полно они отражают содержание документа. Как показывает практика, частотные методы оценки весов имеют ряд недостатков. Следствием этого является получение в результате поиска нерелевантных и отсутствие истинно релевантных документов. Во-первых, описанные методы не учитывают тот факт, что частоты встречаемости различных терминов зависят друг от друга. Термины не появляются в документе независимо от остальных терминов, они могут быть, например, объединены в словосочетания, устоявшиеся обороты и т. п. Другой проблемой является синонимия и полисемия (многозначность) []. Под синонимией понимается тот факт, что любое явление или предмет могут быть выражены различными способами. В зависимости от контекста, знаний человека, манеры письма одни и те же сведения описываются разными терминами (синонимами). Например, синонимы «дисплей» и «монитор» определяют один и тот же предмет. Полисемия, напротив, заключается в том, что большинство слов в языке имеет несколько значений. Один и тот же термин может обозначать абсолютно разные понятия. Соответственно, наличие того или иного термина в некотором документе не означает того, что документ является релевантным запросу, в котором содержится
29
такой же термин. В качестве иллюстрации приведем слово «мышь», которое означает и грызуна, и компьютерное устройство []. Описанные проблемы решает латентное семантическое индексирование1 [, ]. Суть этого подхода состоит в том, что каждый набор документов имеет неявную, латентную семантическую структуру2. Анализ такой структуры (латентно-семантический анализ) позволяет описать каждый документ не только с точки зрения наличия или отсутствия каких-либо терминов, но и с точки зрения его смысла (семантической направленности). Например, документ может быть адекватно описан терминами, которые не входят в его состав, и наоборот – некоторые термины не отражают смысла документа, и совпадение их с терминами запроса не делает документ релевантным []. Таким образом, в результате количественного анализа латентных факторов веса терминов могут быть скорректированы, и поисковый образ документа станет более адекватным его содержанию. Качество поиска в ИПС, использующих ЛСИ, выше, чем в системах, где применяются только частотные методы. Латентно-семантическое индексирование позволяет также охарактеризовать документ некоторыми новыми свойствами, которые не связаны с наличием или отсутствием терминов (например, количеством библиографических ссылок на данный документ из остальных документов набора, разметкой документа (обычный текст или таблица) или, для документов Интернет, частотой обновления и посещаемостью страницы [, ]). Математически латентно-семантическое индексирование реализуется с помощью одного из методов линейной алгебры – сингулярного разложения матрицы [, ]. Современные алгоритмы используют также аппарат теории вероятностей (вероятностное латентное семантическое индексирование) []. Одним из важных направлений ЛСИ является межязыковое латентно-семантическое индексирование3 []. Основным принципом здесь является тот факт, что запрос на одном языке может возвращать релевантные документы на других языках. Рассмотрим некоторую группу документов, где каждый документ представлен на двух языках (например, немецком и английском). После проведения латентно-семантического анализа каждый документ будет описан как немецкими, так и английскими терминами в едином межязыковом семантическом пространстве. Поэтому запросы к этому набору документов, а также к вновь добавляемым в набор документам (на каком-то одном языке) можно будет делать на любом из двух языков. Латентное семантическое индексирование (ЛСИ) – англ. Latent Semantic Indexing (LSI) Под семантической структурой здесь имеется в виду некоторая структура, в которую объединены отдельные термины в документе. 3 Межязыковое ЛСИ – от англ. Cross-language Latent Semantic Indexing 1 2
30
Главное достоинство межязыкового ЛСИ – отсутствие необходимости перевода (ручного или машинного) запроса на другой язык. Это особенно актуально для поиска в сети Интернет, когда запросы являются неспециализированными, и их адекватный перевод вызывает значительные трудности [, , ]. Латентно-семантический анализ в настоящее время также часто применяется для анализа гипертекстовых документов. Практика показывает, что документы, связанные гиперссылками, обычно находятся в одном семантическом пространстве. Один из латентных факторов, которым в данном случае является структура гиперссылок, существенно влияет на точность поиска []. Примером количественной характеристики этого фактора может служить величина
PageRank , которая вычисляется на основе информации о других докумен-
тах, имеющих ссылки на данный, и определяется выражением
PageRank ( Pi ) = (1 − d ) + d Здесь
Pi
метр (обычно мента
Pk
и
Pk
в документ
ствует, и
Pi
∀ P : OL = 1 k k, i
L( Pk )
– документы информационного массива;
d ≈ 0.85 ); L( Pk )
Pk ; OLk , i
∑
PageRank ( Pk )
.
d – некоторый пара-
– общее количество ссылок, выходящих из доку-
– величина, характеризующая наличие гиперссылки из документа (исходящей гиперссылки1).
OLk , i = 0 , если такая ссылка отсут-
OLk , i = 1 , если она существует.
Значение
PageRank , которое рассчитывается для каждого документа, опре-
деляет его важность по сравнению с другими документами []. Для реализации некоторых вспомогательных операций информационного поиска (автоматическая фильтрация2, классификация и др.) также используются алгоритмы ЛСИ [].
3. Хранение индексированных документов Организация хранения массива поисковых образов документов – одна из критических частей поискового аппарата ИПС. OL – англ. Outgoing Hyperlink – исходящая гиперссылка. Автоматическая фильтрация – это отбор документов, удовлетворяющих информационной потребности пользователя, из некоторого потока. Примером потока может служить лента новостей информационного агентства, на которую непрерывно поступает свежая информация. 1 2
31
Индексирование документов является разовым процессом в локальных системах или постоянным в глобальных, но в любом случае оно не производится одновременно с поиском (для поиска и индексирования не используются одновременно одни и те же аппаратные ресурсы). Вследствие этого скорость поиска информации в ИПС определяется скоростью доступа к хранилищу поисковых образов (второй влияющий фактор – поисковый алгоритм), которая зависит от структуры и объема базы данных документов [, , ]. Прямой просмотр файлов поисковых образов документов занимает много времени, что является неприемлемым для пользователя, особенно в сети Интернет. Поэтому база данных документов организуется в виде ряда связанных таблиц. Помимо информации о соответствии терминов и документов (идентификаторы терминов и документов, веса терминов и т. д.), в базах данных ИПС хранятся также различные дополнительные сведения. Некоторые из них непосредственно используются при поиске, например, даты последних изменений документов или информация о содержащихся в документах ссылках на другие документы (это особенно актуально для ИПС сети Интернет). Часть данных необходима для облегчения работы пользователя с результатами поиска (заголовки и аннотации документов и др.). Обычно информация о терминах и документах, которая находится в базах данных ИПС, может быть использована одновременно для нескольких алгоритмов поиска. Рассмотрим общую структуру базы данных поисковых образов интернет-документов (гипертекстовых страниц) [, , , ]. База данных (рис. Рис. 10) состоит из таблицы адресов страниц, таблицы ключевых слов, таблицы заголовков страниц, таблицы с датами изменения страниц, таблицы гиперссылок, а также двух таблиц-списков – прямого и инвертированного.
32
Дата модификации страниц
Заголовки (названия) страниц
pageID дата индексации дата модификации
pageID заголовок
Ссылки страниц
pageID входящие ссылки (pageID) исходящие ссылки (pageID)
Адреса страниц (URL)
pageID URL
Прямой список
Инвертированный список
pageID kwdID вес термина в документе
kwdID pageID позиция термина в документе
Ключевые слова
kwdID термин
Рис. 10. Структура базы данных поисковых образов
Таблица адресов страниц содержит уникальные идентификаторы (pageID) и адреса страниц (URL1). Таблица ключевых слов содержит термины и их уникальные идентификаторы (kwdID). Таблица с заголовками страниц ставит в соответствие каждому идентификатору страниц pageID название этой страницы. Таблица с датами изменения страниц фиксирует для каждой страницы pageID дату последнего посещения этой страницы индексационным роботом (т. е. дату индексации этой страницы). Она используется при обновлении базы данных: если содержание страницы изменилось со времени последней индексации, ее следует проиндексировать заново. В этой таблице также хранятся даты модификации страURL – сокр. от англ. Uniform Resource Locator – унифицированный указатель информационного ресурса (стандартизованная строка символов, указывающая местонахождение документа в сети Интернет). 1
33
ниц. Эта информация используется при ранжировании результатов поиска не по релевантности, а по дате. Таблица гиперссылок определяет для каждой страницы список входящих и исходящих гиперссылок. Входящими называются такие ссылки, которые находятся на других страницах, а ссылаются на данную, а исходящими – ссылки, которые находятся на данной странице, а ссылаются на другие. Таблицы, содержащие информацию о ссылках, необходимы по двум причинам. Во-первых, они используются индексационными роботами при сканировании сети Интернет. Во-вторых, было установлено, что документы, объединенные гиперссылками, содержат также и много одинаковых индексационных терминов. Результаты поиска можно улучшить, добавляя к документам, описываемым идентификаторами терминов, информацию об их гиперссылках []. Таблица, называемая прямым списком, содержит список ключевых слов (kwdID) для каждой страницы (pageID). Эта таблица используется для вычисления частоты встречаемости термина в документе
(TF ) i
и определения весов терминов, а также
в алгоритмах обратной связи по релевантности и в функциях поддержки и актуализации массива индексированных документов. Таблица – инвертированный список содержит для каждого ключевого слова (kwdID) список страниц (pageID), в которых это слово встречается. Кроме того, здесь указывается позиция (порядковый номер) данного термина в странице. Эта информация используется в тех запросах, где важным является взаимное расположение слов (контекстный поиск). Например, когда идет поиск по запросу «операционная система», важно получить не просто все документы, в тексте которых присутствуют термины «операционная» и «система», а только те, в которых эти два слова расположены друг за другом, т. е. объединены во фразу. Отметим, что схема, приведенная на рис. Рис. 10, не является наиболее эффективной с точки зрения производительности ИПС. Она описывает лишь общий принцип хранения информации, который призван обеспечить максимальную полноту и точность поиска [, 36, ]. В ходе выполнения поискового алгоритма термины из запроса тем или иным способом сравниваются с терминами из инвертированного списка. Далее формируется результирующий список страниц (заголовок, адрес, краткая аннотация, дата индексации и т. д.), который поисковая система возвращает пользователю.
34
Для ускорения доступа к базе данных поисковых образов веб-документов применяются механизмы индексации1 и хеширования2. Часто для хранения и обработки описаний документов используются системы управления базами данных (СУБД). В таких случаях поиск по базе данных осуществляется с использованием встроенных средств СУБД [].
Список рекомендуемой литературы 1.Добрынин В. Ю. Теория информационно-логических систем. Информационный поиск: Метод. указания к курсу информационного поиска. – СПб. : Изд-во СПбГУ, 2002. 2.Дубинский А. Г. Некоторые вопросы применения векторной модели представления документов в информационном поиске // Управляющие системы и машины. – 2001. – № 4. 3.Капустин В. А. Основы поиска информации в Интернете. Методическое пособие. – СПб. : Институт "Открытое общество", С.-Петерб. отд-ние, 1998. 4.Когаловский М. Р. Перспективные технологии информационных систем. М. : ДМК Пресс : Компания АйТи, 2003. 5.Кромер В. В. Об одной поправке к каноническому закону // Телеконференция "Информационные технологии в гуманитарных науках". – Казань, 1998. 6.Кураленок И. Е. Оценка систем текстового поиска / И. Е. Кураленок, И. С. Некрестьянов // Программирование. – 2002. – № 4. 7.Некрестьянов И. С. Системы текстового поиска для Веб / И. С. Некрестьянов, Н. Пантелеева // Программирование. – 2002. – № 4. 8.Попов А. Поиск в Интернете – внутри и снаружи // Internet. – 1996. – № 2. 9.Сегалович И. В. Как работают поисковые системы // Мир Internet. – 2002. – № 10. 10.Солтон Дж. Динамические библиотечно-информационные системы. – М. : Мир, 1979. 11.Храмцов П. Информационно-поисковые системы Internet // Открытые системы. – 1996. – № 3(17). 12.Храмцов П. Моделирование и анализ работы информационно-поисковых систем Internet // Открытые системы. – 1996. – № 6(20). 13.Чугреев В. Л. Модель структурного представления текстовой информации и метод ее тематического анализа на основе частотно-контекстной классификации: дис. … канд. техн. наук: 05.13.01 / С.-Петерб. гос. электротехн. ун-т им. В.И. Ульянова (Ленина) “ЛЭТИ”. – СПб., 2003. 14.Чурсин Н. Н. Популярная информатика. – Киев. : Техника, 1982.
Индексация – средство, ускоряющее поиск и сортировку в таблице за счет использования ключевых значений, что позволяет обеспечить уникальность строк таблицы. 2 Хеширование – алгоритм, в ходе выполнения которого для сохраняемых объектов генерируется специальный указатель (хеш-код), используемый впоследствии для индексации массива указателей. 1
35
15."Электронные библиотеки: перспективные методы и технологии, электронные коллекции", всерос. науч.-практ. конф. (5 ; 2003 ; СПб.) Сборник трудов пятой всероссийской научной конференции "Электронные библиотеки: перспективные методы и технологии, электронные коллекции", 29 – 31 октября 2003 г. / науч. ред. Л. А. Калиниченко. – СПб, 2003. 16.Baeza-Yates R. Modern Information Retrieval. / R. Baeza-Yates, B. Ribeiro-Neto // ACM Press Series – New York : Addison Wesley, 1999. – http://citeseer.ist.psu.edu/baezayates99modern.html. 17.Brin S. The Anatomy of a Large-Scale Hypertextual Web Search Engine / S. Brin., L. Page // Computer Networks and ISDN Systems. – 1998. – № 30 18.Carmel D. Probabilistic Models of Information Retrieval // D. Carmel, A. Soffer/ – Israel : Haifa University, 2003. 19.Draper S. Mizzaro's Framework for Relevance. – 1998.– http://www.psu.gla.ac.uk/ ~steve/stefano.htm. 20.Dumais S. T. Using Latent Semantic Indexing (LSI) for Information Retrieval, Information Filtering, and Other Things. // Talk at Cognitive Technology Workshop. – April 4-5, 1997. 21.Gabrielli S. Negotiating a Multidimensional Framework for Relevance Space / S. Gabrielli., S. Mizzaro // Proc. of the MIRA'99. – 1999. 22.Greisdorf H. Relevance: An Interdisciplinary and Information Science Perspective. Informing Science, N3 (2), 2000. 23.Hofmann T. Probabilistic Latent Semantic Indexing. In 22nd Annual International ACM SIGIR Conference on Research and Development in Information Retrieval, Berkeley, CA, USA, 1999. 24.Indexing by Latent Semantic Analysis / S. Deerwester [and others] // Journal of the American Society for Information Science. – 1990. – № 41(6), 25.Landauer T. K. Fully Automatic Cross-Language Document Retrieval Using Latent Semantic Indexing. / T. K. Landauer, M. L. Littman. // Proceedings of the Sixth Annual Conference of the UW Centre for the New Oxford English Dictionary and Text Research. – Waterloo (Ontario), 1990. 26.Lin J. J. Indexing and Retrieving Natural Language Using Ternary Expressions // Master's Thesis of Massachusetts Institute of Technology. – 2001. 27.Mizzaro S. How Many Relevances in Information Retrieval? // Interacting With Computers. – 1998. – № 10(3). 28.Mizzaro S. Relevance: The Whole History // Journal of the American Society of Information Science/ – 1997. – № 48(9). 29.Pinkerton B. Finding What People Want: Experiences with the WebCrawle. // Proc. of the 2nd World Wide Web conference. – 1994. 30.Robins D. Interactive Information Retrieval: Context and Basic Notions // Informing Science. – 2000. – № 3(2). 31.Saracevic T. Relevance Reconsidered ‘96 // Proc. of the Second Conference on Conceptions of Library and Information Science (CoLIS 2). – Copenhagen, 1996.
36
32.Searching the Web. / A. Arasu, [and others] // ACM Trans. on Internet Technology/ – 2001. – № 1(1). 33.Singhal A. A Case Study in Web Search Using TREC Algorithms / A. Singhal, M. Kaszkiel // Proc. of the 10th International World Wide Web Conference. – Hong Kong, 2001. 34.Sparck J. K. A Probabilistic Model of Information Retrieval: Development and Comparative Experiments / J. K Sparck, S. Walker, S. E. Robertson // Information Processing and Management. – 2000. – № 36(6). 35.Sparck J. K. Reflections on TREC. // Information Processing & Management. – 1995. – № 31. 36.Vakkari P. Cognition and Changes of Search Terms and Tactics During Task Performance: A Longitudinal Study // Proc. of the RIAO 2000 Conference. – Paris, 2000. 37.Wallis P. Relevance Judgements for Assessing Recall / P. Wallis, J. A. Thom // Information Processing & Management. – 1996. – № 32(11). 38.Wiemer-Hastings P. How Latent is Latent Semantic Analysis? / P. Wiemer-Hastings, K. Wiemer-Hastings, A. Graesser // Proceedings of the Sixteenth International Joint Congress on Artificial Intelligence/ – San Francisco, 1999. 39.Yuwono B. A World Wide Web Resource Discovery Systems / B. Yuwono, S. L. Y. Lam, J. H. Ying, D. L. Lee. // World Wide Web Journal. – 1996. – № 1(1). 40.Yuwono B., Lee D. Search and Ranking Algorithms for Locating Resources on the World Wide Web / B. Yuwono, D. Lee // Proc. of the 12th International Conference on the Data Engineering. – New Orleans (Louisiana), 1996.