Васисуалий в поисках знаний
В университет принято приходить за знаниями…

Многие осознают, что знание и информация – это разные вещи, и что знания можно добыть из информации. Некоторые задумываются о том, как это делать правильно и эффективно. Вы лично ежедневно решаете огромное число проблем на основе знаний, извлеченных из информации. Скорее всего, вы пользуетесь компьютером и Интернет- пространством.
А знали ли вы, что…

Сложные запросы

… можно в несколько раз увеличить эффективность поиска за счет специальных поисковых команд? Все популярные поисковые системы обладают так называемым языком сложных запросов. Этот язык позволяет поведать поисковой машине свои желания и тревоги относительно найденных документов. Приведем несколько примеров.
Начнем с российской поисковой системы Яндекс (www.ya.ru). Отличительной чертой Яндекса является большое количество поисковых операторов. Так, если ввести «продажа & сканеров && Красноярск», будут найдены страницы, где в одном предложении должны встретиться слова «продажа» и «сканеры», а также где угодно на странице должно быть слово «Красноярск». Яндекс находит 9 201 страницу, а если ввести просто «продажа сканеров Красноярск», то будет найдено 148 000 страниц. Сравните эти цифры.
Запрос «аэроплан/ самолет / планер / дирижабль / аэростат / вертолет / пепелац» найдет страницы, где встречается хоть одно из этих слов и избавит вас от мучительного сведения результатов поиска (7 запросов!) по летательным аппаратам.
Еще одна распространенная в России поисковая служба Google (www.google.ru) отличается системой операторов, которые определяют специфику документов для поиска.
Так запрос «Схемотехника filetype:pdf» вернет вам ссылки на документы в желаемом формате PDF (3 330 документов), а вот запрос «Схемотехника pdf» выдаст в качестве результата 1 190 000 страниц, многие из которых являются рекламными.
Запрос «link:sfu-kras.ru» покажет все страницы, содержащие ссылку на главную страницу портала СФУ. Их в базах Google примерно 260.
Приводить примеры можно долго.

Особые поисковые системы

…существуют системы мультипоиска. Многие из тех, кто плотно работает с информацией в Интернете, знают, что каждая поисковая система имеет уникальную базу данных. Следовательно, то, что не нашла одна система, могут найти другие. Однако вводить один и тот же запрос в 3-4 поисковиках довольно проблематично. Для поиска по русскоязычным документам эту проблему может решить Интеллектуальная поисковая система Нигма (http://nigma.ru). Все просто – она переадресует запрос сразу в 8 известных поисковых систем и выдаст суммарную информацию. Однако, почему интеллектуальная? Дело в том, что создатели Нигмы реализовали ряд технологий автоматизированного глубинного анализа текстов.
Нигма умеет делать автоматическую кластеризацию найденных документов, что позволяет, например, отделять страницы Интернет-магазинов от форумных сообщений. На данном этапе развития технология автокластеризации Нигмы оказывается полезной далеко не всегда. Будем ожидать появления интерфейса для создания собственных шаблонов кластеров и улучшения алгоритмов анализа.

Программный анализ текстов

… существуют программы, которые способны самостоятельно изготовить реферат любого текста. Одной из таких программ является TexlAnalyst российской компании «Микросистемы» www.analyst.ru (на сайте можно скачать демо-версию, которая работает с файлами размером до 100 кб).
Вы указываете программе нужный файл и получаете автореферат текста. Не следует ожидать, что программа подготовит пересказ текста своими словами. Она лишь взвесит слова, предложения и по особым алгоритмам составит цитатный реферат из самых значимых фрагментов текста. Но если ваша задача – составить представление о содержании трехсотстраничного документа, то получившаяся выжимка на 10 страниц во многих случаях сэкономит вам 3-4 часа.
Программа имеет множество настроек, которые дают возможность подучить ее выбирать нужные вам фрагменты.
Руководитель для шахтеров знаний
А еще существует «Скрытый веб», который недоступен для обычных поисковых систем. Существуют программы для извлечения и сопоставления фактов, алгоритмы построения эффективных поисковых запросов, автоклассификаторы для личных библиотек и многое другое.
В настоящий момент группа магистров и сотрудников СФУ закончила разработку методического руководства, которое содержит рекомендации и инструментальные описания доступных и эффективных технологий сложного поиска информации, глубинного анализа текстов и экстрагирования знаний.
Если вас заинтересовало то, о чем говорилось в этой заметке, вы можете отправить письмо на адрес neotime2005@mail.ru с кодовым словом «Васисуалий», мы вышлем вам руководство. Полностью данный документ можно найти на сайте СФУ http://research.sfu-kras.ru/yuong_proj/forsite.
P.S. Почему Васисуалий? … А вы попробуйте сформулировать такой поисковый запрос, чтобы результатом стала только одна страничка, содержащая слово «Васисуалий» (адреса страниц в тексте запроса использовать нельзя).

Александр Овчинников, магистр 1 курса Института математики СФУ
Средняя оценка: 1 (проголосовало: 2)