Тематический метапоиск (тематический метапоисковый робот, автоматический брокер межбазового полнотекстового поиска, автоматизированный сценарий поиска информации во многих базах данных, поиск в невидимом Интернет)

Subject metasearch (subject federated search robot, automated full text federated retrieval broker, multiply databases information retrieval scenario, Invisible Web search)

 1. Введение
 2. Процедура развития и функционирования
     2.1. Учет доступных форм для ввода поисковых запросов
     2.2. Функциональное тестирование поисковой системы
     2.3. Содержательное тестирование поисковой системы
         2.3.1. Собственная база текстов
     2.4. Формирование реестра баз данных для конкретного поиска
     2.5. Выполнение запроса на тематический метапоиск (параллельный поиск)
     2.6. Развитие сервиса
 3. Возможные бесплатные услуги
 4. Возможные коммерческие сервисы
 5. Конкурирующие проекты
 6. Уникальность
 7. Маркетинг и связи с общественностью
 8. Защита и оплата использования объектов интеллектуальной собственности
 9. Проблемы и ограничения
 10. Первый пилотный проект
 11. Второй пилотный проект
 12. Третий пилотный проект

1. Введение. Тематический метапоиск (subject metasearch) - авторский проект автоматизации поиска, разведки через Интернет, поиска в Невидимом Интернет и документирования знаний будет работать как частично-бесплатный web-сервис или закрытый (корпоративный) сервис, обеспечивающий автоматический опрос сотен наилучших открытых баз данных с формированием единого отчета и устранением дублирований результатов.

Метапоиск - параллельный поиск по многим поисковым системам с консолидацией результатов и удалением дублей и, возможно, проверкой работоспособности ссылок и сохранением результатов.

Такой сервис может использовать внутренний (невидимый пользователю) универсальный язык поисковых запросов (Universal search query language, далее USQL). Такой язык поисковых запросов обеспечивает описание задач пользователя при поиске по собственной базе данных. Поиск по любой иной базе данных (прошедшей тестирование, см. далее) выполняется с использованием поисковых запросов, сформированных автоматическим транслятором с универсального языка запросов на язык запросов конкретной (точнее, любой) поисковой машины. Формирование и отладку поисковых запросов формата USQL обеспечивается виртуальными ассистентами, общающимися с пользователями и разработчиками на естественном языке.

Первоначальная база открытых источников для такого сервиса может составить порядка 2 млн. поисковых систем. Такая коллекция открытых источников обеспечивает доступ к информации на 110 естественных языках, являющихся официальными хотя бы в одной из стран мира. Реестр наилучших для конкретного поиска баз данных формируется автоматически "на лету" из миллионов поисковых систем. Для жителей конкретной страны может быть разработан пользовательский интерфейс на языке этой страны, а также будет реализован поиск со словоизменениями.

2. Процедура развития и функционирования. Как может создаваться и будет работать тематический метапоиск?

2.1. Учет доступных форм для ввода поисковых запросов (каталогизация поисковых систем, используемых в тематическом метапоиске). Автоматически опрашиваются

Предметом такого опроса является проверка наличия формы для ввода поискового запроса и определения технических характеристик такой формы. Если форма запроса на поиск на головной странице сайта не обнаружена, делается попытка найти карту сайта и на ней ссылку на страницу с поисковой формой. Работы планируются с учетом пожеланий партнеров и клиентов.

2.2. Функциональное тестирование поисковой системы. Если форма для ввода поискового запроса обнаружена, проводится автоматическое тестирование ее функциональности (робот направляет не более 10000 тестовых запросов). В результате обработки результатов таких запросов заполняет компактное описание возможностей поисковой системы (см. пример). Один из тестовых запросов предназначен для поиска описаний (руководств пользователя) поисковой системы. Если обнаружены какие-либо описания поисковой системы, они ставятся в очередь ручного тестирования соответствия. Ручное тестирование соответствия выполняется, как правило, только для основных поисковых систем конкретного сегмента Интернет, лидирующих по числу проиндексированных документов, например, избранных автором http://www.5186364.ru/search-query-patterns.htm#3.

2.3. Содержательное тестирование поисковой системы. Для каждой типовой задачи поиска готовится система запросов на конкретном естественном языке для оценки числа документов, интересных для решения типовой задачи и доступных через конкретную поисковую систему. Эти данные в дальнейшем регулярно обновляются и учитываются в процессе автоматического формирования реестра баз данных, пригодных для решения типовой задачи. Некоторые критерии отбора поисковых систем см. в статье "Невидимый Интернет для бизнеса" http://www.invisibleweb.ru/#3.1.2.

2.3.1. Собственная база текстов. Для содержательного тестирования "на лету" в процессе решения произвольных (нетиповых) задач в собственную базу данных могут сохраняться не менее 10% и не более миллиона доступных записей из конкретной поисковой системы (базы данных). Собственная база данных может использоваться для мгновенного формирования результатов бесплатных поисков (на основе собственного полнотекстового индекса) и быстрой трансляции запросов с универсального языка на язык запросов конкретной поисковой системы. Открытой является задача подбора или разработки технологической поисковой системы для осуществления полнотекстового поиска и анализа по собственной базе. Некоторые требования см. в статье "Технологическая основа базы знаний" http://www.knowbase.ru/tech-platform-for-knowledge-base.htm.

2.4. Формирование реестра баз данных для конкретного поиска. В результате содержательного тестирования (п.3) поисковых систем появляется возможность автоматического формирования реестра баз данных, в наибольшей степени подходящих для решения любой задачи поиска. Для бесплатного тематического метапоиска используется реестр минимального объема (несколько десятков поисковых систем). Число поисковых систем в реестре зависит от тарифного плана и в принципе может быть любым. С увеличением числа поисковых систем, используемых в конкретном поиске, растет полнота поиска и, соответственно, стоимость результатов обработки поискового запроса.

2.5. Выполнение запроса на тематический метапоиск (параллельный поиск).

2.6. Развитие сервиса может вестись:

3. Возможные бесплатные услуги.

Безвозмездно может (а из соображений маркетинга и обязательно должен) быть доступен с сайта разработчика (после обязательной регистрации) тематический метапоиск в следующих вариантах:

  1. по произвольной задаче с использованием ограниченного числа динамически выбираемых баз данных;

  2. с использованием бесплатных вариантов любых коммерческих сценариев поиска;

  3. с использованием всех некоммерческих (социальных) сценариев поиска.

Обязательно предоставление услуг бесплатного размещения поисковых форм метапоиска на любых сайтах.

Кроме того журналистам, чиновникам, преподавателям, учебным заведениям и другим потенциальным агентам вирусного маркетинга должны бесплатно предоставляется отдельные коммерческие возможности службы тематического метапоиска.

В качестве средства расширения возможностей, повышения конфиденциальности и убыстрения работы тематического метапоиска пользователям, обеспеченным персональными компьютерами с подходящей операционной системой и неограниченным доступом в Интернет, может быть предложено установить специализированную настольную программу. Такая программа с согласия пользователя обеспечивает шифрование интернет-трафика и сохранение описаний проблем пользователя с возможностью повторного запуска, мониторинга и т.п.. Одновременно, такая программа в фоновом режиме выполняет запросы к ближайшим к пользователю внешним поисковым серверам, обрабатывает полученные результаты и отправляет их на сервер для дальнейшей обработки. Таким образом возможна реализация распределенной сети компьютеров для снижения трафика и скрытия его источника при опросе баз данных и скачивания их содержимого.

4. Возможные коммерческие сервисы. По подписке (за плату) могут предоставлять следующие дополнительные сервисы:

5. Конкурирующие проекты. Заголовок не совсем точный. Это выдающиеся интернет-проекты, в начале 2010 года как-то решающие отдельные подзадачи тематического метапоиска. Прямых конкурентов пока нет. Появление конкурентов возможно при одновременном решении всех задач из следующего раздела "Уникальность".

6. Уникальность.

7. Маркетинг и связи с общественностью.

8. Защита и оплата использования объектов интеллектуальной собственности.

9. Проблемы и ограничения.

Большинство успешных бизнесов, основанных на поиске в Интернет или предоставлении информации, например, Google или Яндекс,

10. Первый пилотный проект

Концепция.
Готовится Интернет-сервис полного и точного поиска русскоязычной информации по массиву более 3 млрд. страниц с параллельным использованием ведущих поисковых систем русского сегмента Интернет (статический реестр из восьми открытых поисковых систем). За счет ввода запроса на естественном языке и, возможно, диалога такой сервис пригоден для потребителей без знания Интернет (уровень старших классов средней школы). За счет быстрого поиска аналитических, узкоспециализированных и обзорных материалов, высокой полноты, точности и лаконичности результатов метапоиска существенно экономится время и силы пользователя, повышается результативность его работы. Это позволяет расширить спектр и повысить качество решений, которые успевают готовить доступные специалисты.
Варианты использования, ограничения и перспективы.
Коммерческое использование первого пилотного проекта возможно как по подписке (для работы русскоязычных специалистов), так и для выполнения заказов на создание корпоративных сайтов и/или тематических порталов, систем интернет-мониторинга (создание классифицирующих запросов силами слабо подготовленного, но достаточно мотивированного персонала).
Ограничения первого пилотного проекта - работа на статических реестрах предварительно подобранных и изученных поисковых систем одного языка с невозможностью менять логику отбора материалов при поиске (только аналогии) и одношаговый характер (т.е. найденные результаты не используются автоматически для дальнейшего поиска и нет табличного представления извлеченных результатов поиска).
Развитие первого пилотного проекта возможно в следующих направлениях:
* прямой тематический метапоиск на ограниченном числе поисковых систем другого языка (например, английского),
* прямой тематический метапоиск на ограниченном числе поисковых систем конкретной страны мира (например, Китая),
* прямой метапоиск на ограниченном числе тематических поисковых систем (например, околопатентной и научно-технической информации),
* прямой метапоиск на ограниченном числе поисковых систем по документами определенного типа (например, правовые акты или патенты).

11. Второй пилотный проект

Готовится Интернет-сервис метапоиска информации на выбранном языке (например, английском) с параллельным использованием сотен динамически (под задачу) выбираемых поисковых систем выбранного сегмента Интернет. За счет диалога на естественном языке такой сервис пригоден для потребителей без знания Интернет (но со знанием выбранного языка и, возможно, предметной области). За счет объединения результатов и автоматизации профессионального использования возможностей всех проблемно-ориентированных поисковых систем выбранного сегмента Интернет обеспечивается беспрецедентно высокая полнота поиска. Чем больше найдено материалов по теме, тем существеннее польза от использования этого сервиса за счет предоставления не всех подряд, а в первую очередь, аналитических (обзорных) статей.
Возможный состав работ второго пилотного проекта:
* Разработка технологии полностью автоматического функционального тестирования поисковых систем для выбранного языка, верификации, хранения и доступа к результатам такого тестирования.
* Разработка технологии полностью автоматического содержательного тестирования поисковых систем для выбранного языка и их частичной выгрузки в централизованное хранилище.
* Выбор стратегического партнера - производителя технологической поисковой системы для централизованного хранилища (возможные требования см. http://www.knowbase.ru/tech-platform-for-knowledge-base.htm).
* Доработка технологии прямого поиска (тематического отбора) поисковых систем для решения задачи потребителя.
* Доработка технологии прямого поиска (отбора) аналитических материалов.
* Доработка пользовательских интерфейсов и мастера прямого поиска аналогий для выбранного языка.
Ограничения второго пилотного проекта - работа только на одном языке, невозможность менять логику отбора материалов при поиске, стратегию поиска и одношаговый характер метапоиска.
Развитие второго пилотного проекта возможно в следующих направлениях:
* прямой метапоиск на всех поисковых системах другого иностранного языка (например, арабского),
* прямой метапоиск на всех поисковых системах конкретной страны мира (например, Тайваня),
* прямой метапоиск для тематических классификаторов (например, ОКЭВД или МПК),
* прямой метапоиск на всех поисковых системах по документами определенного типа (например, тендеры или работа).

12. Третий пилотный проект

Готовится Интернет-сервис метапоиска информации на любых официальных языках из перечня (например, английский, арабский, бенгальский, испанский, итальянский, китайский, корейский, немецкий, португальский, русский, французский, хинди, японский) с изменяемой стратегией поиска (прямой поиск, обратная стратегия, непрямой поиск по связям...), с изменяемой логикой отбора материала (аналогия, противоречия, фактография) и извлечением результатов для типовых задач с представлением в табличной или иной удобной для анализа форме.
Возможный состав работ третьего пилотного проекта:
* Доработка мастера прямого поиска аналогий на многих языках.
* Разработка мастера прямого поиска противоречий.
* Разработка мастера прямого поиска, извлечения и представления фактографической информации для типовых задач.
* Изучение непрямых и многошаговых статегий поиска и решения типовых задач основных потребителей (обратная стратегия, поиск по связям, многошаговые сценарии метапоиска...).
* Разработка мастера обратного поиска аналогий.
* Разработка мастера непрямого поиска по связям.
* Поиск, обучение и сертификация национальных партнеров.
* Доработка бизнес-модели сервиса "Тематический метапоиск", разработка публичной и технологической документации для клиентов, авторов и партнеров.
Фундаментальное ограничение третьего пилотного проекта - невозможность средствами полнотекстового поиска работать с нетекстовыми данными:
* двоичными файлами (изображения / звуки и их ряды, ноты, прикладные программы...),
* пространственными объектами (например, структурами Маркуша).
Развитие третьего пилотного проекта возможно в следующих направлениях:
* метапоиск на поисковых системах всех официальных языков мира,
* метапоиск только новостей, с сортировкой и ограничением по дате,
* метапоиск нетекстовых объектов, в том числе по метаданным (EXIF и т.п),
* генерация метаданных для всех материалов из централизованного хранилища и под заказ,
* метапоиск с привязкой к географическому положению потребителя и ограничением по местоположению серверов (идеально с использованием классификаторов административно-территориального деления стран мира),
* коммерческий метапоиск с использованием коммерческих служб баз данных.

Опубликовано по адресу: http://www.5186364.ru/subject-metasearch.htm
Дата последнего редактирования 28.10.2013
© Кузнецов Сергей Валентинович


Сайты (Сергей Кузнецов / Кузнецов С.В.):
Всепроникающее обучение
Исследование рисков и поиск возможностей через Интернет
Невидимый Интернет для бизнеса
Технологии производства баз знаний
Юридические исследования через Интернет
Бесплатные сервисы (Сергей Кузнецов / Кузнецов С.В.):
Поиск рыночных ниш через Яндекс
Выявление проблем через Яндекс
Поиск определений через Яндекс
Прочие генераторы поисковых запросов
Услуги (Сергей Кузнецов / Кузнецов С.В.):
Тематический мониторинг открытых источников
Профессиональный поиск информации
Поиск и мониторинг ниш на рынках
Технологические исследования через Интернет
Очные компьютерные тренинги
Дистанционное обучение
Об авторе: Резюме Сергея Кузнецова
Фотогалерея Сергея Кузнецова
Публикации и работы Сергея Кузнецова
Правила Сергея Кузнецова
Мифы о Сергее Кузнецове
Технологические работы Сергея Кузнецова
В разработке