Поисковая формула (формула поискового запроса) шаблон поиска маска поиска Search pattern (search query pattern) Кузнецов Сергей Валентинович

Поисковая формула (формула поискового запроса)

Search pattern (search query pattern)

1. Введение в поисковые формулы
2. Определение термина "Поисковая формула"
3. Избранные открытые источники, для которых поисковыми формулами генерируются запросы
4. Объем и полнота информации, доступной через избранные открытые источники
5. Рекомендуемый вариант оформления поисковых формул
6. Примеры поисковых формул
7. Размещение поисковых формул
8. Применение поисковых формул

1. Введение в поисковые формулы

Рутинные (не требующие значительной рефлексии) операции поиска и обработки информации, неоднократно выполняемые аналитиком в процессе подготовки очередного проекта,

К таким трудоемким операциям можно отнести:

Одним из выходов из такого положения является документирование поисковых запросов и решений повторяющихся задач поиска по открытым источникам в форме поисковых формул и иных типов инструментов автоматизации поисково-аналитической работы.

2. Определение термина "Поисковая формула"

Поисковая формула, формула поискового запроса (search query formula, search formula) - логическая конструкция запроса для конкретной поисковой системы, содержащая только операторы, параметры и, возможно, регулярные выражения. В отличие от поискового шаблона формула поискового запроса не содержит никакой лексики и может быть использована для работы с текстами на любом языке. При попытке исполнения в качестве поискового запроса незаполненная формула, как правило, вызывает ошибку. Работающий поисковый запрос получается редактированием поисковой формулы (заменой параметров на конкретные значения). Для этого формула загружается в текстовый редактор (например, Блокнот или MS Word) и все параметры последовательно заменяются на значения пользователя, образуя работающие поисковые запросы. В авторской системе программирования запросов полнотекстовых поисковых систем все параметры поисковых формул начинаются с символа "#". Отсутствие символа "#" свидетельствует о корректном заполнении поисковой формулы.

3. Избранные открытые источники, для которых поисковыми формулами генерируются запросы

Поисковые формулы для генерации проблемно-ориентированных запросов подготавливаются для автоматизации оперативной работы с информацией для следующих приемлемых поисковых системах Интернет:

Русский язык (RU)

  • http://www.aport.ru (110+ млн. русскоязычных текстов с бесплатным поиском и доступом к текстам);

  • http://www.google.ru (800+ млн. русскоязычных текстов с бесплатным поиском и доступом к текстам, см. компактное описание Google);

  • http://www.integrum.ru (300+ млн. русскоязычных записей - коммерческая служба баз данных "Интегрум");

  • http://www.bing.com (220+ млн. русскоязычных текстов с бесплатным поиском и доступом к текстам);

  • http://www.nigma.ru/ (метапоисковая система, 1600+ млн. русскоязычных текстов с бесплатным поиском и доступом к текстам);

  • http://www.public.ru (30+ млн. русскоязычных текстов - коммерческая служба баз данных "Публичная интернет-библиотека" с бесплатным поиском, только бумажные издания в электронном виде, компактное описание доступно обладателям соответствующих лицензий).

  • http://www.rambler.ru (600+ млн. русскоязычных текстов с бесплатным поиском и доступом к текстам, компактное описание доступно обладателям соответствующих лицензий);

  • http://www.yandex.ru (500+ млн. русскоязычных текстов с бесплатным поиском и доступом к текстам, см. компактное описание Яндекс). Информационная система "Парк" http://is.park.ru (6+ млн. русскоязычных текстов - коммерческая служба баз данных, поисковый модуль - Яндекс).

Английский язык (EN)

Указанные поисковые системы также поддерживают поиск текстов на следующих языках (кроме английского и русского): африкаанс (afrikaans), албанский (albanian), ахмарский (amharic), арабский (arabic), армянский (armenian), азербайджанский (azerbaijani), бхаса (bahasa, Indonesia), бангла (bangla, India), бакский (basque), bhojpuri (India), боснийский (bosnian), бретонский (breton), болгарский (bulgarian), белорусский (byelorussian), каталанский (catalan), chamorro (Guam), китайский упрощенный (chinese simple), китайский традиционный (chinese traditional), хорватский (croatian), cymraeg, чешский (czech), датский (danish), эстонский (eesti), эсперанто (esperanto), faroese, фарси (farsi, persian), филиппинский (filipino), frisian (Germany), gaeli scots, gaelic irish, galician, грузинский (georgian), греческий (greek), гуарани (guarani), хинди (hindi, India), венгерский (hungarian), исландский (icelandic), каннада (kannada, India), курдский (kurdish), кыргызский (kyrgyz), лаосский (laothian), латинский (latina), латвийский (latvian), македонский (macedonian), malayalam (India), мальтийский (maltese), marathi (India), melayu bahasa, монгольский (mongolian), непальский (nepali), норвежский (norwegian), nynorsk (Norway), occitan, oriya (India), португальский (portuguese), punjabi (India), romanche, румынский (romanian), сербский (serbian), сербохорватский (serbo-croatian), sesotho, sindhi (India), sinhala, словацкий (slovak), словенский (slovenian), сомали (somali), испанский (spanish), sundanese (Indonesia), суахили (swahili), шведский (swedish), тамильский (tamil), telugu (India), тайский (thai), tigrinya, турецкий (turkish), туркменский (turkmen), twi, уйгурский (uighur), украинский (ukrainian), урду (urdu, India), узбекский (uzbek), вьетнамский (vietnamese), xhosa, идиш (yiddish), зулу (zulu) и др..

4. Объем и полнота информации, доступной через избранные открытые источники

По оценке автора по состоянию на май 2008 года совокупное объем проиндексированной информации всех служб перечисленных выше поисковых систем составляет 2+ млрд. русскоязычных документов. В англоязычном сегменте Интернет можно полагать доступными через перечисленные выше поисковые системы 15+ млрд. англоязычных текстов. Это много или мало?

Всегда помните, что лучшие поисковые системы Интернет обеспечивают индексирование не более 5% материалов, доступных через открытые источники Интернет. Для увеличения полноты сбора информации применяйте технологии "Невидимый Интернет", в частности, находите и используйте иные проблемно-ориентированные открытые источники.

5. Рекомендуемый вариант оформления поисковых формул

1. Формулировка задания на поиск, сфера применения поисковой формулы и оценка объема изучаемой информации

1.1. Используемые термины

1.2. Описание проблемы, как она дана

1.3. Язык или языки текстов и оценка текущего объема изучаемой информации

1.4. Ограничения (когда формулу применять бессмысленно, и рекомендации по поиску без формул)

2. Описание параметров поисковой формулы (выделяются жирным красным)

2.1. значение (смысл) параметра

2.2. сложность и особенности заполнения параметров для отдельных поисковых систем в примерах

2.3. предельное (максимальное) число подставляемых символов (допустимая длина параметра)

2.4. предельный объем лексического контекста.

3. Тексты поисковых формул. При любых вариациях заполнения параметров (как правило, более одного слова) формулы для конкретных поисковых систем предпочтительно готовить в виде отдельных документов.

4. Возможности расширения источниковой базы для выполнения задания на поиск:

4.1. частные рекомендации по использованию технологии "Невидимый Интернет для бизнеса" для решения задачи п.1.2.

4.2. статический реестр специализированных баз данных

4.3. запросы / формулы для поиска / мониторинга дополнительных баз данных для решения задачи п.1.2.

5. Гарантийные обязательства и отказ от ответственности

6. Горячая линия (написать об ошибке) - инструкция по заполнению

7. Копирайт и условия лицензирования

8. Возможности обучения

6. Примеры поисковых формул

  1. Поисковая формула "Персональная информация" http://www.onlineci.ru/1125.htm (бесплатный вариант)

7. Размещение поисковых формул

Коммерческие варианты поисковых формул развиваются и поддерживаются автором в актуальном состоянии и доступны владельцам соответствующих лицензий в следующих разделах базы данных "Рабочее место аналитика":

NC-3 Интернет-разведка

8. Применение поисковых формул

Полная автоматизация заполнения поисковых формул (возможно вместе с поисковыми шаблонами и реестрами баз данных) может быть реализована в сценариях поиска и тематическом метапоиске.

Для получения удовлетворительного результата поисковые формулы (включая общедоступные демонстрационные версии) нужно корректно заполнить и при необходимости модифицировать. Это требует некоторой подготовки, которую можно получить самостоятельно по доступным авторским материалам, или пройдя подходящее Вам обучение (направления и варианты обучения технологиям разведки через Интернет см. http://www.u-learning.ru/contentedu.htm)

1. Введение в поисковые формулы
2. Определение термина "Поисковая формула"
3. Избранные открытые источники, для которых поисковыми формулами генерируются запросы
4. Объем и полнота информации, доступной через избранные открытые источники
5. Рекомендуемый вариант оформления поисковых формул
6. Примеры поисковых формул
7. Размещение поисковых формул
8. Применение поисковых формул

Опубликовано по адресу: http://www.5186364.ru/search-query-formulas.htm
Дата последнего редактирования 22.07.2015
© Кузнецов Сергей Валентинович


Сайты (Сергей Кузнецов / Кузнецов С.В.):
Всепроникающее обучение
Исследование рисков и поиск возможностей через Интернет
Невидимый Интернет для бизнеса
Технологии производства баз знаний
Юридические исследования через Интернет
Бесплатные сервисы (Сергей Кузнецов / Кузнецов С.В.):
Поиск рыночных ниш через Яндекс
Выявление проблем через Яндекс
Поиск определений через Яндекс
Прочие генераторы поисковых запросов
Услуги (Сергей Кузнецов / Кузнецов С.В.):
Тематический мониторинг открытых источников
Профессиональный поиск информации
Поиск и мониторинг ниш на рынках
Технологические исследования через Интернет
Очные компьютерные тренинги
Дистанционное обучение
Об авторе: Резюме Сергея Кузнецова
Фотогалерея Сергея Кузнецова
Публикации и работы Сергея Кузнецова
Правила Сергея Кузнецова
Мифы о Сергее Кузнецове
Технологические работы Сергея Кузнецова
В разработке