Анализ проекта “Глобальная служба поиска информации” в контексте российских и глобальных проблем Кузнецов Сергей Валентинович

2.1. Иллюзия № 1: Интернет - это библиотека, а данные - это контейнер с информацией типа знаменитого “черного ящика”. По мнению крупнейшего в мире по объемам продаж производителя систем управления базами данных - корпорации ORACLE не менее 90% (по числу единиц) критически важной информации поступает в виде текстов. Иные типы информации (менее 10%) в большинстве случаев имеют либо текстовую аннотацию, либо текстовое название, либо комплект метаданных в одном из корпоративных, национальных или международных стандартов.

2.2. Иллюзия № 2: Метаданные помогают быстро находить полную информацию в библиотеке или иной базе данных. По представительным исследованиям автора на крупнейшей в России библиографической базе данных Института научной информации по общественным наукам (ИНИОН) РАН < http://www.inion.ru > полнота информации, полученной с использованием метаданных типа “Рубрика ИНИОН” в сравнении с полнотекстовым поиском по библиографическим описаниям составляет 4-5%. Иначе говоря, используя поиск в тексте заголовка, аннотаций и ключевых словах, можно найти информации в 20 раз больше, чем через поле “Рубрика ИНИОН”. Заметим, что в ИНИОН РАН используется оригинальный иерархический классификатор на 5000 позиций. Аналогичная ситуация с известными полнотекстовыми базами правовой информации “КонсультантПлюс” < http://www.consultant.ru >. Не более 5% документов, которые можно найти поиском непосредственно в текстах, доступны с использованием метаданных - в данном случае классификатора правовой информации.

2.3. Иллюзия № 3: Метаданные к документам можно создавать в массовом порядке. По оценке автора не более 10% статических web-страниц имеют заполненными все HTML-поля (метаданные о документе - MetaTags). Обычно заполняются только основные поля “Заголовок” (Title) и ”Текст” (Text). Административными мерами переломить указанную тенденцию с учетом темпов роста числа Интернет-писателей и Интернет-издателей представляется мне полной утопией. По моим оценкам, стоимость формирования метаданных формата Z39.50 для одной книги превышает $30. Последние достижения в области искусственного интеллекта и компьютерной лингвистики не позволяют минимально корректно решать задачу авторубрицирования и автореферирования текстовой информации, тем более бесплатно. Автоматическое выявление в тексте “основных” тем и понятий лично мне очень сильно напоминает измерение средней температуры по госпиталю.

2.4. Иллюзия № 4: Реально привлекать бесплатных посредников для доступа к информации. В посттоталитарных государствах библиотечные и иные общедоступные государственные базы данных и институт бесплатных информационных посредников не живут в принципе. Просто у лиц, принимающих государственные решения, нет уважения к закону и гражданским правам, как и желания информировать граждан. Поэтому никогда нет для таких проектов денег. Исповедуется тоталитарный принцип: “Нет информации - нет проблемы”. А если какая-то информация все-таки идет, канал ее распространения рано или поздно перекрывается.

2.5. Иллюзия № 5: Существуют общепринятые библиографические стандарты. Ни в мире, ни в России нет единого подхода ни в области форматов библиографических описаний, ни в области их рубрицирования (тематические классификаторы). Автор провел испытания 50 библиографических баз данных российских библиотек. Единицы используют формат UNIMARK, в основном это нечто оригинальное (причина все та же - нищета российских учреждений культуры, поддержка международных стандартов требует средств). С рубрикаторами ситуация не менее интересная - используется масса оригинальных рубрикаторов (ИНИОН и др.), часть баз данных вообще рубрикации не имеет, некоторые используют международные стандарты (Десятичная классификация Дьюи, Универсальная десятичная классификация и др.), часть - иностранные рубрикаторы за гранты (библиотеки Конгресса США) и национальные стандарты (Государственный рубрикатор научно-технической информации, Библиотечно-библиографическая классификация и некоторые др.).

Глобальной Службы Поиска Информации < http://www.gils.org > в масштабе Интернет по существу нет. Что же есть?

3.1. Есть библиотечный протокол ANSI Z39.50 Американского института стандартов, разработанный для американской национальной Службы поиска правительственной информации / Government Information Locator Service (с той же аббревиатурой GILS < http://www.gils.net>) еще в 1993 году. А в 1995 году принята его последняя (третья) редакция - ANSI/NISO Z39.50-1995 и на ее основе приняты международные стандарты ISO 10163 / ISO 23950, ориентированные на работу с метаданными в библиотечных и иных базах данных. Протокол Z39.50 использует национальный библиографический формат USMARC и 8 классификаторов библиографической информации, из них только 2 международных (УДК и Дьюи).

3.2. За 7 лет существования протокола Z39.50 (заметный срок при фантастических темпах развития информационных технологий):

создан сайт GILS < http://www.gils.org>, содержащий минимум информации и в основном ссылающийся на материалы сайта Government Information Locator Service < http://www.gils.net>
создано всего 692 GILS-совместимых сервера, полный список см. < http://www.gils.net/list/index.html>, в том числе 44% - библиотеки, 40% - сервера учебных заведений, остальное - базы данных правительственных и общественные организаций. Это только 0.02% общедоступных серверов, т.е. капля в море Интернет, для сравнения см. п.1.1;
несмотря на официальные рекомендации даже в США указанный протокол не является общепринятым. На днях Президент США с гордостью представил американской общественности проект Управления Делами Президента - официальный сервер Правительства < http://www.firstgov.gov >, обеспечивающий гражданам прозрачный доступ более, чем к 27 млн. web-страниц органов исполнительной власти федерального уровня. Таким образом поставленная американскими участниками семинара задача публичного доступа к разнородным ресурсам на их родине решена с использованием общепринятого протокола HTTP на основе полнотекстового поиска.

3.3. Указанные протоколы не поддержаны ни одним из мировых производителей программ - обозревателей страниц Интернет (browsers). Редкие GILS-совместимые сервера, например, Amarilio National Resource Center for Plutonium. Electronic Resource Library с экзотическим адресом типа <z3950s://hlc.actx.edu:210/MARION> ни MS Internet Explorer, ни Netscape Navigator не видят. Из международных нормативов этого класса (их не менее 6) наиболее распространенным стандартом формирования метаданных является Dublin Core MetaData, полностью совместимый с общепринятым протоколом HTTP и реализуемый стандартными средствами языка гипертекстовой разметки HTML.

4.1. В России в ближайшей перспективе подобный проект не имеет никаких шансов. Однако я не исключаю, что кто-нибудь любезно согласится потратить американские правительственные гранты. В общем, надо понимать, что, как говорил один российский сатирик: “Здесь Вам - не там”. А там (в США) Министерство обороны и иные органы власти регулярно и аккуратно публикуют массу сведений о своей деятельности (например, все бюджетные контракты). Что меня просто восхищает. В России по понятным причинам подобные сведения де факто считаются государственной тайной.

4.2. Поставленная американскими участниками задача облегчения доступа широкой публики к разнородным ресурсам через Интернет достойна всяческих похвал. Однако такая задача должна решаться с учетом интересов всех субъектов доступа (не только США и американских граждан), причем при минимальных бюджетных вливаниях. Например, авторами концепции совершенно ничего не предложено в области снятия языкового барьера, нет никаких экономических оценок, нет учета национальных особенностей и менталитета. Все возрастающая стоимость Интернет-проектов и парадоксы Интернет-экономики не позволят без опоры на национальный частный сектор (читай - интерес) реализовать проекты такого масштаба. Все они будут просто нерентабельны. В завершении - немного конструктива.

4.3. Публичный доступ к глобальной информации через Интернет реально можно организовать только руками самой публики, точнее самоорганизующихся сообществ по интересам.

Интернет сам по себе является саморегулируемой средой и дает тому массу примеров. В частности, крупнейший оригинальный поисковый каталог Интернет на 1.5 млн. аннотированных web-страниц Open Directory Project < http://dmoz.org > создали и поддерживают на общественных началах более 25.000 добровольцев. Так вот, объединяющий сообщества интерес может быть государственным (борьба с терроризмом ... гармонизация законодательства ...), местными (муниципальные сообщества...), профессиональным (образование, трудоустройство, трудовые права ...), научным, политическим (общественные объединения, партии ...), меркантильным (е-коммерция ...), личным (хобби, гражданские права, безопасность жизни, досуг, спорт, здоровье ...), этническим (сохранение национальной идентичности, культуры, языка ...), религиозным и др.

Таким информационным сообществам нужно дать всего лишь умения систематизировать область своего интереса и практически бесплатно “привязать” поисковыми запросами каждую волнующую проблему к лучшим ресурсам Интернет. В результате силами сообщества создается либо недорогой следящий каталог или более мощная база знаний. Тогда одним щелчком мыши заинтересованное лицо сможет в любое время дня и ночи из любой точки мира на родном языке получать все, что нужно из Интернет.

В этой связи основные усилия государства для поддержки и стимулирования публичного доступа к глобальной информации на наш взгляд стоит сосредоточить на разработке открытых рекомендаций и стандартов проектирования проблемно-ориентированных классификаторов и интерфейсов к ним, а также поисковых систем Интернет. Особого внимания заслуживает развитие техники создания поисковых запросов, доступных для полной автоматизации эпизодического поиска и рубрицирования полных текстов и любых метаданных, а также качество информационного обслуживания и сертификация производства следящих каталогов и баз знаний. Все это может широко внедряться путем создания недорогих или бесплатных (дотационных) дистанционных курсов для массового обучения и сертификации заинтересованных лиц через Интернет [9].

4.4. Наши оригинальные ноу-хау и методологии для решения проблемы глобального публичного доступа к информации описаны в системе учебных курсов “Поддержка принятия решений с использованием ресурсов Интернет” [12] и некоторые авторских публикациях на смежные темы (см. прилагаемый список). В настоящее время разработаны:

техника проектирования проблемно-ориентированных классификаторов [2,3,9,12];
техника построения вопрос-ответного интерфейса (на заданном естественном языке) к классификатору [2,10,11,12];
методы извлечения и документирования знаний (из массива полных текстов или совокупности метаданных) [3,4,5,6,12];
техника формирования лексического образа понятия на заданном естественном языке для заданной системы поиска [1,3,12];
техника переноса лексического образа понятия с заданного на иные естественные языки для заданной системы поиска[12];
подходы и приемы формирования проблемно-ориентированных запросов на заданном естественном языке для заданной системы поиска [1,12];
подходы и приемы формирования проблемно-ориентированных запросов для всех (любых) систем поиска, работающих с текстами на заданном естественном языке[1,12];
проблемно-ориентированный выбор лучших ресурсов Интернет (поисковых систем и каталогов, баз данных, сайтов) [7,12];
автоматическое направление запросов поисковым системам, слежение за появлением новых ресурсов Интернет и иные приемы Интернет-мониторинга [12].

4.5. Важная для потребителя информация формируется “на лету” с использованием лучших ресурсов и предоставляется по разовому требованию (эпизодический доступ) или на регулярной основе (периодическая доставка по электронной почте). Она представляет собой проблемно-ориентированные подборки ссылок на:

полные тексты с элементами мультимедиа (звуки, изображения) с возможностью выделения
новостей [12],
определений основных понятий [4],
справочной информации,
документов нормативного характера [5,8,11],
учебных материалов, курсов и тестов [9],
иных текстов (научных, художественных ...)
библиографические описания традиционных изданий с аналогичным делением, возможно снабженные метаданными [6];
нетекстовые электронные данные (звуки, изображения, числа и их массивы и ряды...), снабженные метаданными или аннотациями [10].

4.6. Пока что мне видятся только два варианта реализации системы глобального публичного доступа. Первый (относительно недорогой) вариант - это публичные и персональные следящие иерархические каталоги в виде дерева рубрик. Для их бесплатного создания есть все, требуется только пройти обучение. Второй вариант сложнее и дороже. Публичные и корпоративные следящие базы знаний с вопрос-ответным интерфейсом можно создавать только на основе систематизированного информационного хранилища. Это под силу только государству, корпорациям и мощным сообществам. Но они обеспечивают совершенно другой уровень обслуживания и широкий спектр устройств доступа (голосовой телефон, WAP-терминал, сенсорный терминал, пейджер, чайник и иные вычислительной техники и связи, а также бытовые приборы). Компактная подборка решений поставленной проблемы формируется с заданной степенью логического обобщения в диалоге с потребителем причем на его родном языке.

Кузнецов С.В. “Поиск в полнотекстовых базах данных на основе лексического образа проблемы” В сб. Государственной Думы РФ “Правовой классификатор и правовой тезаурус в законотворчестве и юридической практике”, Изд. отдел Упр. делами ГосДумы РФ, М., Екатеринбург, 1998.
Кузнецов С.В., Титов В.В. “Классификация: системно-морфологический подход”, М., РНЦ “Курчатовский институт”, препринт ИАЭ-6075/1, 1998.
Кузнецов С.В. “Доступ к текстовой информации” В сборнике материалов 5-й Международной научно-практической конференции "Виртуальный мир Инфосферы: практическое использование человеком", Владивосток, Владивостокский филиал Российской таможенной академии, 1998.
Кузнецов С.В. “Определение понятий” Доклад 30.07.1999 на Экспертном Совете по систематизации и кодификации правовой информации при Председателе Государственной Думы ФС РФ.
Кузнецов С.В. глава 13 “Информационные технологии в законопроектной деятельности” в книге “Законодательная техника”, М. Городец, 2000.
Кузнецов С.В. раздел III “Информационные технологии для обеспечения финансовой устойчивости центров правовой информации” в материалах Всероссийского совещания “Публичные центры правовой информации на базе публичных библиотек”, Тула, 25-26 апреля 2000 г.
Кузнецов С.В. “Методика оценки баз правовой информации” в российско-французском сборнике “Информатика и право”, Н. Новгород, Издательство Нижегородского госуниверситета, 2000.
Кузнецов С.В. “Доступ к правовой информации в России” в российско-французском сборнике “Информатика и право”, Н. Новгород, Издательство Нижегородского госуниверситета, 2000.
Кузнецов С.В. “Открытые технологии образования” в сборнике НИИ образовательных технологий “Научное обеспечение открытого образования”, №, 1, Москва, МЭСИ, 2000.
Кузнецов С.В. “Интернет следующего поколения”, Доклад на Международном конгрессе “ИНТЕРНЕТ в образовании, экономике и искусстве”, Москва, Российский университет дружбы народов, 19-21 января 2000 года.
Кузнецов С.В. “Базы правовых знаний - новое поколение средств доступа граждан к правовой информации через Интернет.” Доклад на международном семинаре - круглом столе "Кодификация законодательства как способ доступа граждан к правовой информации", 9-10 марта 2000 г., Санкт-Петербург.
Кузнецов С.В. Программа учебного курса “Поддержка принятия решений в использованием ресурсов Интернет”.

Опубликовано по адресу: http://www.5186364.ru/gils_analysis_in_russian_global_contexts.html
Дата последнего редактирования 09.04.2025
© Кузнецов Сергей Валентинович