Выступление Кузнецова С.В. (Инвента) на российско-американском семинаре
“Глобальная служба поиска информации: концепция, программа, результаты, перспективы”
Государственная Дума ФС РФ, Гербовый зал, 3-4 октября 2000 г.
Анализ проекта “Глобальная служба поиска
информации”в контексте российских и глобальных проблем
GILS analysis in russian &
global contexts
Всегда найдутся эскимосы, которые выработают
для жителей Конго инструкцию,
как вести себя во время жары.
С.Лец
1. Что такое Интернет в натуре? 1.1. Согласно докладу INKTOMI
на начало 2000 года Интернет - это более 1 млрд. общедоступных документов,
расположенных на 4 млн.
активных серверов.
1.2. А в
корпоративном обзоре от 26 июня 2000 года “BrightPlanet Unveils the "Deep"
Web: 500 Times Larger Than the Existing Web” <
http://www.brightplanet.com/white-papers/119.html> приводятся совершенно
“новые” данные:
Невидимый Интернет (“глубокий” Интернет в версии авторов, т.е. при
оценке объема доступной через Интернет информации учитываются документы
из баз данных форматов иных, чем HTML и иных версий языка гипертекстовой
разметки) содержит
почти 550 миллиардов индивидуальных документов;
Невидимый Интернет содержит 7,500 Тб информации (более
3.7 триллионов машинописных страниц);
Невидимый Интернет - самая
быстрорастущая и качественная часть Интернет;
Доступ
к 40%
ресурсов Невидимого Интернет предоставляется бесплатно;
Доступ
к невидимому Интернет обеспечивается более
100.000 поисковых машин и баз данных. 1.3. Совершенно согласен
с американскими коллегами в том, что объемы ресурсов Интернет растут
экспоненциально. Пока что по авторитетным американским и британским
источникам происходит
удвоение объемов общедоступных ресурсов каждые 2-3 года. 2. Иллюзии концептуального характера. 2.1.
Иллюзия № 1:
Интернет - это библиотека, а данные - это контейнер с информацией типа
знаменитого “черного ящика”. По мнению
крупнейшего в мире по объемам продаж производителя систем управления базами
данных - корпорации ORACLE
не менее 90% (по числу единиц) критически важной информации поступает в виде
текстов. Иные типы информации (менее 10%) в
большинстве случаев имеют либо текстовую аннотацию, либо текстовое название,
либо комплект метаданных в одном из корпоративных, национальных или
международных стандартов.
2.2.
Иллюзия № 2:
Метаданные помогают
быстро находить полную информацию в библиотеке или иной базе данных.
По представительным исследованиям автора на крупнейшей в России
библиографической базе
данных
Института научной информации по общественным наукам (ИНИОН) РАН <
http://www.inion.ru >
полнота информации, полученной с использованием
метаданных типа “Рубрика ИНИОН” в сравнении с полнотекстовым поиском по
библиографическим описаниям
составляет
4-5%.
Иначе говоря, используя поиск в тексте заголовка, аннотаций и ключевых
словах, можно найти информации в 20 раз больше, чем через поле “Рубрика
ИНИОН”. Заметим, что в ИНИОН РАН используется оригинальный иерархический
классификатор на 5000 позиций. Аналогичная ситуация с известными
полнотекстовыми базами правовой информации “КонсультантПлюс”
<
http://www.consultant.ru >. Не
более 5% документов, которые можно найти поиском непосредственно в текстах,
доступны с использованием метаданных - в данном случае классификатора
правовой информации.
2.3. Иллюзия № 3:
Метаданные к документам можно создавать в массовом порядке.
По оценке автора не более 10% статических web-страниц имеют заполненными все
HTML-поля (метаданные о документе - MetaTags). Обычно заполняются только
основные поля “Заголовок” (Title) и ”Текст” (Text).
Административными мерами переломить указанную тенденцию с учетом темпов
роста числа Интернет-писателей и Интернет-издателей представляется мне
полной утопией. По моим оценкам,
стоимость формирования метаданных формата Z39.50 для одной книги превышает
$30. Последние достижения в области
искусственного интеллекта и компьютерной лингвистики не позволяют минимально
корректно решать задачу авторубрицирования и автореферирования текстовой
информации, тем более бесплатно. Автоматическое выявление в тексте
“основных” тем и понятий лично мне очень сильно напоминает измерение
средней температуры по госпиталю.
2.4.
Иллюзия № 4:
Реально привлекать бесплатных посредников для доступа к информации.
В посттоталитарных государствах библиотечные и иные общедоступные
государственные базы данных и институт бесплатных информационных посредников
не живут в принципе. Просто у лиц, принимающих государственные решения, нет
уважения к закону и гражданским правам, как и желания информировать граждан.
Поэтому никогда нет для таких проектов денег. Исповедуется тоталитарный
принцип: “Нет информации - нет проблемы”. А если какая-то информация
все-таки идет, канал ее распространения рано или поздно перекрывается.
2.5. Иллюзия № 5:
Существуют общепринятые
библиографические стандарты.
Ни в мире, ни в России нет единого подхода ни в области форматов
библиографических описаний, ни в области их рубрицирования (тематические
классификаторы). Автор провел испытания 50 библиографических баз данных
российских библиотек. Единицы используют формат UNIMARK, в основном это
нечто оригинальное (причина все та же - нищета российских учреждений
культуры, поддержка международных стандартов требует средств). С
рубрикаторами ситуация не менее интересная - используется масса оригинальных
рубрикаторов (ИНИОН и др.), часть баз данных вообще рубрикации не имеет,
некоторые используют международные стандарты (Десятичная классификация Дьюи,
Универсальная десятичная классификация и др.), часть - иностранные
рубрикаторы за гранты (библиотеки Конгресса США) и национальные стандарты
(Государственный рубрикатор научно-технической информации,
Библиотечно-библиографическая классификация и некоторые др.). 3. Положение с Глобальной службой поиска информации. Глобальной Службы Поиска
Информации <
http://www.gils.org >
в масштабе Интернет по существу нет.
Что же есть?
3.1. Есть библиотечный
протокол ANSI Z39.50
Американского института стандартов, разработанный для американской
национальной Службы
поиска правительственной информации
/ Government Information Locator Service (с той же аббревиатурой
GILS
< http://www.gils.net>)
еще в 1993 году.
А в 1995 году принята его последняя (третья) редакция - ANSI/NISO
Z39.50-1995 и на ее основе приняты международные стандарты
ISO 10163 / ISO 23950,
ориентированные на работу с
метаданными в библиотечных и иных базах данных.
Протокол Z39.50 использует национальный библиографический формат USMARC и 8
классификаторов библиографической информации, из них только 2 международных
(УДК и Дьюи).
3.2. За 7 лет существования протокола Z39.50 (заметный срок при
фантастических темпах развития информационных технологий):
создан сайт GILS <
http://www.gils.org>,
содержащий минимум информации и в основном ссылающийся на материалы
сайта Government Information Locator Service <
http://www.gils.net>
создано всего 692 GILS-совместимых
сервера, полный список см. <
http://www.gils.net/list/index.html>,
в том числе 44% - библиотеки, 40% - сервера учебных заведений, остальное
- базы данных правительственных и общественные организаций. Это только
0.02% общедоступных серверов, т.е. капля в море Интернет,
для сравнения см. п.1.1;
несмотря на
официальные рекомендации даже в США указанный протокол не является
общепринятым. На днях Президент США с гордостью представил американской
общественности проект Управления Делами Президента - официальный сервер
Правительства <
http://www.firstgov.gov >,
обеспечивающий гражданам прозрачный доступ более, чем к 27 млн.
web-страниц органов исполнительной власти федерального уровня. Таким
образом поставленная американскими участниками семинара
задача публичного
доступа к разнородным ресурсам на их родине решена с использованием
общепринятого протокола HTTP на основе полнотекстового поиска. 3.3. Указанные протоколы
не поддержаны ни одним из мировых производителей программ - обозревателей
страниц Интернет (browsers). Редкие GILS-совместимые сервера, например,
Amarilio National Resource Center for Plutonium. Electronic Resource Library
с экзотическим адресом типа <z3950s://hlc.actx.edu:210/MARION>
ни MS Internet Explorer,
ни Netscape Navigator не видят.
Из международных нормативов этого класса (их не менее 6) наиболее
распространенным стандартом формирования метаданных является
Dublin Core MetaData,
полностью совместимый с общепринятым протоколом HTTP и реализуемый
стандартными средствами языка гипертекстовой разметки HTML. 4. Выводы и предложения. 4.1. В России в
ближайшей перспективе подобный проект не имеет никаких шансов. Однако я не
исключаю, что кто-нибудь любезно согласится потратить американские
правительственные гранты. В общем, надо понимать, что, как говорил один
российский сатирик: “Здесь
Вам - не там”. А там (в
США) Министерство обороны и иные органы власти регулярно и аккуратно
публикуют массу сведений о своей деятельности (например, все бюджетные
контракты). Что меня просто восхищает. В России по понятным причинам
подобные сведения де факто считаются государственной тайной. 4.2. Поставленная
американскими участниками задача облегчения доступа широкой публики к
разнородным ресурсам через Интернет достойна всяческих похвал. Однако такая
задача должна решаться с учетом интересов всех субъектов доступа (не только
США и американских граждан), причем при минимальных бюджетных вливаниях.
Например, авторами концепции совершенно ничего не предложено в области
снятия языкового барьера, нет никаких экономических оценок, нет учета
национальных особенностей и менталитета. Все возрастающая стоимость
Интернет-проектов и парадоксы Интернет-экономики не позволят без опоры на
национальный частный сектор (читай - интерес) реализовать проекты такого
масштаба. Все они будут просто нерентабельны. В завершении - немного
конструктива. 4.3. Публичный доступ к
глобальной информации через Интернет реально можно организовать только
руками самой публики, точнее
самоорганизующихся сообществ по интересам.
Интернет сам по себе
является саморегулируемой средой и дает тому массу примеров. В
частности, крупнейший оригинальный поисковый каталог Интернет на 1.5
млн. аннотированных web-страниц Open Directory Project <
http://dmoz.org >
создали и поддерживают на общественных началах более 25.000
добровольцев. Так вот, объединяющий сообщества интерес может быть
государственным (борьба с терроризмом ... гармонизация законодательства
...), местными (муниципальные сообщества...), профессиональным
(образование, трудоустройство, трудовые права ...), научным,
политическим (общественные объединения, партии ...), меркантильным
(е-коммерция ...), личным (хобби, гражданские права, безопасность жизни,
досуг, спорт, здоровье ...), этническим (сохранение национальной
идентичности, культуры, языка ...), религиозным и др. Таким информационным
сообществам нужно дать всего лишь умения систематизировать область своего
интереса и практически бесплатно “привязать” поисковыми запросами каждую
волнующую проблему к лучшим ресурсам Интернет. В результате силами
сообщества создается либо недорогой следящий каталог или более мощная
база
знаний. Тогда одним
щелчком мыши заинтересованное лицо сможет в любое время дня и ночи из любой
точки мира на родном языке получать все, что нужно из Интернет.
В этой связи основные
усилия государства для поддержки и стимулирования публичного доступа к
глобальной информации на наш взгляд стоит сосредоточить на разработке
открытых рекомендаций и
стандартов проектирования проблемно-ориентированных классификаторов и
интерфейсов к ним, а также поисковых систем Интернет.
Особого внимания заслуживает развитие техники создания поисковых запросов,
доступных для полной
автоматизации эпизодического поиска и рубрицирования
полных текстов и любых метаданных, а также качество информационного
обслуживания и сертификация производства следящих каталогов и баз знаний.
Все это может широко внедряться путем создания недорогих или бесплатных
(дотационных) дистанционных курсов для
массового обучения и сертификации заинтересованных лиц
через Интернет [9].
4.4. Наши оригинальные
ноу-хау и методологии для решения проблемы
глобального публичного доступа к информации
описаны в системе учебных курсов “Поддержка
принятия решений с использованием ресурсов Интернет” [12] и некоторые
авторских публикациях на смежные темы (см. прилагаемый список).
В настоящее время разработаны: техника проектирования
проблемно-ориентированных классификаторов [2,3,9,12]; техника построения вопрос-ответного
интерфейса (на заданном естественном языке) к классификатору
[2,10,11,12]; методы извлечения и документирования
знаний (из массива полных текстов или совокупности метаданных)
[3,4,5,6,12];
техника формирования лексического
образа понятия на заданном естественном языке для заданной системы
поиска [1,3,12]; техника переноса лексического образа
понятия с заданного на иные естественные языки для заданной системы
поиска[12]; подходы и приемы формирования
проблемно-ориентированных запросов на заданном естественном языке для
заданной системы поиска [1,12]; подходы и приемы формирования
проблемно-ориентированных запросов для всех (любых) систем поиска,
работающих с текстами на заданном естественном языке[1,12]; проблемно-ориентированный выбор лучших
ресурсов Интернет (поисковых систем и каталогов, баз данных, сайтов)
[7,12]; автоматическое направление запросов
поисковым системам, слежение за появлением новых ресурсов Интернет и
иные приемы Интернет-мониторинга [12]. 4.5. Важная для потребителя информация
формируется “на лету” с использованием лучших ресурсов и предоставляется по
разовому требованию (эпизодический доступ) или на регулярной основе
(периодическая доставка по электронной почте). Она представляет собой
проблемно-ориентированные подборки ссылок на: полные тексты
с элементами мультимедиа (звуки, изображения) с возможностью выделения новостей [12], определений основных понятий [4], справочной информации, учебных материалов, курсов и тестов
[9], иных текстов (научных, художественных
...) библиографические описания
традиционных изданий с аналогичным делением, возможно снабженные
метаданными [6]; нетекстовые электронные данные
(звуки, изображения, числа и их массивы и ряды...), снабженные
метаданными или аннотациями [10]. 4.6. Пока что мне видятся только
два варианта реализации системы глобального
публичного доступа. Первый (относительно недорогой) вариант - это публичные
и персональные следящие иерархические каталоги в виде
дерева рубрик. Для их бесплатного создания есть все,
требуется только пройти обучение. Второй вариант сложнее и дороже. Публичные
и корпоративные
следящие базы знаний с вопрос-ответным интерфейсом
можно создавать только на основе систематизированного информационного
хранилища. Это под силу только государству, корпорациям и мощным
сообществам. Но они обеспечивают совершенно другой уровень обслуживания и
широкий спектр устройств доступа (голосовой телефон, WAP-терминал, сенсорный
терминал, пейджер, чайник и иные вычислительной техники и связи, а также
бытовые приборы). Компактная подборка решений поставленной проблемы
формируется с заданной степенью логического обобщения в диалоге с
потребителем причем на его родном языке. 5. Список использованной литературы: Кузнецов С.В. “Поиск
в полнотекстовых базах данных на основе лексического образа проблемы”
В сб. Государственной Думы РФ “Правовой классификатор и правовой
тезаурус в законотворчестве и юридической практике”, Изд. отдел Упр.
делами ГосДумы РФ, М., Екатеринбург, 1998.
Кузнецов С.В., Титов В.В. “Классификация:
системно-морфологический подход”, М., РНЦ “Курчатовский институт”,
препринт ИАЭ-6075/1, 1998.
Кузнецов С.В. “Доступ
к текстовой информации” В сборнике материалов 5-й Международной
научно-практической конференции "Виртуальный мир Инфосферы: практическое
использование человеком", Владивосток, Владивостокский филиал Российской
таможенной академии, 1998.
Кузнецов С.В. “Определение понятий” Доклад 30.07.1999 на
Экспертном Совете по систематизации и кодификации правовой информации
при Председателе Государственной Думы ФС РФ.
Кузнецов С.В. глава 13 “Информационные
технологии в законопроектной деятельности” в книге “Законодательная
техника”, М. Городец, 2000.
Кузнецов С.В. раздел III “Информационные технологии для
обеспечения финансовой устойчивости центров правовой информации” в
материалах Всероссийского совещания “Публичные центры правовой
информации на базе публичных библиотек”, Тула, 25-26 апреля 2000 г.
Кузнецов С.В. “Методика
оценки баз правовой информации” в российско-французском сборнике
“Информатика и право”, Н. Новгород, Издательство Нижегородского
госуниверситета, 2000.
Кузнецов С.В. “Доступ
к правовой информации в России” в российско-французском сборнике
“Информатика и право”, Н. Новгород, Издательство Нижегородского
госуниверситета, 2000.
Кузнецов С.В. “Открытые технологии образования” в сборнике
НИИ образовательных технологий “Научное обеспечение открытого
образования”, №, 1, Москва, МЭСИ, 2000.
Кузнецов С.В. “Интернет
следующего поколения”, Доклад на Международном конгрессе “ИНТЕРНЕТ в
образовании, экономике и искусстве”, Москва, Российский университет
дружбы народов, 19-21 января 2000 года.
Кузнецов С.В. “Базы
правовых знаний - новое поколение средств доступа граждан к правовой
информации через Интернет.” Доклад на международном семинаре -
круглом столе "Кодификация законодательства как способ доступа граждан к
правовой информации", 9-10 марта 2000 г., Санкт-Петербург.
Кузнецов С.В. Программа учебного курса “Поддержка
принятия решений в использованием ресурсов Интернет”.
Опубликовано по адресу: http://www.5186364.ru/gils_analysis_in_russian_global_contexts.html
Дата последнего редактирования 21.02.2022
© Кузнецов Сергей Валентинович