1993 | Под патронажем Правовой академии Минюста РФ проведен первый конкурс российских систем правовой информации, вся работа выполнена в качестве единственного методиста, эксперта, менеджера проекта и издателя материалов. Доказана возможность сравнения качества баз данных, впервые отработаны некоторые количественные методы анализа содержимого и функциональности информационно-поисковых систем. Написан и опробован первый вариант методики тестирования баз правовой информации. Результаты опубликованы. Дополнительно см. историю работ в рамках Информационно-издательской фирмы ИНВЕНТА. |
1995 | Вторая методика массового тестирования информационно-поисковых систем, работа в качестве методиста (совместно с Титовым В.В.), менеджера проекта (работало три десятка экспертов) и издателя материалов. Математическая обработка результатов выполнена совместно с Титовым В.В. Впервые на базе системных исследований профессиональной деятельности потребителей создана модель "идеальной" автоматизированной информационной системы и на ее основе разработана методика конкурсных испытаний. Впервые на основе оригинальной методики проведена оценка качества информации и полноты банков данных по законодательству, разработано специальное программное обеспечение и проведена полностью автоматизированная обработка результатов экспертиз с контролем качества испытаний, количественной оценкой компетентности и добросовестности специалистов (экспертов конкурса). Написан и опробован второй вариант методики тестирования баз правовой информации. Результаты опубликованы. |
1996 | Основы системы программирования поиска в текстах (поиск аналогий и шаблоны поисковых запросов) были разработаны в процессе исполнения контракта с "Российским фондом правовых реформ" (далее - "РФПР") в рамках проекта Всемирного банка "Правовая реформа в Российской Федерации" и подготовки полученных материалов к опубликованию. Всего для РФПР было выполнено 4 контракта (дистанционное обучение судей, анализ российских и международных баз правовой информации). Разработанная система программирования поисковых запросов не имеет известных автору аналогов, позволяет решать бесконечно широкий круг задач поиска в текстах, извлечения и предварительного анализа данных и дает возможность снять основные проблемы производства баз знаний на основе неструктурированных данных, автоматизированного классифицирования массивов текстов и обеспечения незатруднительного доступа обывателей к неструктурированной информации. Система программирования поисковых запросов позволяет обеспечить высокое качество результатов поиска (полноту от 80% и точность, которую сравнивать не с чем). Обучение ручному применению указанной системы программирования возможно, но, как правило, вызывает затруднения у предметных специалистов. Программирование поисковых запросов вручную редко применяется предметными специалистами в силу его комплектности и сложности (требуется знание персонального компьютера, основ лингвистики, семиотики, логики, а также синтаксиса языка поисковых запросов и некоторых приемов программирования...). |
1998 | Разработка системно-морфологического подхода к поиску и систематизации текстов и методологических основ производства баз знаний была инициирована работой в составе Экспертно-консультационного совета по кодификации и систематизации законодательства и правовой информации при Председателе Государственной Думы (руководитель - Исаков В.Б.). Технологии производства баз знаний в комплекте с интуитивно понятными предметным специалистам средствами автоматизации основных операций делают возможным силами персонала предприятия вести и развивать КОРПОРАТИВНУЮ БАЗУ ЗНАНИЙ, готовить основанные на ней проекты и сервисы. Для сотрудников без специальной подготовки база знаний комфортно поддерживает качественный поиск, анализ и творчество. Для партнеров и клиентов компании база знаний - это обучающая энциклопедия, доступ к которой возможен круглосуточно, в том числе в диалоге на естественном языке через малофункциональные устройства ввода-вывода типа голосового телефона с кнопочной клавиатурой. Полный спектр возможностей базы знаний перечислять безнадежно... Главное, что база знаний, кардинально снижая квалификационный барьер на пути продуктивного использования информационных технологий, позволяет многократно ПОВТОРНО ИСПОЛЬЗОВАТЬ И УМНОЖАТЬ ИНТЕЛЛЕКТУАЛЬНЫЙ КАПИТАЛ и мотивацию каждого и всех сотрудников предприятия, повышая скорость подготовки и качество исполнения отдельных проектов, равно как и гибкость и жизнестойкость предприятия в целом. С некоторой натяжкой можно утверждать, что переход предприятия на технологии управления, основанные на знаниях, без корпоративной базы знаний невозможен. Специально оговоримся. БАЗА ЗНАНИЙ в нашем понимании - это база данных, отличающаяся от традиционной информационной системы расширенным и уникальным функционалом. База знаний позволяет оперировать неструктурированной информацией. Неструктурированная информация - это тексты и гипермедиа объекты любой природы, имеющие минимальное текстовое описание или обеспеченные технологией автоматического формирования такого описания, например, распознавание образов. Термин "база знаний" в нашем понимании не имеет никакого отношения к искусственному интеллекту, семантическому поиску, смысловому поиску, семантическому сетям, семантическим графам, семантическим картам, семантическим иерархиям и т.п. Перечислим некоторые уникальные ФУНКЦИОНАЛЬНЫЕ ВОЗМОЖНОСТИ БАЗЫ ЗНАНИЙ.
|
1999 | На основе DOS-версии поисковой системы Артефакт коммерческой службы баз данных "Интегрум" для занятий в Аппарате Законодательного собрания Тверской области написан компьютерный практикум "Технологии познания" (CD-25). Проведена серия очных компьютерных тренингов на основе этого практикума. Получены первые результаты продуктивного использования сотрудниками (неюристами) Аппарата областного Законодательного Собрания шаблонов для решения типовых задач поиска правовой информации, в частности, при установлении несоответствий Устава области действующей Конституции РФ.
Подготовлен доклад и поисковые шаблоны формата поисковой системы Артефакт для поиска нормативных определений терминов (норм-дефиниций, NC-311+). Выявлены сложности разработки многоязычных тезаурусов, проблемы сохранения смысла официальных текстов при его переводе, а также получены доказательства терминологических коллизий в законодательстве РФ всех уровней. Система программирования поиска в текстах была успешно перенесена на поисковые машины Интернет и проведен первый курс дистанционного обучения "Разрешение юридических проблем с использованием Яндекс" российских юристов - выпускников американских университетов (грантовые программы United States Information Agency). Как и можно было предположить, поисковые машины Интернет не намного отличаются от своих собратьев, ищущих информацию в локальной сети или на конкретной рабочей станции. |
2000 |
В рамках комплекса "Прикладные методы нормотворчества" и "Правовая аналитика" обобщены поисково-аналитические методы поддержки правоприменения и законотворчества. Поскольку базы знаний могут помогать при анализе текстов на разных языках, целесообразно их использование в процессе ревизии законодательства, в т.ч. гармонизации терминологической системы и национальных законодательств стран Евросоюза. В интересах НИЦИ МИД РФ разработаны технологии поиска в текстах на незнакомых языках и оптимизации поисковых запросов с целью качественной поддержки параллельного поиска на любых поисковых системах по темам из Рубрикатора внешнеполитической деятельности МИД РФ. В процессе работы над задачей поиска на любых поисковых системах (которые имеют разный синтаксис поисковых запросов) была разработана технология написания запросов для точного и полного поиска одновременно на многих поисковых системах Интернет на основе фунциональной классификации поисковых систем. Такая классифицикация используется и сейчас генераторами поисковых запросов (см. далее). |
2001 | Разработана система документирования поисковых проектов и web-мониторинга на неопределенной базе открытых источников. |
2002 | Начаты исследования и преподавание по темам "Деловая разведка по открытым источникам", "Исследование рисков и поиск возможностей через Интернет (Конкурентная разведка через Интернет)" и "Безопасность бизнеса". За 8 лет последующего преподавания выявлена низкая продуктивность краткосрочного обучения предметных специалистов поиску в текстах. |
2003 | Написана методика исследования конкретных объектов (предприятий, персон, технологий, товаров...). Исполнение методики обеспечено специализированной базой данных и комплектом бесплатных прикладных программ. |
2004 | Разработана методология поиска противоречий и прикладные методы ее реализации. Таким образом, в базах знаний становится доступной изменяемая логика вывода: кроме вывода, основанного на прецедентах или аналогах, (для изучения прошлого опыта) стал доступен вывод от противного, нахождение смысловых несоответствий, профилактика юридических рисков и приведение в непротиворечивое состояние системы утверждений, корпоративной отчетности, хозяйственного договора и действующего законодательства. |
2005 | В рамках обзора "Невидимый Интернет для бизнеса" систематизированы способы поиска и тематического мониторинга информации, недоступной через поисковые системы общего назначения. Разработаны поисковые шаблоны для поиска баз данных и специализированных открытых источников информации по тематике и территории. В процессе решения по горячей линии задач учеников начата разработка комплекса методов поиска аналитических материалов. Цель такого поиска - удовлетворить пользователя в случае необозримости найденного за счет минимальный выдачи десятка лучших обзоров. В таком случае оперативная подготовка отчета может сводиться к простой компиляции найденных обзорных публикаций. Всего в последующие годы было разработано десять способов поиска аналитических отчетов, связанных с разрабатываемой темой исследования. При реализации корпоративных систем одновременного поиска по многим открытым источникам это открывает возможность выдачи только отчетов в случае избыточного числа найденных по проблеме документов (аналогов). Также поиск аналитики существенно ускоряет и удешевляет подготовку отчета и повышает качество его первой редакции. Для проведенного очного тренинга магистров, аспирантов, докторантов и преподавателей Экономического факультета МГУ написана методика подготовки отчетов или выполнения научных работ (диплом, диссертация...). Впервые детально проработаны уровни отчетности и структура корпоративной документации о выполненных на основе открытых источников Интернет исследованиях. |
2006 | Cущественно доработана методика и проведено систематическое тестирование некоторые ведущих поисковых систем Интернет (Яндекс, Гугл и некоторых других), выявлены устойчивые ошибки, отработан вариант процедуры испытаний и оформления пользовательской документации. Систематика авторской базы закладок Интернет полностью переработана под задачи оперативной проверки персон и предприятий. Доработана методика тестирования поисковых систем Интернет в части специальных символов и тестирования устойчивых ошибок. |
2007 | Подготовлен реестр открытых служб, оперативно (до 1 часа при заявке через Интернет) и официально предоставляющих статистическую, финансовую и бухгалтерскую отчетность (формы 1, 2, 5) российских предприятий (12 ссылок формата любых обозревателей ресурсов Интернет, группа NC-111101). Завершены работы по созданию реестра национальных поисковых систем и служб баз данных общего назначения 230+ стран мира или территории (6700+ ссылок формата любых обозревателей ресурсов Интернет, группа NC-232+). |
2008 | Разработку первых web-приложений для автоматизации заполнения шаблонов и формул запросов выполнили ученики, предложив исходный код web-сервиса заполнения формулы запроса для сбора информации о телефонном номере. Общая стратегия - лениться, т.е. все рутинные, не требующие рефлексии операции поиска и анализа по возможности пытаться автоматизировать. Такой подход спасает массу времени и сил для анализа и синтеза, позволяет решать ранее недоступные по причине их кошмарной трудоемкости и сложности задачи, ускоряет подготовку отчетов, повышает их качество и, что самое главное, кардинально снижает квалификационный барьер для пользователей (исполнителей). Разработаны поисковые шаблоны по теме "Негатив" (NC-32431). Разработаны поисковые шаблоны по теме "Проблематизация" (NC-3244 / NC-3934). Подготовлен реестр баз данных для поиска предприятий по Общероссийскому классификатору видов экономической деятельности (ОКВЭД) (NC-142). Базы данных реестра позволяют искать действующие предприятия РФ (100% зарегистрированных ФНС РФ, более 5 млн. компаний) по профилю, заявленному при регистрации. Завершен очередной цикл работ над реестром локальных баз данных по Общероссийскому классификатору административно-территориальных образований (ОКАТО,NC-131+, более 27700+ ссылок по федеральным округам, субъектам Федерации и 1100 российским городам). Базы данных этой части "Рабочего места аналитика" позволяют решать массу вопросов, так или иначе освещенных в российских открытых источниках уровня федерального округа, субъекта Федерации или города. Сюда относятся сайты местных властей, городские суды, городские порталы, местные средства массовой информации (пресса, ТВ, радио) и различные муниципальные базы данных. Локальные базы данных содержат информацию о товарах, услугах и ценах, транспорте и расстояниях, картах, новостях, рекламе, юристах и нотариусах, всех зарегистрированных в городе предприятиях, гостиницах, учебных заведениях, демографической ситуации, недвижимости, квартирных и справочных телефонах и т.п. Для следующих крупных российских городов с постоянным населением более 500 тыс. человек (согласно переписи 2002 года): Астрахань, Барнаул, Владивосток, Волгоград, Воронеж, Екатеринбург, Ижевск, Иркутск, Казань, Кемерово, Краснодар, Красноярск, Липецк, Набережные Челны, Нижний Новгород, Новокузнецк, Новосибирск, Омск, Оренбург, Пенза, Пермь, Ростов-на-Дону, Рязань, Самара, Санкт-Петербург, Саратов, Тольятти, Тула, Тюмень, Ульяновск, Уфа, Хабаровск, Челябинск, Ярославль локальные базы данных представлены в расширенном варианте. Для каждого крупного города отдельными реестрами включены: 1 Досье и сайты: досье на город, городские сайты и порталы.При необходимости расширения реестра местных баз данных конкретного города или региона, используйте поисковые шаблоны группы NC-1310111 Локальные БД. Справка: Работы над группой NC-141+ начаты в 2005 году. В группу NC-714 добавлена ссылка "Брошюра Открытые источники" на материал "Открытые источники информации в электронной форме (компьютерная разведка) для подразделений экономической безопасности. Возможности использования и корпоративного обучения". Брошюра может быть использована в качестве учебного материала и для подготовки к корпоративным тренингам. На стр. 4 помещен детально документированный пример практического применения системно-морфологического подхода для анализа неструктурированной информации средствами локальной полнотекстовой поисковой системы. На стр. 23 приведена полная документация процесса поиска на 6 языках (английский, китайский, немецкий, русский, французский, японский) технологии производства конкретным японским производителем компонентов газотурбинных двигателей. Брошюра доступна после очередного обновления базы данных "Рабочее место аналитика" всем пользователям соответствующих лицензий. |
2009 | Разработаны и анонсированы первые заполнители поисковых шаблонов для решения через Яндекс типовых задач поиска: определений термина, рыночных ниш, кем-либо озвученных проблем любой сущности.
Кроме самого заполнителя поисковых шаблонов был написан синтаксический анализатор корректности запросов Яндекс, автоматически подставляемых в поисковые шаблоны. Несмотря на заметное ускорение и облегчение решения типовых задач, заполнитель поисковых шаблонов в дело не пошел. Слишком сложной получилась техника разработки поисковых шаблонов. Но это еще полбеды. Основная проблема была в том, что пользователь должен был описать искомый объект с использованием языка запросов поисковой системы Яндекс. Несмотря на многочисленные примеры использования, это оказалось непреодолимым препятствием - никто не горел желанием разбираться с языком запросов этой поисковой системы и его помнить. Запущен собственный метапоиск синонимов русского языка (NC-21114). Кроме работы по всем известным статическим словарям русских синонимов, сервис обеспечивает возможность исключения уже известных синонимов и выдачу результата в формате поисковой системы Яндекс. |
2010 | Подготовлен и систематизирован комплект бесплатных прикладных программ на защищенном USB-накопителе информации для оперативной информационно-аналитической работы вне офиса. Наряду с многими другими включены программы полнотекстового поиска с возможностью агрегации найденных фрагментов в единый отчет по результату исполнения поисковых запросов с backslash-выражениями и регулярными выражениями. Обеспечена информационно-аналитическая работа в любой точке доступа в Интернет (в не только в офисе) с возможностью пользователям персональных компьютеров под управлением операционной системы семейства MS Windows обучаться и вести разработки на бесплатном программном обеспечении. Начаты работы в области "Тематического метапоиска". В рамках первого пилотного проекта проведены эсперименты, исследованы организационные и технические ограничения при создании метапоисковых систем (систем параллельного поиска по многим открытым источникам одновременно), найдены варианты заказной реализации корпоративного проекта метапоиска с легальным обходом всех известных ограничений. К преимуществам корпоративного метапоиска можно отнести агрегирование результатов поиска по многим источникам в единый отчет, возможность закачки информации в хранилище, уточнения результатов с использованием результатов извлечения знаний их текстов и построения исчерпывающих реестров для целей последующей систематизации и уточнения результатов и др. |
2011 | Выполнено несколько сложных поисков научно-технической информации (далее - "НТИ") на многих языках по заказам промышленных предприятий. Значительное время, сопоставимое или превышающее исполнение конкретного проекта научно-технического поиска, было затрачено на уточнение технических требований к искомой информации (до 2 месяцев). Доказана беспомощность пользователей при формулировании требований к искомой информации и необходимость диалогового уточнения таковых требований. В процессе построения глобального реестра лучших источников научно-технической информации (350+ баз данных) выявлена необходимость разработки специализированных шаблонов для поиска баз данных научно-технической информации (по стране, по объекту поиска, тематике или отрасли промышленности или знаний). Для кардинального снижения трудоемкости исполнения подобных поисков (до 500 человеков-часов на один проект) и итерационного уточнения требований силами самого потребителя информации разработан функциональный прототип МАСТЕРА ПОИСКА НТИ - генератора англоязычных поисковых запросов к 15 базам общей и научно-технической информации 8 производителей.
В процессе публичного тестирования Мастера поиска НТИ описаны кардинальные преимущества Мастера поиска в сравнении с метапоиском, выявлены узкие места и сделаны следующие доработки: преобразование без использования клавиатуры русскоязычного описания проблемы потребителя в качественные англоязычные запросы к базам НТИ, уточнение результатов поиска, сжатие поисковых запросов, обход ошибок используемых поисковых систем Интернет. Впервые удалось замкнуть комплекс технологий производства баз знаний (снять производственные проблемы) путем документирования знаний персонала и развития корпоративной информационной системы БЕЗ ВНЕШНЕЙ ПОМОЩИ. Кроме того, уникальность Мастера поиска состоит в том, что его использованием не нарушает ничьи права, позволят бесконфликтно реализовать интересы всех продуцентов и пользователей Интернет, без посредников, круглосуточно и без проволочек многократно уточнять и переформулировать задачу поиска и генерировать высококачественные запросы, адаптированные к многим поисковым системам (дополнительно см. Введение). |
2012 | С целью внедрения Мастера поиска НТИ и создания корпоративной базы технологических знаний на одном из российских промышленных предприятий, ускорения и коммерциализации разработки и ее совместного развития до уровня "Тематического метапоиска" проведена подготовка к рефакторингу исходного кода. Рефакторинг требуется для передачи части работ по программированию (пользовательский интерфейс и др.) в виде открытых исходных кодов на аутсорсинг, в т.ч. специалистам заказчика. |
Наст.время | Ведутся работы по созданию реестра лингвистических ресурсов Интернет для обеспечения работы на 110+ незнакомых языках, каждый из которых является официальным хотя бы в одной из 230+ стран мира. Не путать с каталогом "Слова и языки" (в группе NC-11)! Это 5000+ ссылок формата любых обозревателей ресурсов Интернет (группа NC-22+). Для каждого языка подобраны доступные бесплатные ресурсы Интернет:
|
Опубликовано по адресу: http://www.5186364.ru/kuznetsovsv-technologies.htm
Дата последнего редактирования 25.07.2021
© Кузнецов Сергей Валентинович