<< НазадСодержание | На главную Далее >>

Профессиональная информация в Интернете

На кафедре ГИС для взаимодействия с внешним миром используется сервер доступа через модемный канал, обеспечивающий соединения TCP/IP с поддержкой служб клиент-сервер (удаленный доступ, BBS, FIDO, fax...) и через канал Интернет, предоставляемый UNICOR. Для использования Интернет были решены следующие проблемы: создание сервера для коллективного использования одного канала и наладка удаленного доступа в сеть.

Овладев навыками библиографического поиска (работа с алфавитным и предметным указателями, аннотированной библиографией), Вы найдете целый ряд аналогий с инструментами и технологиями поиска электронной информации (см. таблицу 2).

Табл.2. Аналогии между поисками печатной и электронной информации

Работа в библиотеке Работа c электронной информацией
Систематический каталог Список каталогизированных ресурсов
Алфавитный каталог Поисковые системы
Зал открытого доступа CD-ROM или электронные библиотеки
Специальные читальные залы Специализированные ресурсы
Зал текущей периодики Ресурсы электронных журналов
Еженедельная выставка новых поступлений Просмотр новинок по ресурсам или изменений на просматриваемых узлах
Работа с библиографическими справочниками и реферативными журналами Просмотр ресурсов других авторов, в том числе специализированных ресурсов
Тетради для конспектов, ксерокс Дискеты, мобильные и жесткие диски
Авторучка Программы просмотра и другие средства для работы
Персональная картотека с шифрами Персональный каталог ресурсов
Бланки заказов "на завтра" Оперативный план по работе с ресурсами
Работа с материалом, чтение, конспектирование Чтение, преобразование к требуемому формату

Но имеются и существенные отличия.

Отсутствует аналогия с требованием все изданное передавать в библиотеку (это правило формально вновь введено в России; оно строго соблюдается в CША). Ведущие западные фирмы помещают многие журнальные издания в формате *.pdf в Интернет (однако доступ к ним осуществляется только при условии подписки на соответствующее бумажное издание). В американских университетах появляется традиция помещать свои издания в Интернет в формате ПостСкрипт или TeX. Однако в последние годы стал широко использоваться инструментарий конвертации TeX в HTML (при этом, к сожалению, преобразование формул часто приводит к *.gif файлам с одинаковыми именами). Причина такой конвертации очевидна. Многие обучающие узлы гораздо богаче книжных изданий (цветная и динамическая графика, оперативная коррекция, являются очень сильными аргументами). В этом направлении и идет развитие.

Развитие инструментария создания Web-страниц привело к демократизации процесса публикации. Постепенно появляется традиция и даже мода помещения научных работ в Интернет. Поскольку поместить статью в сеть гораздо легче, чем издать, этот процесс нарастает, невзирая на сопротивление книгоиздательств.

При кажущейся комфортности доступа, работа в Интернет требует не меньше умений, чем профессиональный библиографический поиск, причем требует большей организованности, чем работа в библиотеке.

Рассмотрим особенности электронного инструментария и работы с ним.

Каталоги и поисковые системы.

По мере развития Интернет обостряется парадокс: вероятность существования нужной информации возрастает, а возможность ее нахождения уменьшается. В принципе гипертекстовая природа WWW обеспечивает нахождение любой информации в процессе целенаправленного продвижения по ссылкам. Однако согласно оценкам, в Интернет на начало 1997 года существовало более 60 млн. документов (период удвоения числа документов в Интернет - не более 3-8 месяцев), и найти нужное в этом пространстве, продвигаясь просто от ссылки к ссылке, практически невозможно.

Систематический каталог - каталогизированные ресурсы.

В любой отечественной библиотеке систематический каталог, при всей его разработанности, имеет серьезный недостаток - он не строится на основе информационных ресурсов, а разбрасывается по искусственно построенной рубрикации наук. При этом отношение к созданию новых рубрик на точках интенсивного прироста информации крайне консервативно. Например, такое понятие, как "фракталы", никакой указатель к систематическому каталогу еще не содержит. Однако именно работа с систематическим каталогом способна навести на неожиданные повороты смысла поиска.

Например, статья об упаковке может вывести на упаковку и зерен злаковых, и ТВЭЛов (тепловыделяющих элементов) в активной зоне ядерного реактора с математическими формализмами, сходными с интересующей нас задачей упаковки зерен породы в межгранулярном коллекторе.

Поисковые системы (поиск по входящим в узлы словам, являющимся серьезным расширением алфавитного каталога) не всегда удобны. Во многих случаях трудно или невозможно сформулировать ключевые слова, но если тематика точно известна, наиболее подходящим инструментом поиска оказываются каталоги (предметные указатели).

Широко известным ресурсом-каталогом является "Yahoo!" (www.yahoo.com). В его основе лежат ссылки на любимые узлы, собранные двумя студентами Стэнфордского университета Д.Фило и Д.Янгом. В 1994 г. их увлечение стало их основной деятельностью. "Yahoo!" больше всего напоминает систематический каталог.

В большинстве поисковых механизмов используются автоматизированные агенты, называемые пауками (spiders). Они предназначены для отслеживания любой гиперссылки и используют средства, которые автоматически индексируют отдельное слово на странице. "Yahoo!" исходит из того, что просмотр узлов, аннотирование их содержимого и размещение его в соответствующих разделах иерархической классификационной структуры реально осуществляется людьми. Обращаясь к "Yahoo!", вы можете просмотреть рубрики, поискать термины, фигурирующие в названии рубрик или в аннотации узла. Поскольку результаты поисков представлены по рубрикам, местоположения сходных узлов легко установить просто щелчком мыши на названиях соответствующих рубрик. В "Yahoo!" предусмотрено выделение соответствующих названию каждой рубрики узлов c помощью пиктограммы (солнцезащитные очки) и предпочтительным размещением в списке результатов поиска.

Для ориентации в русскоязычном киберпространстве может помочь электронная версия "Желтых страниц Интернет (русские ресурсы)" издательства "Питер" (http://www.piter-press.ru/koi/yp/full_wersion/yp_toc.htm), и "Созвездие Интернет" (http://www.stars.ru).

Перейдем к описанию конкретных систем.

"AltaVista" (http://www.altavista.digital.com) фирмы Digital Equipment Corp. представляет собой функционально богатую и мощную программу для Web, осуществляющую поиск по всему тексту. "Alta Vista" была создана фирмой Digital Equipment Corporation (DEC) для демонстрации возможностей вычислительных машин, построенных на основе процессоров Alpha. Эта задача была успешно реализована.

По данным фирмы DEC на начало 1997 года, комплекс "Alta Vista" обслуживается шестью машинами, построенными на основе 64-разрядного процессора Alpha 266MHz. Самая мощная из них -- AlphaServer 8400 5/300. Эта 10-процессорная машина с 6 Гб оперативной памяти каждую секунду обслуживает несколько сотен запросов пользователей, успевая менее чем за секунду (!!!) просматривать индексную базу данных размером более 45 Гб. В мае 1996 г. "Alta Vista" уже индексировала около 30 млн. HTML-страниц и 13 тыс. групп новостей. В результате эта система выдает не всегда самый свежий, но наиболее полный результат поиска по всей Интернет. Поиск производится по введенному слову без учета морфологических вариаций; прописные и строчные буквы различаются. Подсистема "Power Search", которая входит в "Alta Vista", позволяет конструировать сложные запросы; пользуясь ими, можно учесть и морфологические вариации, и существенно повысить выход целевых ссылок.

Чтобы воспользоваться функцией Simple Search (Простой поиск), предусмотренной в "AltaVista" по умолчанию, достаточно лишь набрать слова, по которым вы осуществляете поиск, и нажать кнопку Submit. Поскольку "AltaVista" часто отыскивает сотни или тысячи документов, вам придется также ознакомиться с функцией Advanced Search. При этом вы можете использовать логические операторы (AND, OR и NOT), задавать интервал между ключевыми словами, выполнять поиск с учетом регистра, ограничивать поиск Web-страницами с заданным интервалом дат, использовать трафаретные символы как в конце строки поиска, так и внутри слова. Можно, кроме того, предписать "AltaVista" отдавать предпочтение документам, содержащим определенные слова-идентификаторы.

Большинство популярных Web-серверов позволяет использовать мощные средства формирования запросов (используя булевы операторы) и последовательно сужать условия поиска до весьма высокой степени конкретизации. К настоящему времени почти все каталоги стали включать поисковые средства.

Из русскоязычных поисковых систем первые позиции занимает "Rambler" (http://www.rambler.ru). Эта система, поддерживаемая ТОО "Стек", создана специально для выявления материалов на серверах в пределах б. СССР (время создания - осень 1996г.).

"Rambler" поддерживает все кодировки кириллицы, обеспечивает полнотекстовый поиск на большинстве отечественных узлов, а количество проиндексированных страниц увеличивается ежедневно. Система имеет наглядный и дружественный интерфейс, позволяющий составить поисковое предписание без особого напряжения. Пользователям предлагается составить простой или углубленный запрос. Поиск при этом будет осуществляться в одном и том же информационном массиве, однако при простом запросе (основное меню) результат будет урезан. При углубленном запросе появляется возможность большей детализации. Механизм поиска предусматривает применение операторов AND и OR, а также позволяет производить усечения слов с использованием традиционных сокращений "*" или "?". Применение углубленного запроса (объем возможных ссылок расширяется), позволяет уточнить поисковое предписание по дате обновления искомого документа, и указать термины, появление которых в источнике следует исключить.

Одним из достоинств "Rambler" является вывод результатов поиска. Помимо ссылки включается название, электронный адрес, кодировка, размер и время обновления документа, а также резюме, из которого можно получить представление о том, в каком контексте употреблены искомые термины (они выделены жирным шрифтом). Блок искусственного интеллекта "Rambler" производит ранжирование результатов в зависимости от частоты употребления и местоположения искомых терминов (термин, находящийся в title или head, "весит" больше, чем находящийся в body). Поэтому в начале списка представлены ссылки на источники, выглядящие наиболее значимыми.

Поисковые системы удобны для поиска по схеме использования своего прототипа (алфавитных каталогов). Так, пока русскоязычные ресурсы можно искать по сочетанию имени и фамилии с темой (конечно, фамилия "Иванов" и слово "продажа" вряд ли ускорят поиск). В последние годы появляются новые механизмы - дома и улицы, на которых размещаются родственные по смыслу узлы. Большое распространение получают тематические обзоры.

Умение задавать вопросы вообще, и составлять запросы, в частности, - серьезная проверка Вашего интеллекта. Проблема заключается обычно не в том, что найдено мало ссылок. Наоборот, их оказывается слишком много, и преимущественно - не про то, что ищешь.

Указанные в этом разделе возможности следует рассматривать только как начальные и временные. Каталожные и поисковые службы непрерывно совершенствуются в условиях жесточайшей конкуренции. Они снабжены справочным материалами по использованию; описывать их здесь более детально нецелесообразно.

Периодическое использование каталогов и поисковых механизмов очень полезно для обзора ситуации (не появилось ли что-то новое). Однако, "старый друг дороже новых двух", поэтому особенно важно организовать работу с собственными ресурсами.

Организация работы в Интернет

Кажущаяся обширность поискового пространства иллюзорна (большая часть бесплатных страниц малоинформативна или содержит рекламную информацию). Более того, часто наиболее ценная информация нестационарна (исчезает или становится платной). Поэтому продуманная организация работы в Интернет крайне важна.

Вообще характер работы с Интернет сильно зависит от стоимости этой работы во временном и стоимостном выражении. Нередко работа в Интернет (еще в большей мере, чем работа в библиотеке) - относительно дорогое удовольствие. Это заставляет существенную часть работы выполнять вне сеанса связи. Cтудент, хотя и пользуется бесплатным каналом связи, но на ПК коллективного пользования, что затрудняет пользование такими механизмами работы, как папка "Избранное".

Мы рекомендуем следующую схему работы (рис.3). Работа проводится в три этапа - подготовка ("препроцессинг"), сеанс связи (непосредственно рабочий процесс или "процессинг"), анализ полученной информации ("постпроцессинг").

Рис. 3. Рекомендуемая схема работы в Интернет.

В ходе подготовки формируется план поиска информации и оформляется в виде текстового файла. Такой план включает: название искомых целей, конкретные URL, ключевые слова для поиска. Конечно, можно держать план в голове или записать его на клочке бумажки, но это упростит подготовку, но саму не работу. Ведь в ходе работы можно переносить и URL, и ключевые слова, через буфер. Такая организация ускоряет работу: искать ошибки в набивке слова и URL перед экраном с просмотрщиком (browser) - не лучшее времяпрепровождение. Она позволяет лучше сконцентрироваться, если Вы работаете одновременно с несколькими окнами.

В процессе работы полезно запоминать в этот же файл или его копию значения URL для наиболее интересных, с Вашей точки зрения, узлов с краткими комментариями. Полезно заранее вычленить разделы, отвечающие разным задачам.

В ходе работы полезно разбегаться по темам с некоторыми ограничениями. Так, часть окон можно выделить на фоновую или побочную тему или импровизации в ходе поиска, но по другим желательно жестко придерживаться намеченного плана. Это, конечно, не мешает Вам сбрасывать URL перспективных узлов для последующего анализа.

Вообще полезно в начале работы сформировать несколько директорий (с мнемоническими именами) для того, чтобы сбрасывать в них найденную информацию.

Если Ваш ПК - коллективного пользования, то активное использование опции "Избранное" может привести к конфликтам. Поэтому работу следует перевести в режим постпроцессинга.

Результатом его может быть не только анализ полученных материалов, но и переформирование файла, содержащего список избранных узлов и ключевых слов. Таким образом все успешные поисковые слова собираются в компактном виде, что формирует профильный фильтр, отражающий Ваши текущие интересы. Полезно иметь его в систематизированном виде.

Поскольку Интернет динамичен, полезно фиксировать и времена посещения узлов. Универсальных рецептов создания рубрикаций нет, но, продумав один раз собственную рубрикацию, и начав ее систематически использовать, Вы существенно сэкономите свое время и силы.

Целевой поиск

Первое путешествие ("разминку") в киберпространстве следует начать с больших и хорошо обжитых узлов (можно рекомендовать www.cityline.ru и www.infoart.ru, а на любителя подойдет www.mafia.spb.ru). Освоившись и погуляв по ссылкам, можно перейти к целевому поиску.

Начать можно с уже упомянутых поисковых систем ("Rambler" и "AltaVista"). Вначале надо четко понять и сформулировать, что Вы ищете. Можно использовать не только понятия, но и уникальные идентификаторы которые могут встретиться (фамилии, ссылки). Такой поиск напоминает поиск по SCI (Scienсe Citation Index - индекс научного цитирования).

Однако, ссылки и найденные статьи надо где-то хранить. Для этого постройте личный каталог и библиотеку. Лучше всего построить каталог с запасом. Чтобы понять, как может быть построен Ваш каталог, стоит прикинуть сферу Ваших интересов в Интернет на ближайшие годы. Интересы и их приоритеты меняются, ресурсы информации растут слабо предсказуемым образом, поэтому Ваш каталог будет меняться.

Табл.4. Пример личного каталога

Разное Компьютер Интернет и геофизика
Политика
Философия
Психология
Математика
Геоциклометрия
Нейронные сети
Hobby
Компьютерные фирмы
Утилиты
Программы
Базы данных
Компьютерная периодика
1001 программа (описания возможностей)
Графика
Web-дизайн
Программирование
Геофизика
Геофизические фирмы
Петрофизика
Числовые данные
Ресурсы

В табл.4 приведен каталог, который можно принять за основу (разумные классификации строятся не формально, а по интересам).

Каталоги такого рода можно наполнить очень быстро. Особенно важна их персонализация. Лучше маленький каталог и активно используемые ресурсы, чем груда неосвоенных ресурсов.

Поиск в Интернете можно проводить в следующих источниках профессиональной информации.

В России в ближайшее время войдут в строй геофизические серверы ГЛАВНИВЦ и ЦГЭ.

В курсовых проектах планируется создание информационных страничек по проблемам ГИС с перспективой создания кафедральной Web-страницы. Опыт эксплуатации кафедральной сети может быть использован и в РГУ НГ при организации дистанционного обучения.

<< НазадСодержание | На главную Далее >>