Компьютерная лингвистика
создание документов онлайн
Документы и бланки онлайн

Обследовать

Администрация
Механический Электроника
биологии
география
дом в саду
история
литература
маркетинг Общение Управление человеческих ресурсов
математике
медицина
музыка
образование
психология
разное
художественная культура
экономика




















































Компьютерная лингвистика

Общение


Отправить его в другом документе Tab для Yahoo книги - конечно, эссе, очерк Hits: 2162


дтхзйе дплхнеофщ

МЫСЛЕКОД
Тест Томаса-Килменна
«Спецпропаганда» в условиях войны
Деятельность Общественно-консультативного совета по таможенной политике при ФТС России
Установление каналов коммуникаций в конфликте
ФОНЕТИКА
Международный конфликт
Основные приемы использования СМИ в международном, политическом и социальном конфликтах
Формирование деловой репутации таможенной службы
 

Компьютерная лингвистика

1.1. Компьютерная лингвистика как прикладная лингвистическая дисциплина

Под термином «компьютерная лингвистика» (computational linguis­tics) обычно понимается широкая область использования компьютерных инструментов — программ, компьютерных технологий организации и об­работки данных — для моделирования функционирования языка в тех или иных условиях, ситуациях, проблемных областях, а также сфера применения компьютерных моделей языка не только в лингвистике, но и в смежных с ней дисциплинах. Собственно, только в последнем случае речь идет о прикладной лингвистике в строгом смысле, поскольку компьютерное моделирование языка может рассматриваться и как сфера приложения теории программирования (computer science) в области лин­гвистики. Тем не менее общая практика такова, что сфера компьютерной лингвистики охватывает практически все, что связано с использовани­ем компьютеров в языкознании: «Термин "компьютерная лингвистика" задает общую ориентацию на использование компьютеров для решения разнообразных научных и практических задач, связанных с языком, никак не ограничивая способы решения этих задач» [Городецкий 1989, с. 10].

В данном параграфе особое внимание уделяется компьютерным мо­делям отдельных фрагментов языковой системы, поскольку они позволя­ют расширить возможности использования языка как средства познания. Внимание к языку как средству познания объясняет возрастание роли концептуального аппарата теории знаний, возникшей в искусственном интеллекте и окончательно сформировавшейся в когнитивной науке (cog­nitive science), в теоретической и прикладной лингвистике.

Институциональный аспект компьютерной лингвистики. Как особое научное направление компьютерная лингвистика1) оформилась в 60-е гг. Поток публикаций в этой области очень велик. Кроме тематических



1)Русский термин «компьютерная лингвистика» является калькой с соответствующего английского термина computational linguistics. Поскольку прилагательное computational по-русски может переводиться как «вычислительный», в литературе встречается также термин «вычислительная лингвистика», однако по-русски он приобретает более узкое значение, почти приближающееся к «квантитативной лингвистике». В [Городецкий 1989, с. 10] отмеча­ется: «Термин (...) "вычислительная линг 353j96bd вистика" может пониматься более узко, ибо даже при широкой трактовке понятия "вычисление" за его пределами как бы остаются такие стороны решения лингвистических задач, как, например, представление знаний, организа­ция банков языковых данных (..). Тем самым можно считать, что термин "компьютерная лингвистика" (по своей внутренней форме) шире, чем "вычислительная линг 353j96bd вистика"»..

сборников, в США ежеквартально выходит журнал «Компьютерная лин­гвистика». Большую организационную и научную работу проводит Ас­социация по компьютерной лингвистике, которая имеет региональные структуры по всему миру (в частности, европейское отделение). Каж­дые два года проходят международные конференции по компьютерной лингвистике — КОЛИНГ. Соответствующая проблематика широко пред­ставлена также на международных конференциях по искусственному интеллекту разных уровней.

1.2. Когнитивный инструментарий компьютерной лингвистики

Компьютерная лингвистика как особая прикладная дисциплина вы­деляется прежде всего по инструменту — то есть по использованию ком­пьютерных средств обработки языковых данных. Поскольку компьютер­ные программы, моделирующие те или иные аспекты функционирования языка, могут использовать самые разные средства программирования, то об общем метаязыке говорить вроде бы не приходится. Однако это не так. Существуют общие принципы компьютерного моделирования мышле­ния, которые так или иначе реализуются в любой компьютерной модели. В основе этого языка лежит теория знаний, разработанная в искусствен­ном интеллекте и образующая важный раздел когнитивной науки.

Основной тезис теории знаний гласит, что мышление — это про­цесс обработки и порождения знаний. «Знания» или «знание» считается неопределяемой категорией. В качестве «процессора», обрабатывающе­го знания, выступает когнитивная система человека. В эпистемологии и когнитивной науке различают два основных вида знаний — деклара­тивные («знание что») и процедурные («знание как»2)). Декларативные знания представляются обычно в виде совокупности пропозиций, утвер­ждений о чем-либо. Типичным примером декларативных знаний мож­но считать толкования слов в обычных толковых словарях. Например, чашка] — 'небольшой сосуд для питья округлой формы, обычно с руч­кой, из фарфора, фаянса и т. п.' [MAC]. Декларативные знания поддаются процедуре верификации в терминах «истина—ложь». Процедурные знания представляются как последовательность (список) операций, действий, которые следует выполнить. Это некоторая общая инструкция о действи­ях в некоторой ситуации. Характерный пример процедурных знаний — инструкции по пользованию бытовыми приборами. Ср. текст инструкции о настойке видеосигнала для видеомагнитофона:

1) Выберите видеоканал. 2) Включите выключатель «Проверочный канал». 3) Установите переключатель «Система» в «I» положение. 4) От­регулируйте ТВ канал таким образом, чтобы настроечная сетка была четко видна.

2)Разграничение между «знанием что» и «знанием как» восходит к Райлу [Ryle 1949)

В отличие от декларативных знаний, процедурные знания невоз­можно верифицировать как истинные или ложные. Их можно оценивать только по успешности—неуспешности алгоритма.

Большинство понятий когнитивного инструментария компьютерной лингвистики омонимично: они одновременно обозначают некоторые ре­альные сущности когнитивной системы человека и способы представле­ния этих сущностей на некоторых метаязыках. Иными словами, элементы метаязыка имеют онтологический и инструментальный аспект. Онтоло­гически разделение декларативных и процедурных знаний соответствует различным типам знаний когнитивной системы человека. Так, знания о конкретных предметах, объектах действительности преимущественно декларативны, а функциональные способности человека к хождению, бегу, вождению машины реализуются в когнитивной системе как про­цедурные знания. Т. Виноград в связи с этим отмечает: «Очевидно, что многое из того, что мы знаем, лучше представляется процедурно; такое знание интерпретировать чисто декларативно трудно. Если мы хотим, чтобы робот действовал в относительной простой среде (такой, напри­мер, как игровые кубики), то мы сделаем это наиболее естественно, описав его манипуляции как программы» [Winograd 1975, р. 189]. Ин­струментально знание (как онтологически процедурное, так и декларатив­ное) можно представить как совокупность дескрипций, описаний и как алгоритм, инструкцию. Иными словами, онтологически декларативное знание об объекте действительности «стол» можно представить процедур­но как совокупность инструкций, алгоритмов по его созданию, сборке (= креативный аспект процедурного знания) или как алгоритм его типич­ного использования (= функциональный аспект процедурного знания). В первом случае это может быть руководство для начинающего столяра, а во втором — описание возможностей офисного стола. Верно и обратное: онтологически процедурное знание можно представить декларативно.

Требует отдельного обсуждения, всякое ли онтологически деклара­тивное знание представимо как процедурное, а всякое онтологически процедурное — как декларативное. Исследователи сходятся в том, что всякое декларативное знание в принципе можно представить процедурно, хотя это может оказаться для когнитивной системы очень неэкономным. Обратное вряд ли справедливо. Дело в том, что декларативное знание существенно более эксплицитно, оно легче осознается человеком, чем процедурное. В противоположность декларативному знанию, процедур­ное знание преимущественно имплицитно. Так, языковая способность, будучи процедурным знанием, скрыта от человека, не осознается им. По­пытка эксплицировать механизмы функционирования языка приводит к дисфункции. Специалистам в области лексической семантики извест­но, например, что длительная семантическая интроспекция, необходимая для изучения плана содержания слова, приводит к тому, что исследо­ватель частично теряет способность к различению правильных и непра­вильных употреблений анализируемого слова. Можно привести и другиепримеры. Известно, что с точки зрения механики тело человека является сложнейшей системой двух взаимодействующих маятников. Представьте себе человека, который внимательно анализирует каждое свое движение в процессе ходьбы — далеко ли он уйдет? В одном из фантастических рассказов описывается вполне правдоподобная трагикомическая ситуа­ция: герой рассказа, обладавший способностью летать, полностью теряет ее после того, как группа высоколобых научных консультантов начинает изучать, как он это делает. Иными словами, экспликация имплицитно­го процедурного знания часто приводит к его разрушению. Тем самым возникает вопрос о возможности декларативного представления любого процедурного знания.

В теории знаний для изучения и представления знания используют­ся различные структуры знаний — фреймы, сценарии, планы. Согласно М. Минскому, «фрейм — это структура данных, предназначенная для представления стереотипной ситуации» [Минский 1978, с. 254]. Более раз­вернуто можно сказать, что фрейм является концептуальной структурой для декларативного представления знаний о типизированной тематически единой ситуации, содержащей слоты, связанные между собой определен­ными семантическими отношениями. В целях наглядности фрейм часто представляют в виде таблицы, строки которой образуют слоты. Каждый слот имеет свое имя и содержание (см. табл. 1).

Таблица 1

Фрагмент фрейма «стол» в табличном представлении

Имя слота

Содержание слота

количество ножек

четыре, возможно больше, минимум три

материал

дерево, пластмасса, стекло

поверхность

прямоугольник, овал, круг, квадрат

наличие тумб

факультативно

функции

обеденный, журнальный, рабочий и пр.

и т.д.

В зависимости от конкретной задачи структуризация фрейма может быть существенно более сложной; фрейм может включать вложенные подфреймы и отсылки к другим фреймам.

Вместо таблицы часто используется предикатная форма предста­вления. В этом случае фрейм имеет форму предиката или функции с аргументами. Существуют и другие способы представления фрейма. Например, он может представляться в виде кортежа следующего вида:

.

Обычно такой вид имеют фреймы в языках представлениях знаний. Так, в базе данных по кадрам фреймы представляются как последова­тельность свойств служащего:

.

Как и другие когнитивные категории компьютерной лингвистики, понятие фрейма омонимично. Онтологически — это часть когнитивной системы человека, и в этом смысле фрейм можно сопоставить с такими понятиями как гештальт, прототип, стереотип, схема. В когнитивной пси­хологии эти категории рассматриваются именно с онтологической точки зрения. Так, Д. Норман различает два основных способа бытования и ор­ганизации знаний в когнитивной системе человека — семантические сети и схемы. «Схемы, — пишет он, — представляют собой организованные пакеты знания, собранные для репрезентации отдельных самостоятель­ных единиц знания. Моя схема для Сэма может содержать информацию, описывающую его физические особенности, его активность и индиви­дуальные черты. Эта схема соотносится с другими схемами, которые описывают иные его стороны» [Норман 1998, с. 359]. Если же брать инструментальную сторону категории фрейма, то это структура для де­кларативного представления знаний. В имеющихся системах ИИ фреймы могут образовывать сложные структуры знаний; системы фреймов допус­кают иерархию — один фрейм может быть частью другого фрейма.

По содержанию понятие фрейма очень близко категории толкова­ния. Действительно, слот — аналог валентности, заполнение слота — аналог актанта. Основное отличие между ними заключается в том, что толкование содержит только лингвистически релевантную информацию о плане содержания слова, а фрейм, во-первых, не обязательно привязан к слову, и, во-вторых, включает всю релевантную для данной проблемной ситуации информацию, в том числе и экстралингвистическую (знания о мире)3).

Сценарий представляет собой концептуальную структуру для про­цедурного представления знаний о стереотипной ситуации или стерео­типном поведении. Элементами сценария являются шаги алгоритма или инструкции. Обычно говорят о «сценарии посещения ресторана», «сце­нарии покупки» и т.п. Характерный пример приводится в [Норман 1998, с. 361]: «Посмотрим, каким может быть в общих чертах сценарий поведе­ния в ресторане. Вы входите в ресторан и находите свободный столик — иногда сами, а иногда ждете, чтобы вам его указали. Садитесь и ждете.

3) Интересно, что Ч. Филлмор, обсуждая различия между категориями сцены, фрей­ма, схемы, шаблона, сценария, прототипа и т.п., связывает с фреймом лингвистически обусловленные характеристики структуры знаний: «Мы можем употреблять термин фрейм, когда имеем в виду специфическое лексико-грамматическое обеспечение, которым распо­лагает данный язык для наименования и описания категорий и отношений, обнаруженных в схемах» [Филлмор 1983, с. 110].

Через некоторое время подходит официант и подает вам меню (а в Соеди­ненных Штатах также стакан воды). Официант уходит, потом возвраща­ется, чтобы принять заказ. Немного погодя он приносит кушанья, и вы едите. Затем официант вручает вам счет, и вы платите или ему самому, или в кассу. Оставляете чаевые, даже если еда вам не понравилась». Из приведенного описания посещения ресторана видно, что сценарные знания тесно связаны с определенной культурой. Норман сам отмечает специфическую особенность американских ресторанов, в которых офи­циант вместе с меню приносит клиенту стакан воды. Для российской традиции нетривиальным оказывается и оплата счета в кассу, а не офи­цианту. Процедурные знания в большей степени связаны с культурной традицией, чем декларативные. Это, по-видимому, объясняется тем, что процедурное знание, как правило, описывает поведение, которое более социологизировано, чем представление об абстрактных категориях типа движения, времени, пространства и пр. Последние более универсальны, чем способы принятия пищи, освященные традицией ритуалы выбора спутника/спутницы жизни, представления о карьере и успехе. Впро­чем, многие декларативные знания прямо зависят от обучения и опыта взаимодействия с окружающим миром.

Изначально фрейм также использовался для процедурного предста­вления (ср. термин «процедурный фрейм»), однако сейчас в этом смысле чаще употребляется термин «сценарий». Сценарий можно представить не только в виде алгоритма, но и в виде сети, вершинам которой соответ­ствуют некоторые ситуации, а дугам — связи между ситуациями. Наряду с понятием сценария, некоторые исследователи привлекают для ком­пьютерного моделирования интеллекта категорию скрипта. По Р. Шенку, скрипт — это некоторая общепринятая, общеизвестная последователь­ность причинных связей [Schank 1981]. Например, понимание диалога

На улице льет как из ведра.

Все равно придется выходить в магазин: в доме есть нечего вчера
гости все подмели.

основывается на неэксплицированных семантических связях типа 'если идет дождь, на улицу выходить нежелательно, поскольку можно заболеть'. Эти связи формируют скрипт, который и используется носителями языка для понимания речевого и неречевого поведения друг друга.

В результате применения сценария к конкретной проблемной си­туации формируется план4). План используется для процедурного пред­ставления знаний о возможных действиях, ведущих к достижению опре­деленной цели. План соотносит цель с последовательностью действий.

4)Термин «план» используется в когнитивных науках и искусственном интеллекте в самых разнообразных значениях. Например, под планом может пониматься мысленная репрезентация некоторого действия, которое выполняется в отношении некоторого объекта [Солсо 1996]. В других случаях план связывается с мотивами и намерениями участников [Schank 1981]. Здесь обсуждается только одно из наиболее распространенных пониманий.

В общем случае план включает последовательность процедур, переводя­щих начальное состояние системы в конечное и ведущих к достижению определенной подцели и цели. В системах ИИ план возникает в ре­зультате планирования или планирующей деятельности соответствующе­го модуля — модуля планирования. В основе процесса планирования может лежать адаптация данных одного или нескольких сценариев, ак­тивизированных тестирующими процедурами, для разрешения проблем­ной ситуации. Выполнение плана производится экзекутивным модулем, управляющим когнитивными процедурами и физическими действиями системы. В элементарном случае план в интеллектуальной системе пред­ставляет собой простую последовательность операций; в более сложных версиях план связывается с конкретным субъектом, его ресурсами, воз­можностями, целями, с подробной информацией о проблемной ситуации и т. д. Возникновение плана происходит в процессе коммуникации между моделью мира, часть которой образуют сценарии, планирующим модулем и экзекутивным модулем.

В отличие от сценария, план связан с конкретной ситуацией, кон­кретным исполнителем и преследует достижение определенной цели. Выбор плана регулируется ресурсами исполнителя. Выполнимость пла­на — обязательное условие его порождения в когнитивной системе, а к сценарию характеристика выполнимости неприложима.

Еще одно важное понятие — модель мира. Под моделью мира обыч­но понимается совокупность определенным образом организованных знаний о мире, свойственных когнитивной системе или ее компьютер­ной модели. В несколько более общем виде о модели мира говорят как о части когнитивной системы, хранящей знания об устройстве мира, его закономерностях и пр. В другом понимании модель мира связывает­ся с результатами понимания текста или — более широко — дискурса. В процессе понимания дискурса строится его ментальная модель, которая является результатом взаимодействия плана содержания текста и знаний о мире, свойственных данному субъекту [Джонсон-Лэрд 1988, с. 237 и да­лее]. Первое и второе понимание часто объединяются. Это типично для исследователей-лингвистов, работающих в рамках когнитивной лингви­стики и когнитивной науки. Ср. характерное высказывание Ч. Филлмора: « → .

Использование сюжетных грамматик в компьютерном моделирова­нии оказалось не вполне удачным. Синтактический компонент сюже­та, описываемый грамматиками, отражает чисто внешние особенности текста. Не удается обнаружить операциональные критерии выделения различных составляющих сюжета. Например, где в сюжете эпизод, а где событие? Попытка использовать грамматики сюжетов для порождения сюжета приводит к тому, что порождаются тексты, которые не отвеча­ют интуитивному представлению о рассказе. Например, терминальная цепочка, порождаемая одной из грамматик обсуждаемого типа, «Экспо­зиция + Тема + Сюжет + Разрешение» вполне может быть приписана предписаниям-советам следующего вида: «Вас позвали на рыбалку, а вы ничего в этом не смыслите. Что ж, сначала вам надо обзавестись ры­боловными снастями. Вы можете пойти в магазин и купить спиннинг. Чтобы выбрать хороший спиннинг, надо...» [Black, Bower 1980].

Основной вывод дискуссии о недостатках сюжетных грамматик свел­ся к необходимости описания сюжета в рамках структуры целесообраз­ной деятельности, то есть с привлечением категорий «цель», «проблема», «план» и т.д. Иными словами, метаязыка, учитывающего только внеш­ние особенности сюжета, явно недостаточно. Необходимо обращение к когнитивным состояниям персонажей.

Когнитивный подход к сюжету. В начале 80-х гг. одной из учениц Р. Шенка — В. Ленерт — в рамках работ по созданию компьютерного генератора сюжетов был предложен оригинальный формализм аффектив­ных сюжетных единиц (АСЕ — Affective Plot Units), оказавшийся мощным средством представления структуры сюжета [Lehnert 1982]. При том, что он был изначально разработан для системы ИИ, этот формализм исполь­зовался в чисто теоретических исследованиях. Сущность подхода Ленерт заключалась в том, что сюжет описывался как последовательная сме­на когнитивно-эмоциональных (аффективных) состояний персонажей. Тем самым в центре внимания формализма Ленерт стоят не внешние компоненты сюжета — экспозиция, событие, эпизод, мораль — а его содержательные характеристики. В этом отношении формализм Ленерт отчасти оказывается возвращением к идеям Проппа.

Каждая аффективная сюжетная единица представляет собой бинар­ное отношение, связывающее некоторые события, оцениваемые пер­сонажами положительно (+) или отрицательно ( —), и когнитивно-эмоциональные состояния персонажей (в различных комбинациях — событие & состояние; событие & событие и т. д.). Бинарное отноше­ние не однородно. Всего выделяется пять типов бинарных отношений, специфицируемых в каждой аффективной сюжетной единице. Бинарное отношение может быть мотивацией (обозначение — т), актуализацией (а), прекращением одного действия другим (t), эквивалентностью (е), а также аф­фективной каузальной связью между персонажами. Каждая аффективная сюжетная единица получает название, например, УСПЕХ, НЕУДАЧА, УПОРСТВО, ПРОБЛЕМА и т.д. (список элементарных сюжетных еди­ниц см. в Задании 2).

В разных вариантах формализма выделяется от 20 до 60 простых и комплексных аффективных сюжетных единиц. Сюжету рассказа «Дары Волхвов» ОТенри в этом формализме можно сопоставить следующую интерпретацию (сокращенный вариант):


Делла

↓m

M1

↓а

М2

+

↓m

M3

↓а

+

↓t

+

↓t

↓t

+

Джим

↓m

M1

↓а

М2

+

↓m

M3

↓а

+

↓t

+

↓t

↓t

+


Из приведенной интерпретации сюжета видно, что в целом опти­мистическое звучание рассказа обеспечивается сюжетной конфигурацией разрешения проблемы (негативно оцениваемая ситуация сменяется по­зитивно оцениваемой ситуацией).

Идеология разложения сюжета на аффективные единицы успешно использовалась как в области компьютерного моделирования, так и в соб­ственно гуманитарной сфере. Большой методологический интерес в этой связи представляет работа В. Ленерт, X. Олкера и Д. Шнайдера «Две реин-терпретации сюжета об Иисусе Тойнби» [Alker, Lehnert, Schneider 1985], в которой формализм, предназначенный для машинной реализации, ис­пользуется для выявления сюжетных сверток евангельского текста, объ­ясняющих, почему именно тексты Евангелий оказали огромное влияние на миллионы людей и на европейскую культуру. Удалось выявить не­сколько таких сюжетных мотивов, повторяющихся в фольклоре и мифах, и занимающих центральное положение в сюжетной структуре Евангелий. К ним относится, в частности, идея «восстания против неправедной власти и успех восстания, интерпретируемый как тайное блаженство, достигаемое ценой собственной смерти».

1. Постройте фреймы для описания объектов, обозначаемых сло­вами дом, здание, изба, шалаш, сарай, халупа. Сравните фреймы с толкованиями в толковых словарях или своими собственными толкованиями соответствующих лексем.

Задание 2. Типичный пример сюжетной грамматики — грамматика Манд-лера и Джонсона [Mandler, Johnson 1977]. Ниже в упрощенном виде приводятся основные правила этой грамматики:

(1)  фабула → рассказ и мораль

(2)  рассказ → событийная структура и обрамление

(3)  обрамление → состояние событие)

(4)  состояние → состояние ((и состояние))

(5)  событие → событие ((\и/затем/причина\ событие)) ((и состояние))

(6)  событийная структура → эпизод ((затем эпизод))

(7)  эпизод → начало причина развитие причина окончание

(8)  начало → событие/эпизод

(9)  развитие → (простая реакция причина действие)/(сложная реакция причина путь к цели)

(10)простая реакция → внутреннее событие ((причина внутреннее событие))

(11)действие → событие

(12)сложная реакция → простая реакция причина цель

(13)цель → внутреннее состояние

(14)путь к цели → (попытка причина результат)/(путь к цели причина путь к цели)

(15)попытка → событие

(16)результат → событие/эпизод

(17)окончание → (событие эмфаза))/эмфаза/эпизод

(18)эмфаза → состояние

И, затем, причина — связки между составляющими сюжета, отражающие, соответственно, временные и причинные отношения.

(i) Постройте с помощью грамматики Мандлера и Джонсона структуру сюжета сказки «О курочке Рябе» по следующему тексту:

Жили-были дед да баба. И была у них курочка Ряба. Снесла раз курочка яичко, да не простое яичко, а золотое. Дед бил, бил — не разбил. Баба била, била — не разбила. Мышка пробежала, хвостиком махнула — яичко упало и разбилось. Плачет дед, плачет баба, и говорит им курочка Ряба: «Не плачь дед, не плачь баба. Снесу я вам яичко другое, не золотое, а простое».

(ii) Постройте с помощью грамматики Мандлера и Джонсона структуру сюжета сказок «Лиса и кувшин», «Лиса и журавль», «Лисичка-сестричка и серый волк», используя любые имеющиеся издания.

Задание 3. Ниже приводится набор простейших сюжетных единиц форма­лизма Ленерт (список сюжетных единиц Ленерт дается по [Олкер 1987, с. 423]).

I Аффективные сюжетные единицы, характеризующие эмоциональное состояние одного персонажа:


М

↓а

+

успех

М

↑е



М

Упорство

+

↑t

разрешение

проблемы

М

↓а

неудача

+

↑е

смешанное

чувство

-

↑t

+

поражение

↓m

M

проблема

↑е

+

скрытое

блаженство

+

↑t

+

смена

позитивных

состояний

+

↓m

M

активация

↑е

негативный

комплекс

↑t

смена

негативных

состояний

М

↓m

M

мотивация

+

↑е

+

позитивный

комплекс

M

↑t

M

изменение

намерений


II. Аффективные сюжетные единицы, связывающие эмоциональные состо­яния двух персонажей:

?                      ?                           −                      +                      М

−                      +                           М                     М                     М


(i) Постройте с помощью формализма Ленерт структуру сюжета сказки «О курочке Рябе» по тексту, приведенному выше.

(ii) Постройте с помощью формализма Ленерт структуру сюжета сказок «Лиса и кувшин», «Лиса и журавль», «Лисичка-сестричка и серый волк», используя любые имеющиеся издания. Выделите часто повторяющиеся последовательности аффективных сюжетных единиц.

Комментарий к заданию. В формализме аффективных единиц смена эмоцио­нальных состояний каждого персонажа изображается сверху вниз в виде столбцов. На каждый персонаж заводится особый столбец. Ментальные состояния нумеру­ются. См. пример представления сюжетной структуры рассказа «Дары Волхвов» выше.

1.4. Гипертекстовые технологии представления текста

Феномен гипертекста можно обсуждать с нескольких точек зрения. С одной стороны, это особый способ представления, организации текста, с другой — новый вид текста, противопоставленный по многим своим свойствам обычному тексту, сформированному в гутенберговской тради­ции книгопечатания. И, наконец, это новый способ, инструмент и новая технология понимания текста.

1.4.1 Историческое замечание. Идея гипертекста связывается с именем Ванневара Буша — советника президента Рузвельта по науке. В. Буш теоретически обосновал проект технической системы «Мемекс», которая позволяла пользователю связывать тексты и их фрагменты по различным типам связей, преимущественно по ассоциативным отношениям. Отсутствие компьютерной техники сделало проект трудно реализуемым, поскольку механическая система оказалась чрезмерно сложной для практического воплощения. Идея В. Буша в 60-е гг. получила второе рождение в системе «Ксанаду» Т. Нельсона, которая уже предполагала использование компьютерной техники. «Ксанаду» позволял пользователю прочитывать совокупность введенных в систему текстов различными способами, в различной последовательности, программное обеспечение давало возможность как запоминать последовательность просмотренных текстов, так и выбирать из них практически любой в произвольный момент времени. Множество текстов со связывающими их отношениями (системой переходов) было названо Т. Нельсоном гипертекстом.

1.4.2. Теоретические основания гипертекста. Многие исследователи рассматривают создание гипертекста как начало новой информационной эпохи, противопоставленной эре книгопечатания. Линейность письма, внешне отражающая линейность речи, оказывается фундаментальной категорией, ограничивающей мышление человека и понимание текста. Мир смысла нелинеен, поэтому сжатие смысловой информации в линейном речевом отрезке требует использования специальных «коммуникативных упаковок» — членение на тему и рему, разделение плана содержания высказывания на эксплицитные (утверждение, пропозиция, фокус) и имплицитные (пресуппозиция, следствие, импликатура дискурса) слои. Отказ от линейности текста и в процессе его представления читателю (чтения и понимания), и в процессе синтеза, по мнению теоретиков, способствовал бы «освобождению» мышления и даже возникновению его новых форм.

Прототипический текст — это монолог. Между тем многие лингвисты (и среди них М. Бахтин и Л. Якубинский) указывали на вторичность монолога по сравнению с диалогом. Гипертекст с этой точки зрения позволяет устранить искусственную монологичность текста.

Обычный текст, как правило, имеет автора. Гипертекст автора в тра­диционном понимании не имеет — у него множество авторов, причем для постоянно изменяющегося гипертекста авторский коллектив также постоянно меняется. Изменение статуса автора меняет и статус читателя: в гипертекстовой системе понимание часто сопровождается изменением компонентов гипертекста или, как минимум, выбором пути просмотра, что опять-таки акт творческий, авторский.

Множественность авторства имеет и еще одно следствие: в гипертек­сте представлено много точек зрения на проблему, а в обычном тексте — только одна. Именно поэтому гипертекст более объективен и более толе-рантен к читателю, чем классический текст.

Гипертекстовые технологии позволяют легко сочетать различные ви­ды информации — обычный текст, рисунок, график, таблицу, схему, звук и движущееся изображение. Как традиционный текст, так и ги­пертекст — феномены, порожденные новыми технологиями. В первом случае технология позволила легко тиражировать и распространять зна­ния самых различных типов, а во втором — компьютерные технологии дали возможность изменить сам внешний вид текста и его структу­ру. Разнородность гипертекста — это первое технологическое свойство гипертекста, технологическое в том смысле, что оно непосредственно следует из используемой компьютерной технологии. Второе технологи­ческое свойство гипертекста — его нелинейность. Гипертекст не имеет стандартной, обычной последовательности чтения. Прочие свойства ги­пертекста в той или иной степени являются следствиями из этих двух технологических свойств.

Суммировать различия текста и гипертекста можно следующим об­разом:

•    конечность, законченность традиционного текста vs. бесконечность, незаконченность, открытость гипертекста;

•    линейность текста vs. нелинейность гипертекста;

•    точное авторство текста vs. отсутствие авторства (в традиционном понимании) у гипертекста;

•    снятие противопоставления между автором и читателем;

•    субъективность, односторонность обычного текста vs. объективность, многосторонность гипертекста;

•    однородность обычного текста vs. неоднородность гипертекста.

1.4.3. Компоненты гипертекста. Структурно гипертекст может быть пред­ставлен как граф, в узлах которого находятся традиционные тексты или их фрагменты, изображения, таблицы, видеоролики и т.д. Узлы связаны разнообразными отношениями, типы которых задаются разработчиками программного обеспечения гипертекста или самим читателем. Отноше­ния задают потенциальные возможности передвижения или навигации по гипертексту. Отношения могут быть однонаправленными или дву­направленными. Соответственно, двунаправленные стрелки позволяют двигаться пользователю в обе стороны, а однонаправленные — только в одну. Цепочка узлов, через которые проходит читатель при просмотре компонентов текста, образует путь или маршрут.


A

B

C

D

E

F

R

T

U

O

P

L

K

J

H

I


Маршруты через узлы В, U, L и Е, О, I соответствуют различным прочтениям гипертекста. Тип чтения гипертекста определяется не только маршрутом, но и качественными характеристиками, связанными с по­ниманием информации, содержащейся в узлах. Медленное чтение пред­полагает внимательное знакомство с информацией каждого узла. Часто медленное чтение сопровождается заметками, которые читатель может привязывать к узлам гипертекста. Быстрое чтение — браузинг — наиболее часто используется в информационных системах, основанных на гипер­текстовой технологии. При поиске конкретной информации пользователь быстро передвигается по узлам сети, маркируя нужные фрагменты. Для браузинга создается специальная программная поддержка.

Совокупность смежных узлов образует окрестность данного узла. По­нятно, что окрестность узла образуют те узлы, в которых содержится информация, близкая по семантике к содержанию данного узла. Узлы сети, в которые входит и выходит много стрелок-отношений, образу­ют центральную часть гипертекста, а те, которые почти изолированы от других узлов — его периферию.

1.4.4. Элементы типологии гипертекста. Первое противопоставление от­носится к структуре гипертекста. Гипертекст может быть иерархическим или сетевым. Иерархическое — древовидное — строение гипертекста существенно ограничивает возможности перехода между его компонен­тами. В таком гипертексте отношения между компонентами напоминают структуру тезауруса, основанного на родо-видовых связях. Иерархический гипертекст не реализует всех возможностей технологии гипертекста. В среде разработчиков гипертекстовых систем он не пользуется попу­лярностью (хотя и довольно часто реализуется в работающих системах). Т. Нельсон по поводу иерархического гипертекста писал: «На мой взгляд, иерархии ложны. Они представляют собой слишком сильные упрощения действительности»8). Сетевой гипертекст позволяет использовать различ­ные типы отношений между компонентами, не ограничиваясь отноше­ниями «род—вид».

Второе противопоставление характеризует не саму структуру гипер­текста, а возможности программного обеспечения. Здесь различаются простые и сложные гипертексты. Примером простого программного обес­печения гипертекста может служить электронное оглавление документа, которое позволяет перейти к любой части оглавления, минуя этап просмо­тра всего текста. К простому гипертексту относится и система, которая дает возможность просматривать отсылки к литературе, содержащиеся в тексте, не обращаясь непосредственно к списку литературы. Сложные гипертексты обладают богатой системой переходов между компонентами гипертекста, в них отсутствует представление о базовом тексте, с кото­рым связаны второстепенные по значимости тексты. В некотором смысле нормальный, обычный гипертекст и является сложным гипертекстом.

По способу существования гипертекста выделяются статические и ди­намические гипертексты. Статический гипертекст не меняется в процессе эксплуатации; в нем пользователь может фиксировать свои коммента­рии, однако они не меняют существо дела. Для динамического гипер­текста изменение является нормальной формой существования. Обычно динамические гипертексты функционируют там, где необходимо посто­янно анализировать поток информации, то есть в информационных службах различного рода. Гипертекстовой является, например, Аризон-ская информационная система (AAIS), которая ежемесячно пополняется на 300-500 рефератов в месяц.

Отношения между элементами гипертекста могут изначально фикси­роваться создателями, а могут порождаться всякий раз, когда происходит обращение пользователя к гипертексту. В первом случае речь идет о гипер­текстах жесткой структуры, а во втором — о гипертекстах мягкой структуры. Жесткая структура технологически вполне понятна. Технология органи­зации мягкой структуры должна основываться на семантическом анализе близости документов (или других источников информации) друг к другу. Это нетривиальная задача компьютерной лингвистики. В настоящее вре­мя широко распространено использование технологий мягкой структуры на ключевых словах. Переход от одного узла к другому в сети гипер­текста осуществляется в результате поиска ключевых слов. Поскольку набор ключевых слов каждый раз может различаться, каждый раз ме­няется и структура гипертекста. Жесткость или мягкость архитектуры

8)Цитируется по [Субботин 1994, с. 51].

гипертекста зависит и от количества информации, которая в нем со­держится. Если узлов в сети гипертекста порядка одной—трех тысяч, то чаще всего используется жесткая архитектура, если же количество узлов достигает нескольких десятков тысяч или даже миллионов единиц, то мягкая структура оказывается более предпочтительной, поскольку ко­дировка жестких связей отнимает слишком много времени. Заметим, что структура Интернета часто функционирует как гипертекст мягкой

архитектуры.

Технология построения гипертекстовых систем не делает различий между текстовой и нетекстовой информацией. Между тем включение визуальной и звуковой информации (видеороликов, картин, фотогра­фий, звукозаписей и т. п.) требует существенного изменения интерфейса с пользователем и более мощной программной и компьютерной под­держки. Такие системы получили название гипермедиа или мультиме­диа. Наглядность мультимедийных систем предопределила их широкое использование в обучении, в создании компьютерных вариантов эн­циклопедий. Известны, например, прекрасно выполненные CD-ромы с мультимедийными системами по детским энциклопедиям издательства «Дорлинг Киндерсли».

1.4.5. Некоторые гипертекстовые системы. Технологически в основе ги­пертекста лежат компьютерные программы, которые поддерживают сле­дующие базовые функции:

•    обеспечение быстрого просмотра информационного массива (браузинг);

•    обработка ссылочных отношений (обращение и вызов фрагмента текста или другой информации, на которую производится отсылка);

•    навигация по гипертексту, запоминание маршрута движения; представление пути движения в легко воспринимаемой форме;

•    возможность формирования обычного линейного текста как результата движения по гипертексту;

•    дополнение гипертекста новой информацией;

•    введение новых отношений в структуру гипертекста (для систем с жесткой структурой).

Программные оболочки гипертекста, как правило, универсальны. Они могут использоваться в различных областях для создания темати­чески разных гипертекстов. Таковы, например, оболочка ZOG и раз­работанная на ее основе промышленная гипертекстовая система KMS (университет Карнеги-Меллон, США). Сферы применения этих гипер­текстовых систем необычайно разнообразны — от работы с документа­цией и поддержки электронной почты до гипертекстов, предназначенных для экспертов, работающих над бюджетом. Имеются и специализирован­ные системы. Так, система NoteCards (продукт компании «Xerox PARC») предназначена для аналитической работы, а система WE, моделирующая особенности получения нового знания — для помощи в авторской работе. Наиболее популярны в настоящее время программные пакеты HyperCard компании «Apple». Они относительно просты в использовании. Гипер­текст в оболочке HyperCard представляется в виде каталожных карто­чек. Пользователь с помощью довольно простого интерфейса организует структуру карточки и устанавливает связи между карточками. Пакеты HyperCard позволяют сочетать различные типы информации, в частности карточки могут включать графическую, звуковую и др. информацию. Следует отметить, что современные базы данных также включают поля для визуальной и звуковой формы данных (ср., например, базу данных ACCESS 7, работающую в среде Windows). Близка к HyperCard по своим свойствам и программа SuperCard фирмы «Silicon Beach». Некоторые системы гипертекста содержат специальные средства ориентации пользо­вателя в гиперпространстве — карты или закладки, отмечающие наиболее посещаемые узлы гипертекста. Комплексом средств ориентации обладает система Hypergate Writer фирмы «Eastgate Systems Inc».

* * *

Место лингвистов в проектах по созданию гипертекстовых систем не определено еще достаточно четко, но лингвистическая поддержка ги­пертекстовой технологии необходима. Для гипертекстов с мягкой структу­рой требуется разработка семантических процессоров, устанавливающих отношения семантической близости между документами в автоматиче­ском режиме. Гипертексты с жесткой структурой требуют установле­ния системы смысловых отношений между компонентами гипертекста, что является одной из важнейших задач лингвистической семантики и лингвистики текста. Особая задача, которая не получила достаточного освещения в литературе по данной проблематике — отбор информации в узлы сети гипертекста. Эта сфера относится как к инженерии знаний, так и к работе лингвиста-прикладника, определяющего какие смысло­вые связи должны быть оставлены во фрагменте текста, помещаемого в узел системы гипертекста, а какие могут быть «обрублены», элими­нированы. Принципы отбора семантических отношений определяются практическими задачами гипертекстовой системы.

Задание 1. Известно, что обычный текст содержит некоторые компоненты, которые в большей степени характеризуют гипертекст. Например, оглавление, аппарат сносок и примечаний — все это инструменты создания нелинейности текста, обеспечения системы нелинейных переходов. Какие элементы гипертекста обнаруживаются в следующих текстах:

•   в тексте библии и евангелий;

•   в газетной, журнальной и щитовой рекламе;

•   в словарях и энциклопедиях;

•   в деловых и информационных справочниках типа «Москва  — золотые
страницы», «Досуг в Москве и Петербурге».

Задание 2. Многие хорошо известные программные продукты включают элементы гипертекста. Выявите и опишите элементы гипертекста в следующих программах:

•    в текстовом редакторе WinWord;

•    в операционной среде Windows-95.

Основная литература

1.  Баранов А. Н. Категории искусственного интеллекта в лингвистической семантике. Фреймы и сценарии. М., 1987.

2.  Городецкий Б. Ю.  Компьютерная лингвистика:  моделирование языкового общения // Новое в зарубежной лингвистике. Вып. XXIV. Компьютерная лингвистика. М., 1989. С. 5-31.

3.  Войскунский А. Е. Моделирование мышления // Речевое общение: проблемы и перспективы. М., 1983. С. 16-60.

4.  Олкер X. Р.  Волшебные сказки, трагедии и способы изложение мировой истории // Язык и моделирование социального взаимодействия. М., 1987. С. 408-440.

5.  Поспелов Д. А.  Ситуационное управление. Теория и практика.  М.,   1986. С. 71-83; 99-106.

6.  Субботин М. М. Гипертекст. Новая форма письменной коммуникации // ВИНИТИ. Сер. Информатика. Т. 18. М., 1994.

Дополнительная литература

1.  Баранов А. Н., Паршин П. Б. Варианты и инварианты текстовых макроструктур (к формированию когнитивной теории текста) // Проблемы языковой вариативности. М., 1990. С. 135-168.

2.  Цимбурский В. Л. Макроструктура повествования и механизмы его социального воздействия // Когнитивные исследования за рубежом. Методы искусственного интеллекта в моделировании политического мышления. М., 1990. С. 34-61.