🗊Лекция 4. Экстралингвистическая разметка. Метаданные. В.П. Захаров Санкт-Петербургский государственный университет

Категория: Литература
Нажмите для полного просмотра!
Лекция 4. Экстралингвистическая разметка. Метаданные.   В.П. Захаров  Санкт-Петербургский государственный университет, слайд №1Лекция 4. Экстралингвистическая разметка. Метаданные.   В.П. Захаров  Санкт-Петербургский государственный университет, слайд №2Лекция 4. Экстралингвистическая разметка. Метаданные.   В.П. Захаров  Санкт-Петербургский государственный университет, слайд №3Лекция 4. Экстралингвистическая разметка. Метаданные.   В.П. Захаров  Санкт-Петербургский государственный университет, слайд №4Лекция 4. Экстралингвистическая разметка. Метаданные.   В.П. Захаров  Санкт-Петербургский государственный университет, слайд №5Лекция 4. Экстралингвистическая разметка. Метаданные.   В.П. Захаров  Санкт-Петербургский государственный университет, слайд №6Лекция 4. Экстралингвистическая разметка. Метаданные.   В.П. Захаров  Санкт-Петербургский государственный университет, слайд №7Лекция 4. Экстралингвистическая разметка. Метаданные.   В.П. Захаров  Санкт-Петербургский государственный университет, слайд №8Лекция 4. Экстралингвистическая разметка. Метаданные.   В.П. Захаров  Санкт-Петербургский государственный университет, слайд №9Лекция 4. Экстралингвистическая разметка. Метаданные.   В.П. Захаров  Санкт-Петербургский государственный университет, слайд №10Лекция 4. Экстралингвистическая разметка. Метаданные.   В.П. Захаров  Санкт-Петербургский государственный университет, слайд №11Лекция 4. Экстралингвистическая разметка. Метаданные.   В.П. Захаров  Санкт-Петербургский государственный университет, слайд №12Лекция 4. Экстралингвистическая разметка. Метаданные.   В.П. Захаров  Санкт-Петербургский государственный университет, слайд №13Лекция 4. Экстралингвистическая разметка. Метаданные.   В.П. Захаров  Санкт-Петербургский государственный университет, слайд №14Лекция 4. Экстралингвистическая разметка. Метаданные.   В.П. Захаров  Санкт-Петербургский государственный университет, слайд №15Лекция 4. Экстралингвистическая разметка. Метаданные.   В.П. Захаров  Санкт-Петербургский государственный университет, слайд №16

Вы можете ознакомиться и скачать Лекция 4. Экстралингвистическая разметка. Метаданные. В.П. Захаров Санкт-Петербургский государственный университет. Презентация содержит 16 слайдов. Презентации для любого класса можно скачать бесплатно. Если материал и наш сайт презентаций Вам понравились – поделитесь им с друзьями с помощью социальных кнопок и добавьте в закладки в своем браузере.

Слайды и текст этой презентации


Слайд 1





Лекция 4.
Экстралингвистическая разметка. Метаданные. 
В.П. Захаров
Санкт-Петербургский государственный университет
Описание слайда:
Лекция 4. Экстралингвистическая разметка. Метаданные. В.П. Захаров Санкт-Петербургский государственный университет

Слайд 2





Метаразметка 
 Метаданные – 
структурированные данные о данных:
помогают установить порядок среди хаоса, 
позволяют осуществить автоматическое обнаружение и обработку данных.
Описание слайда:
Метаразметка  Метаданные – структурированные данные о данных: помогают установить порядок среди хаоса, позволяют осуществить автоматическое обнаружение и обработку данных.

Слайд 3





Экстралингвистическая разметка 
"внешняя", "интеллектуальная" разметка
	библиографические характеристики
	типологические характеристики  
	тематические характеристики
	социологические характеристики
	………………………….
"формальная" структурная разметка 
	текст, раздел, глава, часть, абзац, предложение …
технико-технологическая разметка
	кодировка
	даты обработки
	исполнители
	источник электронной версии
	…………………………
Описание слайда:
Экстралингвистическая разметка "внешняя", "интеллектуальная" разметка библиографические характеристики типологические характеристики тематические характеристики социологические характеристики …………………………. "формальная" структурная разметка текст, раздел, глава, часть, абзац, предложение … технико-технологическая разметка кодировка даты обработки исполнители источник электронной версии …………………………

Слайд 4





"Внешняя", "интеллектуальная" разметка 
Нужна: 
для выявления взаимосвязи языка и условий его существования;
для изучения отдельных подмножеств языка.
	
	Выделяют два класса факторов, влияющих на язык текстов:
внешние, внеязыковые факторы (E - external);
внутренние факторы (I - internal).
( См. Sinclair (1996). Preliminary recommendations on text typology. EAGLES Document EAG-TCWG-TTYP/P. http://www.ilc.pi.cnr.it/EAGLES96/texttyp/texttyp.html)
Описание слайда:
"Внешняя", "интеллектуальная" разметка Нужна: для выявления взаимосвязи языка и условий его существования; для изучения отдельных подмножеств языка. Выделяют два класса факторов, влияющих на язык текстов: внешние, внеязыковые факторы (E - external); внутренние факторы (I - internal). ( См. Sinclair (1996). Preliminary recommendations on text typology. EAGLES Document EAG-TCWG-TTYP/P. http://www.ilc.pi.cnr.it/EAGLES96/texttyp/texttyp.html)

Слайд 5





"Внешняя", "интеллектуальная" разметка (продолжение)
Синклер  выделяет: 
три группы E-факторов:
Е1 (origin) - факторы, относящиеся к созданию текста автором;
E2 (state) - факторы, относящиеся к внешним признакам текста (включая устную или письменную речь);
Е3 (aims) - факторы, относящиеся к причинам создания текста и его влиянию на аудиторию.
и две группы I-факторов:
I1 (topic) - предметная область текста;
I2 (style) - стилистические особенности (стиль, жанр).
Описание слайда:
"Внешняя", "интеллектуальная" разметка (продолжение) Синклер выделяет: три группы E-факторов: Е1 (origin) - факторы, относящиеся к созданию текста автором; E2 (state) - факторы, относящиеся к внешним признакам текста (включая устную или письменную речь); Е3 (aims) - факторы, относящиеся к причинам создания текста и его влиянию на аудиторию. и две группы I-факторов: I1 (topic) - предметная область текста; I2 (style) - стилистические особенности (стиль, жанр).

Слайд 6





Набор метаданных в «Национальном корпусе русского языка»
Первый блок:
автор текста: имя, пол, дата рождения (или примерный возраст); 
название текста; 
время и место создания текста (может указываться точно или приблизительно); 
объем текста: для художественных произведений принято, что обычная длина рассказа – менее 5 тыс. слов; обычная длина повести – от 5 до 15 тыс. слов; обычная длина романа – более 15 тыс. слов.
Второй блок:
параметры метаописания трех основных массивов текстов корпуса: 
художественных текстов; 
нехудожественных текстов; 
драматургии.
Описание слайда:
Набор метаданных в «Национальном корпусе русского языка» Первый блок: автор текста: имя, пол, дата рождения (или примерный возраст); название текста; время и место создания текста (может указываться точно или приблизительно); объем текста: для художественных произведений принято, что обычная длина рассказа – менее 5 тыс. слов; обычная длина повести – от 5 до 15 тыс. слов; обычная длина романа – более 15 тыс. слов. Второй блок: параметры метаописания трех основных массивов текстов корпуса: художественных текстов; нехудожественных текстов; драматургии.

Слайд 7





Художественные тексты (в НКРЯ):
жанр текста 
	нежанровая проза, автобиографическая проза, детектив, детская литература, историческая проза, криминальная литература, приключения, фантастика, юмор и сатира 
тип текста 
	автобиографическая проза, анекдот, ассоциа­тивная проза, боевик, детектив, очерк, литературное письмо, повесть, притча, пьеса, рассказ, роман, сказка, триллер, эпопея, эссе и др.; 
хронотоп текста 
	приблизительное указание на место и время описываемых в тексте событий
	Реально предлагается следующее: древний Восток; Россия XVII в.; Россия XIX в.; Россия/СССР: советский период в целом; Россия, советский период – Германия 1920–1940-е годы; Россия/СССР – Европа 1960-1980-е годы; Россия/СССР: перестройка; Россия/СССР: советский и постсоветский период; Америка: современная жизнь; Израиль: современная жизнь; Средняя Азия: современная жизнь; ирреальный мир и др. 
Также может быть «хронотоп не определен».
Описание слайда:
Художественные тексты (в НКРЯ): жанр текста нежанровая проза, автобиографическая проза, детектив, детская литература, историческая проза, криминальная литература, приключения, фантастика, юмор и сатира тип текста автобиографическая проза, анекдот, ассоциа­тивная проза, боевик, детектив, очерк, литературное письмо, повесть, притча, пьеса, рассказ, роман, сказка, триллер, эпопея, эссе и др.; хронотоп текста приблизительное указание на место и время описываемых в тексте событий Реально предлагается следующее: древний Восток; Россия XVII в.; Россия XIX в.; Россия/СССР: советский период в целом; Россия, советский период – Германия 1920–1940-е годы; Россия/СССР – Европа 1960-1980-е годы; Россия/СССР: перестройка; Россия/СССР: советский и постсоветский период; Америка: современная жизнь; Израиль: современная жизнь; Средняя Азия: современная жизнь; ирреальный мир и др. Также может быть «хронотоп не определен».

Слайд 8





Нехудожественные тексты
(в НКРЯ):
тип текста
автобиография, акт, дневник, договор, доку­мент, закон, заметка, заявление, инструкция, информационное сообщение, кодекс, комментарий, листовка, обзор, объявление, отзыв, отчет, очерк, письмо, постановление, проповедь, путево­дитель, резюме, реклама, рекомендация, рецензия, рецепт, сочи­нение, справочник, статья, учебник, характеристика, хроника, эссе, юридический документ (включается также помета «тип не определен») и пр. (всего 62 параметра);
тематика текста 
открытый список в 5 подмножествах: бизнес, коммерция, экономика, финансы; война и вооруженные конфликты; дом и домашнее хозяйство; здоровье и медицина; зрелища и развлечения; искусство; криминал; наука (по разделам и отраслям); политика и общественная жизнь; право; производ­ство; сельское хозяйство; спорт; природа; частная жизнь и т.п.
Описание слайда:
Нехудожественные тексты (в НКРЯ): тип текста автобиография, акт, дневник, договор, доку­мент, закон, заметка, заявление, инструкция, информационное сообщение, кодекс, комментарий, листовка, обзор, объявление, отзыв, отчет, очерк, письмо, постановление, проповедь, путево­дитель, резюме, реклама, рекомендация, рецензия, рецепт, сочи­нение, справочник, статья, учебник, характеристика, хроника, эссе, юридический документ (включается также помета «тип не определен») и пр. (всего 62 параметра); тематика текста открытый список в 5 подмножествах: бизнес, коммерция, экономика, финансы; война и вооруженные конфликты; дом и домашнее хозяйство; здоровье и медицина; зрелища и развлечения; искусство; криминал; наука (по разделам и отраслям); политика и общественная жизнь; право; производ­ство; сельское хозяйство; спорт; природа; частная жизнь и т.п.

Слайд 9





Служебная, или «имплицитная» метаразметка (в НКРЯ)
«текст-стиль», при этом выделяются академический, научно-популярный, официально-деловой, нейтральный, сниженный, сниженный с элементами грубого просторечия и жаргона, архаизованный, индивидуально-авторский, диалектный и пр. (всего 21); 
аудитория-возраст; 
аудитория-уровень образования; 
аудитория-размер.
Описание слайда:
Служебная, или «имплицитная» метаразметка (в НКРЯ) «текст-стиль», при этом выделяются академический, научно-популярный, официально-деловой, нейтральный, сниженный, сниженный с элементами грубого просторечия и жаргона, архаизованный, индивидуально-авторский, диалектный и пр. (всего 21); аудитория-возраст; аудитория-уровень образования; аудитория-размер.

Слайд 10





Программа метаразметки 
Systemic Coder 

	Systemic Coder - программа, облегчающая процесс метаописания корпуса текстов. Метаданные задаются на основе классификационной схемы.
	
Программа состоит из 5 интерфейсов.
Text Segmentation: разметка границ между сегментами текста; 
Scheme Management: настройка классификационной схемы;
Coding: разметка текста;
Review: просмотр размеченного текста;
Statistics: интерфейс, позволяющий получить описательную статистику о тексте, или разделить его на две или более совокупности и статистически их сравнить.
Описание слайда:
Программа метаразметки Systemic Coder Systemic Coder - программа, облегчающая процесс метаописания корпуса текстов. Метаданные задаются на основе классификационной схемы. Программа состоит из 5 интерфейсов. Text Segmentation: разметка границ между сегментами текста; Scheme Management: настройка классификационной схемы; Coding: разметка текста; Review: просмотр размеченного текста; Statistics: интерфейс, позволяющий получить описательную статистику о тексте, или разделить его на две или более совокупности и статистически их сравнить.

Слайд 11





Деление текста на отдельные сегменты
Описание слайда:
Деление текста на отдельные сегменты

Слайд 12





Классификационная схема 
Классификация состоит из 3 частей: 
имя (system name): идентификатор схемы;
признаки (features): варианты выбора;
условия ввода (entry-condition).
Расширенная классификационная схема:
Описание слайда:
Классификационная схема Классификация состоит из 3 частей: имя (system name): идентификатор схемы; признаки (features): варианты выбора; условия ввода (entry-condition). Расширенная классификационная схема:

Слайд 13





Создание и изменение классификационной схемы 
Управление классификационной схемой
Добавить признак (Add Feature): добавление нового признака в схему.
Переименование классификационной схемы (Rename System): изменение имени схемы.
Удаление классификации (Delete System): удаление классификации из схемы. Примечание: все признаки принадлежащие схеме и любая классификация, зависящая от нее будут также удалены. В настоящее время функция “Отменить” отсутствует.
Изменение условия ввода (Change Entry Condition): изменение условия ввода классификации с одного признака на другой. 
Игнорировать/Не игнорировать подсхему (Ignore/Unignore Subnet): [New] Отключение классификации. Отключенная классификация выделена серым цветом. Она будет проигнорирована в кодировке и статистическом анализе.
Управление признаками
Добавить классификацию (Add System): создание макета классификации
Переименовать признак (Rename Feature): изменение имени признака
Удалить признак (Delete Feature): удаление признака. Примечание: все признаки, принадлежащие классификации и любая классификация, зависящая от нее будут также удалены. В настоящее время функция “Отменить” отсутствует
Редактирование примеров (Edit Realisations): [New] Вы можете добавить примеров, прикрепленных за признаками
Показать примеры (Show Examples): [New] Выбрав эту опцию вы перемещаетесь в интерфейс Просмотра.
Описание слайда:
Создание и изменение классификационной схемы Управление классификационной схемой Добавить признак (Add Feature): добавление нового признака в схему. Переименование классификационной схемы (Rename System): изменение имени схемы. Удаление классификации (Delete System): удаление классификации из схемы. Примечание: все признаки принадлежащие схеме и любая классификация, зависящая от нее будут также удалены. В настоящее время функция “Отменить” отсутствует. Изменение условия ввода (Change Entry Condition): изменение условия ввода классификации с одного признака на другой. Игнорировать/Не игнорировать подсхему (Ignore/Unignore Subnet): [New] Отключение классификации. Отключенная классификация выделена серым цветом. Она будет проигнорирована в кодировке и статистическом анализе. Управление признаками Добавить классификацию (Add System): создание макета классификации Переименовать признак (Rename Feature): изменение имени признака Удалить признак (Delete Feature): удаление признака. Примечание: все признаки, принадлежащие классификации и любая классификация, зависящая от нее будут также удалены. В настоящее время функция “Отменить” отсутствует Редактирование примеров (Edit Realisations): [New] Вы можете добавить примеров, прикрепленных за признаками Показать примеры (Show Examples): [New] Выбрав эту опцию вы перемещаетесь в интерфейс Просмотра.

Слайд 14





Режим разметки
Описание слайда:
Режим разметки

Слайд 15





Интерфейс пользователя для поиска по метаданным:
Запросная форма НКРЯ для поиска по жанру текста:
нежанровая проза
автобиографическая проза
детектив
детская литература
историческая проза
криминальная литература
приключения
фантастика
юмор и сатира
Описание слайда:
Интерфейс пользователя для поиска по метаданным: Запросная форма НКРЯ для поиска по жанру текста: нежанровая проза автобиографическая проза детектив детская литература историческая проза криминальная литература приключения фантастика юмор и сатира

Слайд 16





Интерфейс пользователя для поиска по метаданным:
Запросная формы НКРЯ для поиска по автору текста:
Автор текста
Пол:
мужской
женский
любой
Год рождения: от … до …
Описание слайда:
Интерфейс пользователя для поиска по метаданным: Запросная формы НКРЯ для поиска по автору текста: Автор текста Пол: мужской женский любой Год рождения: от … до …



Похожие презентации
Mypresentation.ru
Загрузить презентацию