Для установки нажмите кнопочку Установить расширение. И это всё.

Исходный код расширения WIKI 2 регулярно проверяется специалистами Mozilla Foundation, Google и Apple. Вы также можете это сделать в любой момент.

4,5
Келли Слэйтон
Мои поздравления с отличным проектом... что за великолепная идея!
Александр Григорьевский
Я использую WIKI 2 каждый день
и почти забыл как выглядит оригинальная Википедия.
Статистика
На русском, статей
Улучшено за 24 ч.
Добавлено за 24 ч.
Альтернативы
Недавние
Show all languages
Что мы делаем. Каждая страница проходит через несколько сотен совершенствующих техник. Совершенно та же Википедия. Только лучше.
.
Лео
Ньютон
Яркие
Мягкие

Мангеймский корпус немецкого языка

Из Википедии — свободной энциклопедии

Мангеймский корпус немецкого языка (COSMAS corpora или DeReKo) — это коллекция современных немецкоязычных текстов, поддерживаемая Институтом немецкого языка в городе Маннгейм (Германия). В корпусе представлены различные типы текстов: научная и научно-популярная литература, большое количество газетных текстов, художественная проза, и др. Представляя собой самое большое в мире электронное собрание современных немецкоязычных текстов, является инструментом корпусной лингвистики.

Альтернативные названия

Мангеймский корпус немецкого языка имеет несколько альтернативных названий, таких как German Reference Corpus, IDS corpora, COSMAS corpora. С 2004 года официальное название корпуса — Deutsches Referenzkorpus (DeReKo).

История создания

История создания корпуса в Институте немецкого языка (IDS) началась в 1964 году, когда Пауль Гребе (Paul Grebe) и Ульрих Энгель (Ulrich Engel) создали «Мангеймский Корпус 1» — проект, в котором к 1967 году было успешно собрано около 2,2 млн часто употребляемых слов немецкой письменной речи. С этого времени база электронных текстовых данных дополнялась и расширялась за счёт ряда последующих проектов по сбору корпуса. К 2013 году DeReKo является одним из основных ресурсов во всем мире для изучения немецкого языка. Темпы роста объёма корпуса — около 300 миллионов слов в год. Поставив основной целью «изучение немецкого языка в его современном использовании», Институт IDS проводит политику по обеспечению долгосрочной работы DeReKo.

Ключевыми особенностями DeReKo являются:

  • крупнейшая лингвистически мотивированная коллекция немецких текстов
  • разрабатывается с 1964 года
  • постоянно расширяется
  • содержит тексты, созданные начиная с 1956 года
  • содержит материалы из художественной литературы, научных и газетных текстов, а также некоторых других типов текста
  • содержит только полные тексты
  • содержит только неизмененные тексты (без орфографических исправлений и т. п.)
  • содержит только лицензированные тексты

Основная цель DeReKo состоит в том, чтобы служить в качестве практической основы для научного исследования современной немецкой письменной речи. Одним из важных принципов является то, что в центре внимания находится сам язык, а не информация, передаваемая им.

Состав корпуса

В корпусе представлены различные типы текстов: художественная проза, научная и научно-популярная литература, периодика и др. Имеется также подкорпус устной речи (разговорная речь, записи речи носителей различных диалектов и др.). Ресурс включает созданную на основе корпуса базу данных по сочетаемости слов немецкого языка.

Данный корпус содержит 6 основных подкорпусов:

  • Корпус письменной речи 1.370.766.704 словоупотребления
  • Корпус новых поступлений 181.319.744 словоупотребления
  • Archiv der phasengegliederten Wendecorpora 3.813.688 словоупотреблений
  • Картотека общества немецкого языка
  • Исторический корпус 6.296.361 словоупотребление
  • Морфосинтаксически размеченный корпус 29.695.096 словоупотреблений

Корпус письменной речи включает в себя 3 собственно Мангеймских корпуса, а также множество других (беллетристика, исторические корпуса, публицистика, собрание сочинений Карла Маркса и Фридриха Энгельса, корпус Томаса Манна, корпус интервью и т. д.).

Объём корпуса

Объём корпуса составляет более 1846 млн словоупотреблений. В отличие от других известных корпусов (таких как, например, Британский национальный корпус), DeReKo нацелен на охват максимально возможного объёма текстов, а не на сбалансированность их состава: распределение текстов по времени создания или по типу текста не соответствует заранее заданным процентным соотношениям.

Разметка и аннотации

В DeReKo присутствует лемматизация и морфологическая разметка, но лишь для части текстов. Однако, в архиве имеется несколько полных согласованных аннотаций на разных языковых уровнях (по крайней мере, на уровнях части речи и синтаксиса). Из-за большого размера корпуса ни ручное аннотирование, ни ручное управление автоматической аннотацией не могут быть осуществимы. В результате ожидаемая степень неточности очень высока, особенно там, где есть лингвистически сложные явления.

Метаданные

Основные единицы текста в корпусе DeReKo сопровождаются специальной информацией — метаданными. Важным принципом корпуса является то, что эти метаданные должны быть доступными. Какая конкретно информация доступна, зависит от источника данных и типа текста.

Основные категории метаданных:

  • дата публикации
  • время и период создания
  • имя автора
  • имя издателя
  • среда публикации (газета, книга, информационное агентство)
  • место публикации
  • тип текста
  • темы и их категории
  • информация о копиях
  • размер копий
  • число слов/предложений/параграфов
  • признаки старой и новой орфографии
  • условия лицензии

Доступ

Из-за авторских прав и лицензионных ограничений базы данных архивов DeReKo нельзя копировать или загружать с сайта на жесткий диск. Но эти данные можно запросить и проанализировать бесплатно через систему COSMAS II[1], пользователи которой должны зарегистрироваться и принять соглашение на использование данных исключительно для некоммерческих, образовательных целей. COSMAS II позволяет использовать корпус DeReKo для решения конкретных научных задач.

Примечания

  1. Система COSMAS II. Дата обращения: 17 октября 2013. Архивировано 22 октября 2013 года.

См. также

Литература

Ссылки

Эта страница в последний раз была отредактирована 25 декабря 2022 в 08:07.
Как только страница обновилась в Википедии она обновляется в Вики 2.
Обычно почти сразу, изредка в течении часа.
Основа этой страницы находится в Википедии. Текст доступен по лицензии CC BY-SA 3.0 Unported License. Нетекстовые медиаданные доступны под собственными лицензиями. Wikipedia® — зарегистрированный товарный знак организации Wikimedia Foundation, Inc. WIKI 2 является независимой компанией и не аффилирована с Фондом Викимедиа (Wikimedia Foundation).