Для установки нажмите кнопочку Установить расширение. И это всё.

Исходный код расширения WIKI 2 регулярно проверяется специалистами Mozilla Foundation, Google и Apple. Вы также можете это сделать в любой момент.

4,5
Келли Слэйтон
Мои поздравления с отличным проектом... что за великолепная идея!
Александр Григорьевский
Я использую WIKI 2 каждый день
и почти забыл как выглядит оригинальная Википедия.
Статистика
На русском, статей
Улучшено за 24 ч.
Добавлено за 24 ч.
Альтернативы
Недавние
Show all languages
Что мы делаем. Каждая страница проходит через несколько сотен совершенствующих техник. Совершенно та же Википедия. Только лучше.
.
Лео
Ньютон
Яркие
Мягкие

Национальный корпус русского языка

Из Википедии — свободной энциклопедии

Национальный корпус русского языка
URL ruscorpora.ru
Коммерческий нет
Тип сайта образовательный/научный проект
Регистрация есть: необходима для получения доступа к текстам; лицензионное соглашение
Язык (-и) русский/английский
Расположение сервера Россия
Владелец Институт русского языка имени В. В. Виноградова РАН
Начало работы 2003
Текущий статус работает и развивается

Национа́льный ко́рпус ру́сского языка́ (НКРЯ) — доступный для поиска электронный онлайн-корпус русскоязычных текстов.

Корпус открыт 29 апреля 2004 года. Также доступен для поиска исторический корпус церковнославянских, древнерусских (XI—XIV века) и среднерусских (XV — начало XVIII века) текстов.

Составители

Работы по созданию корпуса были начаты в 2001 году группой филологов из Москвы, Санкт-Петербурга, Воронежа и других городов.

В программе по созданию Национального корпуса русского языка участвуют специалисты следующих организаций[1]:

Состав корпуса

С. О. Савчук (ИРЯ РАН), доклад «Инструментарий национального корпуса русского языка в диахронических исследованиях», «Корпусная линвистика ‒ 2019», СПбГУ

В корпус входят как письменные тексты (художественные, мемуары, публицистика, научная, религиозная литература, повседневная печатная продукция), так и записи устных текстов (публичной речи и частных бесед).

В корпус также входят подкорпусы поэтических и диалектных текстов, корпусы параллельных текстов (корпусы, параллельные с русским, доступны для следующих языков: английский, армянский, белорусский, болгарский, бурятский, испанский, итальянский, китайский, латышский, немецкий, польский, украинский, французский, шведский, эстонский и многоязычный), отдельный газетный корпус (материалы СМИ начала XXI века), церковнославянский корпус (богослужебные тексты, современные (XIX—XX век) и более ранних периодов), исторический (в том числе древнерусский, старорусский, берестяных грамот), синтаксический, акцентологический, мультимедийный и обучающий подкорпусы.

С 2010 года в составе исторического подкорпуса Национального корпуса русского языка доступен текстовый корпус берестяных грамот с полной морфологической разметкой. Тексты берестяных грамот в составе корпуса интерактивно связаны с их представлением на сайте gramoty.ru[3].

Объём корпуса

Внешние видеофайлы
Зобнин А. Как устроен национальный корпус русского языка // ФКН ВШЭ, 2015, YouTube

Объём основного корпуса на декабрь 2023 года составлял 375 млн словоупотреблений, а общий объём корпусов превышает больше 2 млрд словоупотреблений[4].

Тексты снабжены метаразметкой (по дате создания, автору, жанру и тому подобному); словоформы в текстах снабжены автоматической морфологической и семантической разметкой; параллельные тексты выровнены; тексты поэтического корпуса снабжены также особой метрической разметкой.

1,5 % текстов снабжены морфологической[5] и семантической[6] разметкой со снятой вручную омонимией («дезамбигуированный подкорпус»).

Корпус Число текстов Число предложений Число словоупотреблений % словоупотреблений
Дезамбигуированная часть корпуса 2 тыс. 500 тыс. 6 млн 1,6 %
Основной корпус 84 тыс. 19,1 млн 209 млн 57,3 %
Весь корпус 342 тыс. 32 млн 364 млн 100 %

Доступ

В настоящее время свободным и бесплатным является только поиск по корпусу. Сайт корпуса и поиск по нему поддерживаются компанией «Яндекс», сотрудники которой принимали участие также в разработке программного обеспечения корпуса. Доступ ко всему корпусу (копирование и передача его базы данных) запрещён лицензионным соглашением. Для получения доступа к 1/6 размеченной части подкорпуса необходимо зарегистрироваться и принять лицензионное соглашение[7]. Проблему с ограничением доступа призван решить проект «Открытый корпус», также создающий корпус русского языка, но под свободной лицензией[8].

См. также

Примечания

  1. Участники проекта. Национальный корпус русского языка. Дата обращения: 7 марта 2018. Архивировано 8 марта 2018 года.
  2. О проекте. Параллельные корпуса письменных текстов. Национальный корпус русского языка. Дата обращения: 7 марта 2018. Архивировано 8 марта 2018 года.
  3. Зализняк А. А., Янин В. Л., Гиппиус А. А. Новгородские грамоты на бересте (из раскопок 2001—2014 гг.) Архивная копия от 27 марта 2019 на Wayback Machine. Том XII. — М.: Языки славянской культуры, 2015. — 288 с.
  4. Национальный корпус русского языка. ruscorpora.ru. Дата обращения: 7 марта 2018. Архивировано 7 октября 2011 года.
  5. Морфология. Национальный корпус русского языка. Дата обращения: 7 марта 2018. Архивировано 19 февраля 2018 года.
  6. Семантика. Национальный корпус русского языка. Дата обращения: 7 марта 2018. Архивировано 19 февраля 2018 года.
  7. Использование корпуса. Лицензионное соглашение. Национальный корпус русского языка. Дата обращения: 7 марта 2018. Архивировано 8 марта 2018 года.
  8. OpenCorpora: открытый корпус русского языка. opencorpora.org. Дата обращения: 26 января 2022. Архивировано 26 января 2022 года.

Литература

Ссылки

Эта страница в последний раз была отредактирована 20 января 2024 в 11:50.
Как только страница обновилась в Википедии она обновляется в Вики 2.
Обычно почти сразу, изредка в течении часа.
Основа этой страницы находится в Википедии. Текст доступен по лицензии CC BY-SA 3.0 Unported License. Нетекстовые медиаданные доступны под собственными лицензиями. Wikipedia® — зарегистрированный товарный знак организации Wikimedia Foundation, Inc. WIKI 2 является независимой компанией и не аффилирована с Фондом Викимедиа (Wikimedia Foundation).