Для установки нажмите кнопочку Установить расширение. И это всё.

Исходный код расширения WIKI 2 регулярно проверяется специалистами Mozilla Foundation, Google и Apple. Вы также можете это сделать в любой момент.

4,5
Келли Слэйтон
Мои поздравления с отличным проектом... что за великолепная идея!
Александр Григорьевский
Я использую WIKI 2 каждый день
и почти забыл как выглядит оригинальная Википедия.
Статистика
На русском, статей
Улучшено за 24 ч.
Добавлено за 24 ч.
Альтернативы
Недавние
Show all languages
Что мы делаем. Каждая страница проходит через несколько сотен совершенствующих техник. Совершенно та же Википедия. Только лучше.
.
Лео
Ньютон
Яркие
Мягкие

Генеральный интернет-корпус русского языка

Из Википедии — свободной энциклопедии

Генеральный интернет-корпус русского языка
URL webcorpora.ru
Коммерческий нет
Тип сайта образовательный/научный проект
Регистрация есть: необходима для получения доступа к поиску
Язык (-и) русский
Расположение сервера Россия
Начало работы 2012 год
Текущий статус работает и развивается

Генера́льный интерне́т-ко́рпус ру́сского языка́ (ГИКРЯ) — доступный для поиска электронный онлайновый корпус русских текстов из сети интернет. Открыт в 2013 году. Корпус включает в себя текстовые материалы из блогосферы, социальных сетей, с крупнейших новостных ресурсов и из литературных журналов.

Цели проекта

Проект имеет статус учебно-научного, и многие задачи компьютерной лингвистики решаются независимыми исследователями и научными группами на материале, полученном ГИКРЯ. В то время как другие корпусные проекты фокусируют свое внимание на художественной литературе и отредактированных текстах, Генеральный интернет-корпус предоставляет российским лингвистам своевременную[1] возможность изучать язык как он есть, со всеми региональными и сленговыми особенностями.

Корпус дает возможность производить:

В разное время НИР и самостоятельные исследования на материале проекта вели студенты, аспиранты и сотрудники МГУ, МФТИ, РГГУ, НГУ, НИУ ВШЭ, ИЯ РАН, ЮФУ, ЧГУ, ВГПУ, ИСАА МГУ.

Научные руководители проекта:

В создании и поддержке проекта участвовали:

Объём и состав корпуса

Объём корпуса на лето 2016 года составляет 19,8 миллиарда словоупотреблений, из них 49 % приходится на «Вконтакте», 40 % — на Живой Журнал, еще по 4 % — на Блоги@Mail.ru и Новости, и 2 % — на Журнальный зал[4]. В сегменте Новостей собраны материалы из источников: РИА Новости, Regnum, Lenta.ru, Росбалт. Тексты снабжены метаразметкой (по дате создания текста, полу, месту и году рождения автора, интернет-жанру и так далее); все тексты снабжены автоматической морфологической разметкой и лемматизированы[4]. Большую часть текстов создают записи за 20132014 годы, хотя на некоторых сегментах, например, в Журнальном зале, собраны тексты начиная с 1994 года[5].

Подкорпус Слов, млн Текстов
Блоги@Mail.ru 707 9 882 120
ВКонтакте 9820 193 770 717
Живой Журнал 8110 73 229 158
Журнальный зал 313 56 547
Новостной подкорпус (РИА Новости, Regnum, Lenta.ru, Росбалт) 851 2 964 897
Весь корпус 19 801 279 903 439

ГИКРЯ является одним из немногих мегакорпусов, достигающих объемом нескольких миллиардов слов.

Корпус Языки Доступ Сайт Объем Возможности
COW: Free, Large Web Corpora in European Languages Английский, французский, немецкий, испанский, шведский, нидерландский бесплатно, после регистрации, возможен ознакомительный доступ без регистрации https://web.archive.org/web/20160221212019/https://webcorpora.org/ порядка 30 млрд слов формат KWIC, морфоразметка, поиск по CQP, разметка и поиск по дате, URL, стране, городу и т. д.
Sketch Engine английский, французский, немецкий, итальянский, арабский, русский, испанский, португальский, корейский, японский, китайский; больше языков доступны платно платно, после регистрации, возможен ознакомительный доступ https://www.sketchengine.co.uk/ 86 млрд слов конкордансы, скетч-грамматика, тезаурусы, KWIC, морфоразметка, поиск по CQP
Aranea Corpora английский, русский, финский, французский, немецкий, венгерский, испанский, итальянский, голландский, польский, словацкий бесплатно, после регистрации, возможен ознакомительный доступ без регистрации http://sketch.juls.savba.sk/aranea_about/  около 14 млрд слов noSketch Engine, конкордансы, скетч-грамматика, KWIC, морфоразметка, поиск по CQP, сравнение результатов запросов на разных языках
ГИКРЯ Генеральный интернет-корпус русского языка русский бесплатно, регистрация по запросу http://www.webcorpora.ru/ 20 млрд слов формат KWIC, морфоразметка, конкордансы, поиск по CQP, разметка и поиск по дате, стране, городу, сегменту рунета, полу, году и месту рождения автора, пересылка результатов пользователями друг другу
CORPUS OF GLOBAL WEB-BASED ENGLISH (GloWbE) английский, спецификация 20 стран мира без регистрации http://corpus.byu.edu/glowbe/ 1,9 млрд слов KWIC, конкордансы, коллокаты, сравнение результатов по диалектам, CQP, можно скачать весь корпус целиком

Доступ

В настоящее время интерфейс корпуса находится в стадии бета-тестирования, поэтому доступ к поиску по корпусу предоставляется и является бесплатным, однако предоставляется по заявке.

См. также

Примечания

  1. ВЛАДИМИР БЕЛИКОВ. Дата обращения: 26 декабря 2019. Архивировано 16 ноября 2019 года.
  2. Automatic Classification of Web Texts Using Functional Text Dimensions. Дата обращения: 8 июня 2016. Архивировано 26 июня 2016 года.
  3. Коллектив | ГИКРЯ. Дата обращения: 26 декабря 2019. Архивировано 5 января 2020 года.
  4. 1 2 Корпус | ГИКРЯ. Дата обращения: 26 декабря 2019. Архивировано 3 декабря 2019 года.
  5. #geekrya #geekrya_stats За какие.. | ГИКРЯ Генеральный интернет-корпус русского языка | VK

Литература

Ссылки

Эта страница в последний раз была отредактирована 17 февраля 2024 в 08:12.
Как только страница обновилась в Википедии она обновляется в Вики 2.
Обычно почти сразу, изредка в течении часа.
Основа этой страницы находится в Википедии. Текст доступен по лицензии CC BY-SA 3.0 Unported License. Нетекстовые медиаданные доступны под собственными лицензиями. Wikipedia® — зарегистрированный товарный знак организации Wikimedia Foundation, Inc. WIKI 2 является независимой компанией и не аффилирована с Фондом Викимедиа (Wikimedia Foundation).