В статье излагаются принципы создания сбалансированного корпуса русского литературного языка объемом 1 млн. словоупотреблений с разделением на подкорпусы (художественная литература, драматургия, научно-популярная проза и публицистика). Корпус создан в Лаборатории моделирования речевой деятельности факультета филологии и искусств Санкт-Петербургского государственного университета. В текстах корпуса восстановлена буква ё и обеспечена сплошная акцентуация. При морфологическом аннотировании применяется система дескрипторов, несколько отличающаяся от обычно используемых.
展开▼