В глобальных информационно-телекоммуникационных сетях сегодня циркулирует 4·1016 байт (40 петабайт) неструктурированной и полуструктурированной информации, главным образом текстов. В связи с этим возникают как минимум две группы задач: анализ отдельных текстов и анализ больших массивов, состоящих из сотен миллионов текстов.
展开▼