воскресенье, 18 марта 2012 г.

Закон Ципфа

Американский лингвист Джордж Ципф, анализируя частотное распределение слов в языках, установил следующую эмпирическую закономерность.

Оказывается, что если упорядочить слова по частоте использования, то наиболее часто встречающееся слово будет встречаться примерно вдвое чаще следующего по частоте. Втрое чаще третьего по частоте, вчетверо чаще четвёртого и т.д.

Вот, например, среди слов, употреблённых в 423 выпусках журнала TIME, чаще всего встретилось  слово "the" - 15861 раз, следущее за ним слово "of" - 7239 раз, слово "to" - 6331 раз и т.д.

3 комментария:

  1. Любопытно будет это для русского языка проверить (всё-таки у нас артиклей нет, картин может оказаться непохожей). А ещё любопытней сравнить классический русский с современным форумным общением.

    ОтветитьУдалить
  2. Да-да, мне вот тоже интересно стало. Правда, для русского подсчитать сложнее за счёт изменения самих слов. Хотя, можно попробовать для начала каждую словоформу рассматривать как разные слова.

    ОтветитьУдалить
  3. Очень интересно. А чтобы увеличить количество трафика я советую протестировать на естественность ваш сайт на сервисе: http://1y.ru/

    ОтветитьУдалить