> Частотный анализ - это от шифра Цезаря. Римляне придумали (условно) заменять букву
> О на Р, А на М и так далее.нет, это простая замена, и анализ не на основе шифрованного текста проводится, проводится анализ открытых текстов,и из-за того, что шифрованный текст (в случае с банальной заменой) сохраняет все статистические (частотные) свойства открытого текста, то применяя статистические данные открытых текстов можно спокойно расшифровывать шифрованные данные методом предположений (именно предположений).
> Потом оказалось,
> что буква О в языке встречается наиболее часто, на этом основании
> Р расшифровали как О.
когда потом? это и есть результат частотного анализа открытых текстов.
> При этом частоты появления букв (на 1000
> символов) в разных языках различаются, соответственно можно судить о языке оригинала.
в этом случае необходимо иметь все частотные характеристики, и они 100% точности не дадут. Тут уже не только статистика вхождений букв в тексте, но и зависимость от ее позиции необходима.
> Можно определять принадлежность текста другим группам. Если часто встречается слово "GPL",
> наверняка автор текста принадлежит к условной группе "любители Линукс". И так
> далее конкретизируется вплоть до индивида.
до индивида не конкретизируете, ибо такое сообщение должно быть написано кровью автора с сохранением днк :)
> Автор ветки озвучил задачу. Есть известные аккаунты (а значит и образцы текста).
А что доказано авторство тех самых аккаунтов? Речь идет о тех кто пишет допустим под ником Аноним, и таких тыща. Вопрос, можно ли доказать вашим анализом принадлежность комента сферическому Васе Пупкину?
> Надо найти неизвестные. Если кто-то публикует копи-пасту (репост) -- это может
> оказаться пригодным решением, хотя бы отчасти.
Не будет это пригодным, это один и тот же текст (избыток).
> А оно надо?
Ну суть вопроса такова, привязать комент к конкретному автору.