В названии темы все сказано, но поясню...

Не тривиальная задача, представьте себе что у вас есть некая база данных(сайт) с определенным количеством уникальных в рамках БД статей.
При поступлении новой статьи нужно определить что она не является дублем(или плохим рерайтом) уже существующей.
Классика решения предполагает 2а метода. Метод шинглов и использование векторной модели текста.
Оба метода в теории хорошо комбинируется с предлингвистической обработкой.

Что касается классического метода шинглов то все хорошо, кроме ресурсоемких вычислений.
Что касается векторов, то тут проблема в моем понимании серьезней, я очень четко представляю себе как осуществлять поиск этим методом, но пока не могу сформулировать, даже идеологически, как проверять на сходство.

Если на форуме есть люди дружащие с математикой предлагаю объединиться и поработать над созданием более менее адекватной, применимой на практике без супер ЭВМ, методики.

Даю подсказку: можно думать в направлении супершнглов и/или все-таки векторного представления текстов.

--- Добавлено ---

Цитата Сообщение от Admin Посмотреть сообщение
но пока не могу сформулировать, даже идеологически
Уже могу, но пока только идеологически
Нужно продумать метод вычисления синусов для векторов примерно в 200тысяч мерном пространстве.
Хотя метод тоже будет накладный, с точки зрения вычислительных ресурсов.

Естественно что речь идет о больших БД десятки-сотни миллионов записей и большой текущей нагрузкой, десятки-сотни запросов в минуту.