Уникальность контента на сайтах в Москве

Уникальность контента. О шинглах и немного о честности.

Абсолютно оригинального и уникального контента не бывает. Это тема вечная, и обсуждать ее можно так же вечно. Согласитесь, что даже самый качественный копирайтинг, в случае описания продуктов не собственного изготовления, подразумевает использование информации от официального производителя.

Приведем простой пример. Можно с уверенностью заявить, что глубокий рерайт информации об iPad 2 с источника компании Apple может быть гораздо уникальнее, нежели собственное описание копирайтера, ни разу не державшего в руках данный продукт. И это касается многих областей копирайта. Заканчивая пример с iPad 2 можно уверенно заявить, что копирайт в данном случае будет содержать немалое количество так называемой «воды», которая может и добавит тексту уникальности, но снизит его качество и приведет к настоящей «технической вакханалии».

Так что есть смысл утверждать, что уникальный рерайт должен быть грамотно модифицирован под запросы поисковых систем, и это даст свои плоды. Более кратко об этом можно сказать так:

Исключительно уникальный контент с точки зрения работы поисковых систем может гарантировать успешное продвижение сайта.

Для обеспечения максимальной конверсии посетителей сайта в потенциальных покупателей, необходим авторский контент, в крайнем случае допускается качественный, глубокий рерайт. То есть страница должна быть оптимизирована не только для поискового бота, но и нести информацию и адекватный текст для человека.

Уникальность контента может быть немного снижена на сайтах, базирующихся на продаже ссылок, дабы обеспечить большие объемы текстовой информации при минимальных затратах денежных средств.

Однако, уникализация контента зависит от алгоритмов поисковых систем. И каждый, кто занимается наполнением сайта уникальным контентом, прежде всего, задается вопросом – на каких моделях, на каких алгоритмах основан принцип работы поисковиков? Создание сайта, основанного на движке, дело не сложное, занимающее пару дней. Но наполнение его контентом в несколько тысяч страниц – вот основная задача, требующая немалых усилий и знаний.

Ищем дубликаты

Как правило, на первый взгляд создается впечатление, что все не так уж и сложно: можно сравнить все страницы, индексируемые поисковиком в интернете, и выявить дубли. Однако, даже для того чтобы сравнить каждую страницу в индексе «Яндекса» с каждой другой страницей, для вычисления необходимого числа операций нужно число со значением 10 727 736 489 возвести в квадрат. При этом, нужно заметить, что эта операция не может обеспечить правильность результатов, поскольку даже замена нескольких символов, перестановка предложений или замена фрагментов текста приводит к отсутствию совпадений. А сравнение небольших кусочков текста, полученных в результате разделения документов на небольшие цепочки, приведет к увеличению количества требуемых операций на несколько порядков. Это невозможно произвести просто с точки зрения техники, ведь таких компьютеров на данный момент не существует.

Правда выход был найден, благодаря сочетанию математических и лингвистических методов. Речь идет об алгоритме шинглов, благодаря которому удалось добиться снижения количества операций. Хотя, следует заметить, это все еще остается довольно ресурсоемкой процедурой.

О шинглах

Шингл (в переводе с английского – «гонт» - материал для кровли в виде дощечек с крепежными пазами и выступами, обеспечивающими соединение в один лист, термин адаптированный под нужды текстовой проверки) – это алгоритм, обеспечивающий поиск дубликатов. При этом происходит вычисление и сопоставление контрольных сумм выбранных словосочетаний небольшой длины (в основном 3-10 единиц), которые были «канонизированы» в процессе поиска. Происходит весь процесс следующим образом:

Происходит «канонизация текста». Иными словами текст возвращается к исходным словоформам, с отбрасыванием стоп-слов, таких как предлоги, союзы, знаки препинания и так далее. Текст приобретает вид телеграммы, в которой опущены все лишние элементы с целью экономии слов. Однако зачастую применяется и более жесткий способ канонизации, при этом слова приводятся к более частотным синонимам, дабы эффективнее бороться с синонимайзерами, а так же ручным рерайтом, способствующим разрушению шинглов. Эти способы уникализации текста не меняют порядок слов в предложении, а всего лишь заменяют слова синонимами.
После канонизации текст в сою очередь разбивается на фрагменты длиной 3-10 слов, при этом практикуется разная разбивка текста - «стык в стык» и «внахлест». При таком изменении канонизированного текста происходит возникновение иных шинглов, поэтому используется такой способ, как установка «точки отсчета», которая обеспечивает разбивку текста на шинглы, например, от определенной буквы, до такой же самой. Несомненно, при этом происходит повреждение текста, однако разрушаются не все шинглы, а только те, которые непосредственно затронуты повреждениями.
Компьютеру проще работать с цифрами, нежели со словами. Поэтому, для каждого шингла происходит вычисление контрольных сумм. То есть последовательность слов превращается в последовательность цифр, и не суть важно, какой метод при этом применяется – будь то CRC или иной.
После вычисления контрольных сумм, происходит их выборка, поскольку даже сравнение нескольких их десятков, является гораздо более простым процессом, нежели сравнение документов по шинглам. При этом формироваться выборка может так: определенное количество математических функций, описывающих интересующий параметр, выбирается из заранее созданного списка совершенно случайным образом. Через каждое из выражений (чье количество равно количеству функций) пропускаются шинглы документа, при этом, получаемые на выходе значения, присваиваются определенному шинглу. А шингл для каждой из данных функций выбирается с минимальным значением контрольной суммы, дабы просто выбрать хоть какой-то. В результате, документ получает сигнатуру из контрольных сумм, равных количеству функций. Для сравнения с другим документом, анализированным подобным образом, используются шинглы, которые были отобраны по совпадающим функциям, то есть сравнение идет по контрольным суммам, равным количеству используемых функций.
Высокий уровень при совпадении контрольных сумм после сравнительного анализа может определять либо четкость (отсутствие изменений), либо нечеткость (небольшое количество изменений) дубликатов.

Однако не следует утверждать, что принцип работы поисковиков именно на 100 процентов таков, как описано выше. Работа алгоритма может отличаться - быть немного сложнее, последовательность иначе, но в целом суть процесса должна быть понятна.

И напоследок

Наряду с шинглами, широко применяются и другие виды алгоритмов для проверки контента на уникальность. Статистический анализ частотности и тошноты ключевых слов, наложение последовательности слов и длинных шинглов, а так же другие алгоритмы до сих пор находят применение в определении уникальности контента. Хотя в целом, глубокий рерайт, то есть создание уникального текста с похожей информацией помогает сводить к нулю возникновение таких неприятностей, как санкции при ранжировании. А понимание принципов поиска дубликатов оказывает значительную помощь копирайтерам при создании уникального контента, экономя при этом и время и позволяя затрачивать меньше сил на создание контента.

Если желаете заказать грамотные, продающие тексты для Вашего сайта, смотрите раздел «Написание текстов».

Уникальность контента. О шинглах и немного о честности.14 августа 2011

Ищем дубликаты

О шинглах

И напоследок

Читайте такжедругие интересные статьи