Как обойти «Антиплагиат» (поднятие уникальности docx-файла)

On 2014/01/11 by Kremchik With 7 Comments - Разработка

Апдейт!

Не далее как 11 апреля заработал мой сервис для поднятия процентов уникальности Вашего реферата/курсовой/диплома! Над которым я активно работал последние три месяца! Благодарю всех, кто помог мне советами и высказывал пожелания!

Наеплагиат! Подними Уникальность Онлайн!

Многим студентам и преподавателям известна сомнительная по части своей эффективности система «Антиплагиат», которая по заявлению самих её создателей, необходима для проверки текстовых документов на наличие заимствований из общедоступных сетевых источников.

Эту систему часто подвергают критике за её несовершенство.

Своеобразно, что мой реферат, который располагается по одной и той же прямой ссылке (без капчи и без регистрации) уже очень долгое время – более полутора лет, до сих пор не проиндексирован системой и выдаёт более 98% уникальности. То есть любой студент, кто его тупо копирнёт и сдаст получит максимально высокую оценку, 2% же занимает шум в виде распространённых фраз из 2-3 и более слов, типа «компьютеры с разделяемой памятью» и т.д.

Пользуются системой в коммерческих целях и сторонние организации, которые предлагают за деньги обойти систему.

Казалось бы, как можно заставить программу неверно прочитать текст из вордовского файла, прекрасно открывающегося и читающегося в самом ворде?

Сначала скажу, как я вообще занялся этой проблемой. Моя подруга обратилась ко мне с необычными вопросами, связанными с прохождением файла на плагиат. Например, она спрашивала, почему иногда если удалить абзац, а потом набрать его же слово в слово вручную, уникальность текста повысится? Действительно очень странно. В чём же дело? Я так и не придумал, а она решила заказать платную услугу и заплатив всего около 400 рублей получила файл, который вместо 37% уникальности, стал выдавать 82%. Файл совсем не поменялся, его можно было даже редактировать – он продолжал сохранять свои антиплагиатские свойства.

Первое на что я обратил внимание – это вес файла. Он весил значительно больше, где-то в 3 раза. При этом в нём не было картинок и прочих не текстовых элементов. Я пересохранил файл в xml и открыл его. Открылась интересная картина, очень многие слова были разорваны. Тогда я ещё не знал, как устроена вордовская xml-разметка (так называемый WordprocessingML), но я сразу понял, что всё дело может быть только в этом и что «Антиплагиат» воспринимает текст как абракадабру (по этим кусочкам).

Я создал пустой файл, написал в нём короткое предложение, а затем вручную повторил разрывание слов в разметке. Однако пересохранив файл снова в docx и затем снова в xml, я увидел, что всё сбилось и слова снова объединились в предложение внутри одного тега.

На этом мой интерес пропал, однако прошло несколько месяцев и человек снова поинтересовался, не нашёл ли я способ борьбы с «Антиплагиатом»? Наступили последние деньки декабря – время приятной расслабухи на работе. Я начал возиться с xml, пытаясь понять причину, почему же мой разорванный xml сбивается вордом, а фирменный – нет. К моему счастью в разметке почти не было чего-то, что могло рассеять моё внимание – всё дело было в атрибуте rsidR, который отвечает за идентификацию правки (как я понял). Он должен был непременно изменяться от кусочка текста к кусочку. Иначе ворд считал, что нет смысла в разорванности кусочков и их надо обязательно объединить. В итоге моей целью стало написание скрипта, который бы (в общих чертах) из такого:

<w:p> 
    <w:r> 
        <w:t>Атиплагиат гавно.</w:t> 
    </w:r> 
</w:p>

делал бы такое:

<w:p> 
    <w:r w:rsidR="00947664"> 
        <w:t>Атип</w:t> 
    </w:r> 
    <w:r w:rsidR="00947665"> 
        <w:t>лагиат гав</w:t> 
    </w:r>
    <w:r w:rsidR="00947664"> 
        <w:t>но.</w:t> 
    </w:r>
</w:p>

В связи с чем система бы получала бы текст «Антип лагиат гав но»

И я взялся за работу, выбор конечно же пал на PHP, т.к. это возможность веб-реализации, а значит 100% доступного, если что, всем приложения.

Результатом моей работы стал вот такой скрипт, не требующий никаких ни библиотек, ни БД, ничего.

Выложенный файл – набросок, он только реализует разрывание, чтобы поднимать уникальность не на максимум, а на выбранный процент, нужно добавить пару строчек кода.

Придя домой, я зарегился на «Антиплагиате» и решил проверить, как же хорошо он в итоге работает. Удивлению не было предела – процент уникальности не поменялся. Тогда я решил собственноручно проверить тот самый гарантированно 82% файл, и о, нет – он также выдавал лишь 37%. Так я выяснил, что разработчики «Антиплагиата» пофиксили эту дыру размером с кулак. Видимо они проходятся по всем <w:r> (во, хакеры), в терминологии ворда это «run», типа как <span> в html, т.е. текстовый элемент типа display: inline, и тупо удаляют у всех атрибут w:rsidR.

Однако, пока я гуглил все эти вордовые и антиплагиатские штучки, я прочитал ещё об одном подходе борьбы с антиплагиатом. Вот тут-то дырень не закрыта.

Поскольку человек, благодаря которому я увлёкся этой темой, просил меня не раскрывать существующих методов борьбы с этой несовершенной системой, я не буду писать об этом.

Хотел бы только поблагодарить замечательного сотрудника корпорации Mircrosoft Брайана Джонса, который в своих заметках очень понятно описал некоторые вещи, проясняющие устройство WordprocessingML.

А если кому-то нужно отхакать какой-то плагиатный реферат или диплом – обращайтесь

docx, PHP, XML, Антиплагиат

7 Comments

Reply
Max 2014/03/12

xrez88@yahool.ru

Привет, к сожалению ПХП не владею, можешь скинуть на мейл этот способ обхода системы?
- Reply
  Kremchik 2014/03/13
  
  Привет. Этот способ всё равно не работает, я его выложил больше из интереса. А работающий способ я не хочу выкладывать)
  Он около года назад работал, а потом прикрыли)
Reply
Сергей 2014/03/31

Тоже озадачился этим вопросом, есть кое-какие наработки,
если есть желаение пообщаться, поделится мнениями – пишите в почту.
- Reply
  Kremchik 2014/04/12
  
  Было бы интересно. Мой способ основан на добавлении скрытого текста.
Reply
Alex 2014/04/13

Очень нужно отплагиатить курсяк – 40 стр, а через месяц диплом. по курсяку изначально уникальность 27%. путём замены точек и запятых, получил 47%.
напишите мне kiruxa136собакаyandex.ru у кого какие наработки есть. если кто поможет, за мной не заржавеет.
Reply
Антон 2015/05/25

Всё это очень хорошо, но полностью бесполезно, если скопировать из работы кусок и проверить его отдельно, хоть в том же антиплагиате, хоть в адвего или любом другом проверяльщике.
- Reply
  Kremchik 2015/05/25
  
  Согласен.
  Антон, если у Вас есть хоть какая-то информация о других способах поднятия уникальности без человеческого вмешательства, т.е. автоматически, то я прошу сообщить об этом: за любую полезную информацию выплата от 1000 рублей – http://naeplagi.at/blog/2015/04/28/

KREMER.PRO | Блог

Заметки front-end программиста

Как обойти «Антиплагиат» (поднятие уникальности docx-файла)

Апдейт!

Наеплагиат! Подними Уникальность Онлайн!

7 Comments

Leave a Reply Cancel reply

Categories

KREMER.PRO | Блог

Заметки front-end программиста

Как обойти «Антиплагиат» (поднятие уникальности docx-файла)

Апдейт!

Наеплагиат! Подними Уникальность Онлайн!

7 Comments

Leave a Reply Cancel reply

Categories

Tags