ПредишенСледващото

Начини да заобикалят проверката за уникалност на текста, с цел "избягване antiplagiat" - доста. В мрежата като липсата на методология описания и сайтове, които предлагат такава обработка на текст като услуга.

В тази област, има постоянно е нещо ново, защото системата проверява с времето някак си да се научат да разпознават един или друг метод. Моето усещане е, че тези, които идват с нови трикове - отидете на няколко крачки напред, така че ситуацията е винаги малко в полза на тези, които се провери ...

Един ден, мислейки за това, да стана като Архимед, отскача компютъра плаче "Еврика!". Не знам, първо предположих преди това или не, но начина, по който да изчисти текста от техниките за байпас, както и от всички, дори и тези, които все още не са измислили - е, както всички съвършен, просто до краен предел.

Очертах хода на мислите му.

Всички в момента съществуващите начини около antiplagiat сведени до три области

Какво е общото между всичките три области?

А като цяло - че текстът трябва да остане непроменен за човешкото четец. Въпреки това, за тази машина да е друг текст, за сметка на тези или други изобретения, някак си скрит от очите на човека читателя.

И това ни дава?

Толкова е просто, нали? Ако вземем обработват текста, някой човек, че ще диктува, както и други повторно мотика, ще получим ясен текст нали? Точно така, само че е твърде трудно.

И какво се случва, ако вземете и печат на текст от файл, който използва един или друг трик? Аз бях експериментира, и стига до заключението, до това заключение: нищо. Това означава, че при отпечатване на хартия ние се интересуваме от се показва само текст, без да има "невидими знаци" и "скрит текст". Ако отпечатване на текст и след това да я признае, ще получим ясен текст! Да, това е вярно, но то все още е твърде сложно.

А какво ще стане, ако текстът не се отпечата, и за износ в PDF директно от Word, или да използвате софтуер на трети страни (PDF Creator или Bullzip PDF принтер). Идеята е на втория - по-надеждни, но моите експерименти са показали, че, поне засега - е все едно като текст конвертиране на PDF, тенденцията продължава - това, което се виждаше - остава видима, и това, което е било скрито - е скрит (за с няколко изключения, за това в края). Ако направите PDF-файл и raspoznatego всяка програма, например Аби FineReader, ще получим ясен текст! И да, не е трудно.

Защо става това?

Всички временни решения се основават на факта, че ние виждаме един, всъщност в текстов файл, някак си скрит повече. Експортиране на PDF и OCR ни позволява в действителност, за да се отдели това, което виждаме от останалата част от "тънкостите". Ами, вижте този текст по един или друг проверка на системата, ще видим истинския си резултат.

малко тънкости

Трябва да се отбележи, че описаният метод не дава пряк отговор на въпроса, че много хора се интересуват от - независимо дали в проверени техники текст с преминаването през? Косвено (но понякога - много убедително), че те са били, това може да означава, различна сума от уникалността на един и същ текст преди и след признаването. Въпреки това, ако видите, че да разпознава и след процентът на уникалност е останал същият, той не дава гаранция, че не е имало техники за заобикаляне. Може би една система за проверка, просто не беше намерен в дълг, който в действителност е така. Това може да се случи по различни причини, като се започне с очевидното: текстът, където имаше нещо назаем просто не е в системите за проверка на обществено достояние, и база данни ... и завършва с такива екзотични случаи, когато текста - че е в мрежата, е търсачките, но защо -Това напълно игнорира една или друга система за контрол. Това също се случва, но това е тема за друга статия.

Тестове методи

Ние се провери как работи. Нанасяне на тест предлагам помощта на "Анти-плагиатство", но все пак тя се използва по-често. Във всеки случай, аз се посочват - набор от действия, които да бъдат извършени въз "експериментално" файл не зависи от това къде и как ще да ги проверите по-късно.

След това всичко е съвсем проста:

Е, сега е време да се зареди в резултат на "Анти-плагиатство":

Как да изчистите текста от който и да е от методите Antiplagiat байпаса

Резултатът от проверката на проби за анализ в системата "Анти-плагиатство"

В заключение искам да добавя, че за дълго време - около година - експериментира с признаването и последваща проверка на текстовете. Определено може да се каже, че "честни" текстове, тази процедура не вреди, което води до отклонение от резултата от първоначалната извадка от 1 - 3%. Така че, пак повтарям, това е все едно временно решение е било използвано - признаване ни показва истинската оценка на текста.

Малко повече тънкости, или какво да правят, ако текстът не е добре призната

Да, все още трябва да се следи качеството на OCR. Само два пъти, но се сблъсках с факта, че на PDF-файлове, за да бъдат признати с един куп грешки, и по странен начин. Аз съм сигурен, че той е свързан с методите за въздействие уникалност. Преценете сами - ако правиш приличен размер на шрифта, разстояние между буквите и разпознаване на текста от PDF, дори и да печат (тоест, от гледна точка на FineReader на - е почти "идеално текст"), и тя се признава с грешки ... Какво друго това може да се отрази, особено като се има предвид факта, че други текстове се признават правилно?

Сблъсквайки се с първия път, когато имате достатъчно дълго се засуети с него, докато не дойде идеята за преобразуване на текста отново - от PDF към много страници TIFF, че е в действителност, на снимката - комуникация с изходния текст, и се крие в него не е оставил трикове.

Използвах Ghostscript:

Ghostscript -о file.tiff -sDEVICE = tiffgray -r720x720 -g6120x7920 -sCompression = LZW file.pdf

Можете да използвате всеки друг конвертор, толкова дълго, тъй като тя позволява да вмъкнете стойността на DPI. С него можете да експериментирате, то трябва да бъде достатъчно голям, - моето усещане е 500 - 700. Допълнително устройство, което изглежда най-добре за Ghostscript вече са определени по-горе ред.

След всички тези манипулации бе признат "голям успех". Tема на TIFF, можете просто да "хранят" FineReader'u, той знае как да ги работят перфектно.

вместо заключение

От една страна това изглежда достатъчно - ние знаем истинската оценка на текста, не е все едно, че има нещо, или не? От друга - не толкова редки текстове, в които, от една страна, има методи, от друга страна - дори и след почистването, те дават добър резултат.

Просто "Анти-плагиатство" и така ще се заеме, без допълнителни файлове за обработка. Проверете за себе си. И тъй като сте готови, ние сме се справили страхотно, може би някой удобен си опит, но персоналът на системата "Анти-плагиатство" (аз не съм един от тях), не се седи все още, и по този начин се развива тяхната система, в която работят понякога има грешки ,

Благодаря ви за милите думи. Съгласен съм, че "Анти-плагиатство" със сигурност не стои все още, и вече може да се открие достатъчно голям брой на всички видове "трикове", но нямах надежда. Само защото изкуственото увеличаване на уникалността на текста - едрия бизнес (не вярвам - в типа на търсачката в "повишаване на уникалността на текста"). Хората правят пари, а, както знаем искаш да живееш - да се знае как да се върти.

Сега всички текстове, проверена задължително дестилирани в PDF, а след това да признаят. Защо да PDF? Тъй като този формат отговаря на две изисквания. 1 - то може да спести на текст директно от Word, и 2 - той просто може да "хранят" FineReader'u. Излишно е спестяване на текст в PDF, като такива, нищо в него не се променя. Важно е да се признае, че текстът е - тя отнема от видимата "podnagotnuyu", което е, а след това можете да бъдете сигурни, че сте проверили точно това, което се вижда на екрана.

В допълнение, текстът се преминава през няколко системи, най-малкото, че е "за борба с плагиатство" и «ETXT Antiplagiat" е нещо друго. Между другото, тези две системи рядко произвеждат един и същ резултат, това е интересно, нали? И понякога те дават точно обратното. Съществува мрежа от текстове, които "Анти-плагиатство" не вижда само един празен. Дори и аз исках да напиша статия за него, но тя има някои наистина много ядосан, така че аз не съм в течение.

От една страна - да, презастраховането. Да, съжалявам, хемороиди. Но който и да е по-лесно, отколкото по-късно статия retragirovat 🙂

Подкрепете проекта - споделете линка, благодаря!