Cum să eliminați textul din orice mod de a eluda antiplagiarismul

Modalități de a ocoli verificarea unicității textului, "ocolirea antiplagiatului" - destul de mult. Rețeaua are atât descrieri ale metodologiei, cât și site-uri care oferă o astfel de prelucrare a textului ca un serviciu.

În acest domeniu, ceva nou apare în mod constant, deoarece sistemele de verificare în cele din urmă învață să recunoască într-un fel sau altul un fel sau altul. Potrivit sentimentelor mele, cei care vin cu trucuri noi - mergi cu câțiva pași înainte, deci situația este întotdeauna un pic nu în favoarea celor care verifică ...

Într-o zi, mă gândesc la asta, am devenit ca Arhimede, returnate în jurul calculatorului plângând „Evrika!“. Nu știu, mai întâi am ghicit că înainte sau nu, dar modul de a șterge textul din tehnicile de by-pass, și de toți, chiar și cei care încă nu au inventat - a fost, ca toate perfecte, simplu la limita.

Voi declara cursul gândurilor mele.

Toate modalitățile existente de a eluda antiplagiatul sunt reduse la trei zone

Ce au în comun cele trei direcții?

Iar lucrul obișnuit este că pentru cititorul uman textul ar trebui să rămână neschimbat. Cu toate acestea, pentru masina, acesta trebuie sa fie un text diferit, datorita unor sau altor trucuri, cumva ascunse de ochii cititorului-omului.

Și ce ne dă asta?

E simplu, nu? Dacă luăm textul procesat, cineva îl va dicta, iar celălalt va apela din nou, vom primi un text curat, nu-i așa? Așa este, dar este prea complicat.

Și ce se va întâmpla dacă luați și tipăriți textul dintr-un fișier în care se utilizează una sau altă metodă de by-pass? Am experimentat foarte mult și am ajuns la concluzia: nimic. Cu alte cuvinte, atunci când tipăriți pe hârtie, este afișat numai textul de interes, fără "simboluri invizibile" și "text ascuns" acolo. Dacă tipăriți textul și apoi îl recunoașteți, vom primi text curat! Da, este, dar este încă prea dificil.

Și ce se va întâmpla în cazul în care textul nu se imprimă, și de export în PDF direct din Word, sau de a folosi un software terț (Creator pdf sau Bullzip PDF Printer). Ideea este al doilea - mai de încredere, dar experimentele mele au arătat că, cel puțin pentru moment - este tot la fel ca și textul convertit la PDF, tendința continuă - ceea ce a fost vizibil - rămâne vizibil, iar ceea ce a fost ascuns - este ascuns (pentru excepții rare, despre acest lucru în cele din urmă). Dacă luați un fișier PDF și raspoznatego orice program, de exemplu ABBY FineReader, obținem textul simplu! Și da, nu este deloc dificil.

De ce funcționează acest lucru?

Toate metodele de accesare cu crawlere se bazează pe faptul că vedem un lucru, într-adevăr, într-un fișier text cumva ascuns altul. Exportul în format PDF și recunoașterea ulterioară ne permit, de fapt, să separăm ceea ce vedem de restul celor "inutile". După verificarea acestui text într-un alt sistem de verificare, vom vedea adevăratul său rezultat.

Câteva subtilități

Trebuie remarcat faptul că metoda descrisă nu dă un răspuns direct la întrebarea pe care mulți oameni sunt interesați - dacă în tehnicile de text traversal verificate? Indirect (dar uneori - foarte elocvent) pe care le-au fost, aceasta poate indica o cifră diferită de unicitatea aceluiași text înainte și după recunoașterea. Cu toate acestea, dacă vedeți că să recunoască și după procentul de unicitate a rămas același, nu oferă o asigurare că nu a existat tehnici de eludare. Poate că pur și simplu sistem de verificare nu a găsit datoria, care de fapt este. Acest lucru se poate întâmpla pentru o varietate de motive, începând cu evidentă: text, în cazul în care nu a fost ceva împrumutat, nu este pur și simplu în sistemele de verificare din domeniul public și de baze de date ... și se încheie cu astfel de cazuri exotice, în cazul în care textul - că este în rețea, este motoarele de căutare, dar de ce Este complet ignorat de unul sau alt sistem de verificare. Acest lucru se întâmplă, de asemenea, dar acesta este deja un subiect pentru un articol separat.

Teste, metodologie

Să verificăm cum funcționează. Îmi propun să fac un cec cu ajutorul "Anti-plagiat", la urma urmei, este folosit cel mai adesea. Doar în cazul în care, voi specifica - setul de acțiuni care vor fi efectuate pe fișierele "experimentale", nu depinde de locul și modul în care doriți să le verificați mai târziu.

Apoi, totul este simplu:

Ei bine, acum este momentul pentru a descărca rezultatul obținut în "Anti-plagiat":

Cum să eliminați textul din orice mod de a eluda antiplagiarismul

Rezultatul verificării probelor de testare în sistemul "Antiplagiat"

În concluzie, vreau să adaug că pentru o lungă perioadă de timp - aproximativ un an - experimentez cu recunoașterea și verificarea ulterioară a textelor. Destul de sigur se poate spune că această procedură nu dăunează textelor "oneste", provocând o abatere de la rezultatul probei originale în 1-3%. De asemenea, repet că nu contează ce fel de eludare a fost folosit - recunoașterea ne arată adevărata evaluare a textului.

Mai multe subtilități sau ce să faceți în cazul în care textul este prost recunoscut

Da, este încă necesar să controlați calitatea recunoașterii textului. Doar de două ori, dar am confruntat cu faptul că un PDF-fișiere pentru a fi recunoscute cu o gramada de erori, și într-un mod ciudat. Sunt destul de sigur că acesta este conectat cu metodele de influențare unicitate. Judecător pentru tine - dacă faci o dimensiune de font decent, spațierea între litere, și să recunoască textul din PDF, chiar și la imprimarea (adică, din punctul de vedere al FineReader - este aproape „text ideal“), și este recunoscut cu erori ... Ce altceva ar putea afecta, în special având în vedere faptul că alte texte sunt recunoscute în mod normal?

Confruntându-se cu prima dată când am destul de mult fussed cu ea până când ai ajuns la ideea de a converti textul din nou - de la PDF cu mai multe pagini TIFF, care este, de fapt, în imagine - comunicarea cu textul sursă, și ascuns în ea nu trucuri din stânga.

Am folosit Ghostscript:

ghostscript -o file.tiff -sDEVICE = tiffgray -r720x720 -g6120x7920 -sCompression = fișier lzw.pdf

Puteți utiliza orice alt convertor, principalul lucru este că vă permite să introduceți valoarea DPI. Puteți să experimentați cu el, ar trebui să fie destul de mare - în funcție de sentimentele mele 500 - 700. Opțiunea care mi sa părut optimă pentru Ghostscript este deja prezentată în linia de mai sus.

După aceste manipulări, totul a fost recunoscut "cu un bang". TIFF pe mai multe pagini poate fi imediat alimentat de FineReader, el poate lucra perfect cu ele.

În loc să încheiem

Pe de o parte, acest lucru pare să fie suficient - știm adevărata valoare a textului, contează cu adevărat dacă a existat ceva sau nu? Pe de altă parte, textele nu sunt atât de rare, în care există recepții pe de o parte, iar pe de altă parte, chiar și după curățare, ele produc un rezultat decent.

Doar „anti-plagiat“ și așa se va împrumuta, la nici un fișier de procesare suplimentare. Se verifică pe sine. Și, din moment ce ați terminat, am făcut o treabă foarte bună, poate cineva la îndemână experiența, dar personalul sistemului „anti-plagiat“ (eu nu sunt unul dintre ei) nu stau încă, și de a dezvolta astfel de sistem în care funcționează, uneori, există greșeli .

Vă mulțumim pentru cuvintele voastre bune. Sunt de acord că "anti-plagiatul" cu siguranță nu se oprește și deja știe cum să detecteze un număr mare de "trucuri", dar nu sper să o fac. Pur și simplu pentru că amplificarea artificială a unicității textului - o afacere mare (nu o credeți - ciocanul în motorul de căutare "care crește unicitatea textului"). Oamenii câștigă bani în felul acesta, dar, după cum știți, vrei să trăiești - să te poți întoarce.

Acum, toate textele care urmează să fie verificate sunt distilate în mod obligatoriu în PDF și apoi le recunosc. De ce PDF? Deoarece acest format respectă două cerințe. 1 - poate salva text direct din Word și 2 - poate fi imediat alimentat în FineReader. Chiar păstrarea textului în format PDF, ca atare, nu schimbă nimic în el. Este important să recunoaștem textul - taie ceea ce este vizibil din "subnormal", adică după aceea puteți fi sigur că verificați exact ceea ce ați văzut pe ecran.

În plus, textul este rulat prin mai multe sisteme, cel puțin este "Antiplagiat" și "ETXT Antiplagiat", mai este și altceva. Apropo, aceste două sisteme rareori dau același rezultat, mă întreb, nu? Și se întâmplă ca ei să dea contrariul. Există texte pe web că "Antiplagiat" nu văd pur și simplu la o gamă de puncte goale. Am vrut să scriu un articol despre el, dar a ieșit într-un fel foarte rău, așa că nu l-am postat.

Pe de o parte - da, reasigurare. Da, îmi pare rău, hemoroizi. Dar totul este mai simplu decât mai târziu decât retragerea articolelor 🙂