Cum de a detecta modificarea fișier text cu scopul de a spori unicitatea artificiale

Înainte de a porni la problema de fapt, vă sugerez să se familiarizeze cu nomenclatura actuală pentru această dată. Cuvintele antiplagiat și verificați antiplagiat. precum și ocolind Antiplagiat încă nu destul de bine. „Anti-plagiat“ - un substantiv comun unul dintre sistemele. Da, cel mai mult în cadrul ședinței, din cauza faptului că „binecuvântat“ în mod oficial. Cu toate acestea, de fapt, ea nu este singura, iar textele suntem în ea pentru a verifica disponibilitatea creditelor. sau să reflecte mai bine esența - controale de comportament (texte) pentru unicitatea. La rândul său, tot felul de trucuri care vă permit să trișeze diferite sistem de verificare - o tehnici pentru a crește în mod artificial unicitatea textului.

Deci, hai să discutăm despre cum să găsească în textul acestor foarte tehnici. Ar trebui să facă imediat o rezervare - chiar dacă tehnicile și același tip, și, în general, într-un fel similar cu cele care au fost descrise de mine mai devreme. acestea sunt în continuă schimbare, de adaptare prieteni interesați, etc. Aceasta este, contorul în stilul „Pimp click pe, glisați înflori, și veți vedea“ - .. nr.

În plus, aș dori să se abțină de la stilul „fișier vordovsky exotice și a lipsi a vedea ce este în XML», deși el acționează de multe ori în acest fel.

În general, vom începe cu o metodă destul de fiabile pentru a detecta modificarea fișier text, folosind o tehnica pe care tocmai l-am primit o foarte răspândită. Această opțiune, la fel ca prima mine descris. (Care este motivul pentru care, inițial, nu l-am descris separat). Esența acesteia, pe scurt, este faptul că fișierul este încorporat un fragment de text unic, care este suficient de mare pentru a se asigura că procentul de text unic în fișierul a fost acceptabil. Și dacă un pic mai mult - avem un text, de exemplu, 10 000 de caractere, cu un unic de 50%. Aceasta este unic doar 5000 de caractere, în timp ce a doua jumătate, încă 5000 de caractere de text. - nu este unic. Suntem luați un volum de text unic are 15.000 de caractere și de a introduce în acest fel fișierul, astfel încât acestea nu vor fi văzute, dar acestea au fost luate în considerare în timpul scanării. Ca rezultat, avem 25.000 de caractere care nu sunt unice - 5000, care nu mai este de 50, și 20 la sută ...

Cum pentru a determina dacă există un „text ascuns“ fișier?

Text încorporat în nivelul XML. format de fișier DOCX este, în esență arhiva, care conține tot textul din imagini, grafice, forme, etc. și textul propriu-zis în sine și aspectul acestuia - .. în format XML. Asta în cazul în care piesele și introduc fragmente de text unic, oferindu-le cu atributele care împiedică afișarea textului în document. Între timp, de facto, textul este, și dacă verificați întregul fișier, este luată în considerare în evaluarea unicitatea.

Prin urmare, avem primele premoniție pe care le-ați verificat dosarul să fie procesat - dacă bifați întregul fișier - au un rezultat, iar dacă selectați text și copiați-l într-un program care efectuează verificări - altele. Dar cum, la urma urmei, greu de știut - dacă avem de-a face cu un fișier curat, sau este ascunsă bucată de text unic?

Deci, să începem. Ia fișierul suspect și deschideți-l în Word. Acum, copiați tot textul și lipiți-l în „Notepad“, rezultatele sunt stocate în format de fișier TXT, „Notepad“ aproape.

Acum avem două fișiere, fișierul original, am avea acasă numit „Proba 1“ și fișierul creat în format TXT, l-am numit „Proba 2“.

Run Word, pe bara de instrumente, du-te la tab-ul „Review“ pe bandă în căutarea „Comparați“ din meniul drop-down, selectați „Merge“.

Cum de a detecta modificarea fișier text cu scopul de a spori unicitatea artificiale

În fereastra care se deschide, vom specifica fișierul sursă și TXT rezultat:

Cum de a detecta modificarea fișier text cu scopul de a spori unicitatea artificiale

Cum de a detecta modificarea fișier text cu scopul de a spori unicitatea artificiale

Click pe imagine pentru a mări

Suntem interesati de cantitati mari de text care „șterge“. A se vedea, aici sunt, în partea de jos a coloanei? Încercați pentru a maximiza textul.

Aici el este la cea mai mare mărire:

Cum de a detecta modificarea fișier text cu scopul de a spori unicitatea artificiale

Cum de a detecta modificarea fișier text cu scopul de a spori unicitatea artificiale

Observăm un efect interesant - cuvântul în text este, de căutare este găsit, dar asta în cazul în care acesta este - un cuvânt nu poate fi afișat.

Pentru a face lucrurile și mai rele, de dragul completitudinii, să aruncăm încă o privire la XML. Pentru a face acest lucru, am schimba fișierul DOCX extensia în ZIP și dezarhivați-l ca un fișier obișnuit. Aceasta este ceea ce este în interior:

Cum de a detecta modificarea fișier text cu scopul de a spori unicitatea artificiale

Cum de a detecta modificarea fișier text cu scopul de a spori unicitatea artificiale

Și l-am găsit nu doar atât, și în contextul unui fragment de text, care, pentru un motiv oarecare nu, dacă deschideți un fișier text în Word. În urma sunt câteva fragmente de text ... cred că povestea de pe acest lucru poate fi terminat - Încercarea piesa ascunsă de „balast“ a textului, sporind unicitatea de ansamblu a textului - este găsit.