Ikke alle plagiatmaskiner er lige gode

Hvis jeg ved noget om document checking. Og det gør jeg så tror jeg næppe du nogensinde ville en af dine opgaver værende ens med andre opgaver. Fordi hvis man i et dokument skulle tjekke om ord for ord eller ord og senere ord så ville du ende med en algoritme der tager O(nn) og i bedste tilfælde O(n), som stadig er meget langsomt når du skal tjekke ord for ord og du skal gøre det for flere opgaver.

Så hvad man gør er at man laver shingles, som egentlig bare er en hashkode for et en serie af ord. Hvordan programmøren har tænkt sig at gøre dele shinglesne op(kapiteler? sections? Subsections?) kan selvfølgelig øge præcisionen, da han har flere hashes at tjekke. Han kunne selvfølgelig også lave document modeling hvor han har tal der viser hvorhenne i et dokument et ord dukker op og hvilket ord dukker op efter det. Men det tager også lang tid.

Min pointe er. Kun de mest åbenlyse plagiater vil blive busted, med software som er på en hjemmesider. Jeg har næsten ingen tvivl om at de gode plagiatsøgemaskiner også tager højde for ting som synonymer, buzzord og hvilke ord der følger dem. etc.

/r/Denmark Thread Parent Link - imgur.com