Analýza autorství textů

HackForum

Analýza autorství textů#
Nemáte někdo přístup k systému analýzy autorství?

Mám v plánu napsat několik anarchisticky laděných článků a nerad bych aby mě policie odhalila na základě mé bakalářské práce a článků které jsem psal pro několik portálů.

Zajímalo by mě jak se to dá obejít a zda je to tak žhavé, jak to vypadá.
(odpovědět)
Morfin | 77.247.181.*3.12.2011 2:29
re: Analýza autorství textů#
pokial nejdes pisat vyhlasenia pre teroristicke skupiny, tak toto riesit nemusis
(odpovědět)
antii | 88.212.36.*3.12.2011 14:26
re: Analýza autorství textů#
Heh, co když píše? :D

Docela by mě zajímalo, jak podobné systémy fungují. To analyzuje slovní spojení, nebo jak?
(odpovědět)
Bystroushaak_ | 77.104.210.249/10.5.50.*3.12.2011 20:30
re: Analýza autorství textů#
Sice o tom slysim prvne, ale tak napada me:
- delka souveti
- slozitost souveti (carky, ruzny ty slova jako "jak", "ackoliv" apod.)
- pouzivani zavorek, pomlcek, vykricniku, otazniku
- cleneni na odstavce
- zapis "a tak dal" teckama (.. NEBO ... NEBO ....... a podobne)
- pouzivani neologismu a archaickych vyrazu
- pouzivani anglickych vyrazu (Jan Barta :D)
- nadmerne uzivani nekterych slov a vyrazu
- uzivani neobvyklych slov a vyrazu
- typicke gramaticke hrubky a preklepy (existuji lide, co treba vubec neresi me/mne atd.)
- typicke obraty jako "avsak kupodivu to.." (ja :D)
- pouzivani "napriklad", "treba", "pro predstavu" - neco pouzivas vic, neco min
- pouzivani zkratek (atp., atd., napr.) - nekdo je cpe vsude, nekdo to obcas rozepise nebo to rozepisuje vsude ATD :)
- uzivani / neuzivani diakritiky
- znasobovani vykricniku a otazniku ("???", "!!!")
- nejcastejsi preklepy (kazdy pise trochu jinak a dela trochu jine preklepy - treba kdyz jsem ted psal tohle, napsal jsem misto slova dela "delat" a malem jsem si toho nevsiml; jedna z mych nejbeznejsich chyb)
- celkova typografie - spravne umisteni mezer (za teckou / vykricnikem / otaznikem) atp. - hodne lidi dela mezery jen mezi slovama
- delka odstavcu
- ukecanost autora (vyskyt pridavnych jmen v pomeru k ostatnim slovum)

... a urcite by se jeste neco dalo vymyslet, tohle me napadlo jen tak namatkove.

Kazdopadne, programovat ten SW bych fakt nechtel :)
(odpovědět)
independent5.12.2011 2:43
re: Analýza autorství textů#
Mela to byt odpoved na Bystroushaak ([link])
(odpovědět)
independent5.12.2011 2:45
re: Analýza autorství textů#
Můžu vcelku s jistotou říct, že to nebudou natvrdo zapsaná pravidla, ale něco jako neuronové sítě, nebo Markovské rozhodovací procesy. Vyšší magie :)
(odpovědět)
Bystroushaak_ | 77.104.210.249/10.5.50.*5.12.2011 12:01
re: Analýza autorství textů#
To mas asi pravdu, ale na druhou stranu by to chtelo ten text nejak rychle ohodnit, vytvaret profily autora.. A to by pres ty pravidla slo.
(odpovědět)
independent5.12.2011 12:20
re: Analýza autorství textů#
No, jenže spousta z těch pravidel která jsi napsal by se velice špatně programovala "natvrdo", resp. by to nejspíš vůbec nešlo. Další věc je, že to pak musíš nějak vyhodnotit.
(odpovědět)
Bystroushaak_ | 77.104.210.249/10.5.50.*5.12.2011 14:07
re: Analýza autorství textů#
Yap, bylo by to tezky a mas pravdu, ze neco by vubec neslo. Na druhou stranu tyto vlastnosti urcite maji vliv (bez ohledu na to, jakym zpusobem se to presne bude zjistovat) a tim padem staci psat jinak nez obvykle (viz ten seznam) a ten analyzer te imho neodhali..
(odpovědět)
independent5.12.2011 18:57
re: Analýza autorství textů#
To je další věc, která by mě zajímala - jestli to funguje jen na principu slovosledu, nebo sleduje i slovní zásobu atp..

Jde o to co by se stalo, když text opravíš spellcheckerem a necháš někoho udělat korekce, jestli by se ten software stále chytal, nebo ne.


(odpovědět)
Bystroushaak_ | 77.104.210.249/10.5.50.*5.12.2011 19:36
re: Analýza autorství textů#
Slovni zasobu to bude sledovat urcite a zrovna to je jedna z veci, ktere by se dali sledovat pomerne jednodusse a neni na to potreba nijak zavratne slozity system.
(odpovědět)
independent6.12.2011 19:34
re: Analýza autorství textů#
Heh, skutečně? Já si moc nedokážu představit jak by to mělo fungovat. Je jasné že to vytváří fingerprinty určitých věcí, například té slovní zásoby a tu to pak porovnává. Jenže, každý článek je přece o něčem jiném a tak i slovní zásoba a použité výrazy musí být jiné..
(odpovědět)
Bystroushaak_ | 77.104.210.249/10.5.50.*6.12.2011 21:05
re: Analýza autorství textů#
Ono prave vubec nevadi, ze je kazdy clanek o necem jinem. S vetsi slovni zasobou mene opakujes stejna slova, tzn. muzes proste spocitat vyskyt jednotlivych vyrazu v danem textu. Cim mensi hodnoty dostanes, tim vetsi slovni zasobu autor ma.

Problem by byl treba se slovem bit, u ktereho vubec nevim, jak jej vyjadrit jinak. Na druhou stranu podobnych jedinecnych pojmu existuje cela rada a da se rict, ze asi v kazdem clanku jich bude nekolik. Proto by se to dalo ignorovat.

Nebo by se to dalo vyresit jeste jinak - pocitat pocet pouzitych slov ze vsech textu od daneho autora. Tzn. bylo by jedno, jestli nejake slovo pouzije jednou nebo dvacetkrat. Tim padem bys u nekoho dostal cislo 200, u nekoho 700.

Z toho by se pak vytvarel urcity profil autora..
(odpovědět)
independent7.12.2011 18:33
re: Analýza autorství textů#
Dneska jsem si vzpomněl, že jsem kdysi četl: [link]

Zajímavá je na tom věta: "Program je využitelný v policejní práci, protože dokáže odhalit padělky nebo přiřadit anonymní text konkrétním lidem."
(odpovědět)
Bystroushaak_ | 77.104.210.249/10.5.50.*9.12.2011 18:39
re: Analýza autorství textů#
Teď jsem narazil na [link]

(odpovědět)
Bystroushaak_ | 88.102.5.*3.4.2012 16:52

Zpět
Svou ideální brigádu na léto najdete na webu Ideální brigáda
 
 
 

 
BBCode