| Nemáte někdo přístup k systému analýzy autorství?
Mám v plánu napsat několik anarchisticky laděných článků a nerad bych aby mě policie odhalila na základě mé bakalářské práce a článků které jsem psal pro několik portálů.
Zajímalo by mě jak se to dá obejít a zda je to tak žhavé, jak to vypadá. (odpovědět) | Morfin | 77.247.181.* | 3.12.2011 2:29 |
|
|
|
re: Analýza autorství textů | # |
| pokial nejdes pisat vyhlasenia pre teroristicke skupiny, tak toto riesit nemusis (odpovědět) | antii | 88.212.36.* | 3.12.2011 14:26 |
|
|
|
re: Analýza autorství textů | # |
| Heh, co když píše? :D
Docela by mě zajímalo, jak podobné systémy fungují. To analyzuje slovní spojení, nebo jak? (odpovědět) | Bystroushaak_ | 77.104.210.249/10.5.50.* | 3.12.2011 20:30 |
|
|
|
re: Analýza autorství textů | # |
| Sice o tom slysim prvne, ale tak napada me:
- delka souveti
- slozitost souveti (carky, ruzny ty slova jako "jak", "ackoliv" apod.)
- pouzivani zavorek, pomlcek, vykricniku, otazniku
- cleneni na odstavce
- zapis "a tak dal" teckama (.. NEBO ... NEBO ....... a podobne)
- pouzivani neologismu a archaickych vyrazu
- pouzivani anglickych vyrazu (Jan Barta :D)
- nadmerne uzivani nekterych slov a vyrazu
- uzivani neobvyklych slov a vyrazu
- typicke gramaticke hrubky a preklepy (existuji lide, co treba vubec neresi me/mne atd.)
- typicke obraty jako "avsak kupodivu to.." (ja :D)
- pouzivani "napriklad", "treba", "pro predstavu" - neco pouzivas vic, neco min
- pouzivani zkratek (atp., atd., napr.) - nekdo je cpe vsude, nekdo to obcas rozepise nebo to rozepisuje vsude ATD :)
- uzivani / neuzivani diakritiky
- znasobovani vykricniku a otazniku ("???", "!!!")
- nejcastejsi preklepy (kazdy pise trochu jinak a dela trochu jine preklepy - treba kdyz jsem ted psal tohle, napsal jsem misto slova dela "delat" a malem jsem si toho nevsiml; jedna z mych nejbeznejsich chyb)
- celkova typografie - spravne umisteni mezer (za teckou / vykricnikem / otaznikem) atp. - hodne lidi dela mezery jen mezi slovama
- delka odstavcu
- ukecanost autora (vyskyt pridavnych jmen v pomeru k ostatnim slovum)
... a urcite by se jeste neco dalo vymyslet, tohle me napadlo jen tak namatkove.
Kazdopadne, programovat ten SW bych fakt nechtel :) (odpovědět) | |
|
|
|
re: Analýza autorství textů | # |
| Můžu vcelku s jistotou říct, že to nebudou natvrdo zapsaná pravidla, ale něco jako neuronové sítě, nebo Markovské rozhodovací procesy. Vyšší magie :) (odpovědět) | Bystroushaak_ | 77.104.210.249/10.5.50.* | 5.12.2011 12:01 |
|
|
|
re: Analýza autorství textů | # |
| To mas asi pravdu, ale na druhou stranu by to chtelo ten text nejak rychle ohodnit, vytvaret profily autora.. A to by pres ty pravidla slo. (odpovědět) | |
|
|
re: Analýza autorství textů | # |
| No, jenže spousta z těch pravidel která jsi napsal by se velice špatně programovala "natvrdo", resp. by to nejspíš vůbec nešlo. Další věc je, že to pak musíš nějak vyhodnotit. (odpovědět) | Bystroushaak_ | 77.104.210.249/10.5.50.* | 5.12.2011 14:07 |
|
|
|
re: Analýza autorství textů | # |
| Yap, bylo by to tezky a mas pravdu, ze neco by vubec neslo. Na druhou stranu tyto vlastnosti urcite maji vliv (bez ohledu na to, jakym zpusobem se to presne bude zjistovat) a tim padem staci psat jinak nez obvykle (viz ten seznam) a ten analyzer te imho neodhali.. (odpovědět) | |
|
|
re: Analýza autorství textů | # |
| To je další věc, která by mě zajímala - jestli to funguje jen na principu slovosledu, nebo sleduje i slovní zásobu atp..
Jde o to co by se stalo, když text opravíš spellcheckerem a necháš někoho udělat korekce, jestli by se ten software stále chytal, nebo ne.
(odpovědět) | Bystroushaak_ | 77.104.210.249/10.5.50.* | 5.12.2011 19:36 |
|
|
|
re: Analýza autorství textů | # |
| Slovni zasobu to bude sledovat urcite a zrovna to je jedna z veci, ktere by se dali sledovat pomerne jednodusse a neni na to potreba nijak zavratne slozity system. (odpovědět) | |
|
|
re: Analýza autorství textů | # |
| Heh, skutečně? Já si moc nedokážu představit jak by to mělo fungovat. Je jasné že to vytváří fingerprinty určitých věcí, například té slovní zásoby a tu to pak porovnává. Jenže, každý článek je přece o něčem jiném a tak i slovní zásoba a použité výrazy musí být jiné.. (odpovědět) | Bystroushaak_ | 77.104.210.249/10.5.50.* | 6.12.2011 21:05 |
|
|
|
re: Analýza autorství textů | # |
| Ono prave vubec nevadi, ze je kazdy clanek o necem jinem. S vetsi slovni zasobou mene opakujes stejna slova, tzn. muzes proste spocitat vyskyt jednotlivych vyrazu v danem textu. Cim mensi hodnoty dostanes, tim vetsi slovni zasobu autor ma.
Problem by byl treba se slovem bit, u ktereho vubec nevim, jak jej vyjadrit jinak. Na druhou stranu podobnych jedinecnych pojmu existuje cela rada a da se rict, ze asi v kazdem clanku jich bude nekolik. Proto by se to dalo ignorovat.
Nebo by se to dalo vyresit jeste jinak - pocitat pocet pouzitych slov ze vsech textu od daneho autora. Tzn. bylo by jedno, jestli nejake slovo pouzije jednou nebo dvacetkrat. Tim padem bys u nekoho dostal cislo 200, u nekoho 700.
Z toho by se pak vytvarel urcity profil autora.. (odpovědět) | |
|
|
re: Analýza autorství textů | # |
| Dneska jsem si vzpomněl, že jsem kdysi četl: [link]
Zajímavá je na tom věta: "Program je využitelný v policejní práci, protože dokáže odhalit padělky nebo přiřadit anonymní text konkrétním lidem." (odpovědět) | Bystroushaak_ | 77.104.210.249/10.5.50.* | 9.12.2011 18:39 |
|
|
|
re: Analýza autorství textů | # |
| Teď jsem narazil na [link]
(odpovědět) | Bystroushaak_ | 88.102.5.* | 3.4.2012 16:52 |
|
|
|