Zpět na seznam článků     Zpět na článek

Komentáře ke článku

 
 
 BBCode
unavensluncem | 2001:67c:284:32:24e3:aae1:b5a4:*13.9.2013 10:25
zdar, zajimavy tool pro zjistovani systemu na kterem web frci je blindelephant ([link]) nevim jak je to jeste zive, ale kdyz jsem si s tim kdysi hral, tak to melo dost dobre vysledky...
Jakub Tětek | E-mail | PGP11.9.2013 18:33
Děkuji moc za poznámky.
Beru na vědomí a pokud budu někdy dělat něco podobného, tak se polepším.
Možná v dalším článku, který by měl být poměrně podobný tomuto...

----------
-----BEGIN GEEK CODE BLOCK-----
Version: 3.1
GCS d- s-:- a--- C+ UL++ L+++ W++ w-- PGP++ b++
------END GEEK CODE BLOCK------
Bystroushaak_ | 109.202.67.*11.9.2013 4:31
To parsování jsi nemusel dělat přes beautifulsoup*, to by ti trochu času urychlilo (přeci jen, hledáš jen meta tagy, tak je zbytečné parsovat celou stránku, což není zrovna triviální proces). Nemusíš na to použít ani re, pár .split() by to mělo pořešit.

Místo threadů bych použil korutiny z stackless pythonu ([link]), těch můžeš mít podstatně víc.

Taky jsi mohl trochu vyčistit ten script na githubu, chápu, že takhle vypadá rychle napsaný hack, ale na publikaci bych to trochu zpřehlednil a nepoužíval jednořádkovosti v té formě, v jaké to tam máš. Chápu že takhle to jde taky, ale přeci jen, tohle jsi dal na web pro ostatní a tak by bylo pěkné, kdyby se v tom mohli dobře zorientovat.

Jinak dobrá práce, konečně někdo, kdo si dokáže poradit.

*BeautifulSoup je známá svou pomalostí.
krdw | 89.176.24.*10.9.2013 7:55
Tu automatickou aktualizaci CMS (bez mého vědomí) pomocí pluginu bych nedoporučoval, přece jen je lepší po aktualizaci zkontrolovat, jestli vůbec web funguje. Navíc je zde i určité riziko kompromitace, přece jen Wordpress není Windows.
Jakub Tětek | E-mail | PGP9.9.2013 16:29
Děkuji za poznámky,
Zjistím si o tom něco víc, zní to zajímavě.
Jinak určovat CMS podle administrace jsem zkoušel, každopádně je to výrazně složitější, než pomocí meta tagu generator. Co jsem zkoušel náhodně několik stránek, tak generátor vždy odpovídal skutečné verzi CMS.

----------
-----BEGIN GEEK CODE BLOCK-----
Version: 3.1
GCS d- s-:- a--- C+ UL++ L+++ W++ w-- PGP++ b++
------END GEEK CODE BLOCK------
Emkei | E-mail | Website | PGP9.9.2013 15:25
K procházení se používají seznamy domén přímo od správců národních/generických registrů, čímž se mj. crawler dostává opakovaně na blacklist, neboť např. CBL automaticky blokuje IP přistupující na odstavené C&C, což se skriptu podaří i několikrát za den. Jinak kromě tagu generic, který se často i falšuje, lze např. u WordPressu zkusit načíst readme.html, nebo ještě efektivněji se různá CMS rozlišují podle obsahu /robots.txt nebo administrace. Pěkný článek...

Stránky: 1