Zpět na seznam článků     Zpět na článek

Komentáře ke článku

 
 
 BBCode
extio | E-mail19.6.2014 17:57
Bolo by možno ho spraviť tak aby za určitu dobu, dajme tomu 1 hodinu sa pripojil na server/stranku a zadal captcha kod?

Alebo by mi stačilo uplne ako spraviť aby zadal captchu.
Potrebuje odniekial čerpať info o tom kode aby zistil čo je tam napisane ?
ZJ | 88.100.56.*9.4.2014 21:44
Tímto komentářem upozorňuji jak autora článku, tak čtenáře, na chybné označní REGULÁRNÍCH VÝRAZŮ slovem REGULÉRNÍ.
HonzaZ | 195.113.28.*18.3.2014 22:10
Clanek do teto problematiky urcite bude uzitecny pro velkou spoustu z nas. S dolovanim dat s html stranky a prevod na txt soubor se zabzvam docela casto. Textovych informaci, ktere vyuziji tam byva jen mala velikost oproti html kodu, ktery ma velikost cca 20x vyssi. Pak napriklad skript stahne 200 GB html kodu a z toho pasovanim dostanu 5 GB nebo jen 1 GB pozadovaneho textu. V Pythonu jsem nikdy nedelal, pouzivam klasicky bash - gawk, sed,grep. Pri pouziti api by byl objem prenesenych dat mensi, ale s tim skusenosti nemam a casto to ani nejde. Problem s datovymi limity a zatizenim procesoru ani tak neni, spis se obavam zatizeni weboveho serveru, ktery kazdou stranku generuje z casto velke databauze po vlozeni URL dotazu, proto pouzivam pauzy pri behu skriptu. Stahovani celych webu a vytvoreni offline obrazu - na to jsou specializovane nastroje jiz dost vivinute, tezko by pro obecnej pripad jen tak nekdo napsal lepsi. Pokud ale stahne vsechny odkazy, casto jich pri dynamicke html muze byt hodne a i mala databaze na webovem serveru vygeneruje X GB dat a miliony html stranek. Pro nektere pripady (napr stazeni fotek z rajcete) se proto opet hodi vlastni bash skript. Pri priliz rychle serii dotazu je na nekterch serverech mozno dostat IP ban a par jsem jich uz schytal, proto se ty pausy hodi. A taky u wget pouzit user-agent aby nebylo videt, ze jde o robota. Captcha - to je problem, ktery se nekdy da obejit (ale potreba vetsi znalosti v problematice) a nekdy ne. Nekdy to neprecte ani clovek. Aktualne nevyreseny problem pro skriptovani je uloz.to. Vyuziti indicke nebo cinske de-captcha sluzby povazuji za amoralni.
Jakub Tětek | E-mail | PGP12.3.2014 14:26
jermenkoo: Děkuji za odkaz. Vím, že HTML není regulérní jazyk a proto ho nelze parsovat regulérními výrazy. Já se ale nesnažím parsovat obecné HTML, nýbrž HTML kód jehož podobu znám. Dokud se nezmění, bude to pořád fungovat.
K tomu je užitečné využívat verzí stránek, které jsou určeny k tisku. Jsou menší a hlavně méně náchylné na změny.

----------
-----BEGIN GEEK CODE BLOCK-----
Version: 3.1
GCS d- s-:- a--- C+ UL++ L+++ W++ w-- PGP++ b++
------END GEEK CODE BLOCK------
Koloděj | 94.142.234.*11.3.2014 22:39
Dik za clanek, sem zvedavej na pokracovani, taky mam par pavouku, ale pouzivam na ne knihovnu httplib2...
S banem sem nemel nikdy problem, radej se na serveru pohybovat pomaleji a nahodne, nez dostat ban. K tomu posilat falesne hlavicky a je vystarano :-) A kdyz preci jen neco prijde, staci vystridat VPS, ktere je provozovani pavouku vzledem na cenu nejlepsi...
Co se tyce otravnejch captcha kodu doporucuji pouzivat sluzby na vyplnovani, kde posilate captcha kod a dostanete od cloveka vyplnene reseni, vyhoda je presnost a cena. Nevyhoda je pomalost.
DarkLifer | 46.234.160.*10.3.2014 23:16
Jermenkoo: Už to tu Jakub T. vysvětloval, proč je a proč není lepší využít to či ono :)
jermenkoo | 85.237.230.*9.3.2014 14:21
Taka mala poznamka: je lepsie pouzit nejaky HTML parser (BeatifulSoup, lxml, ...), kedze grammar-wise je HTML more complex. ([link])
Jakub Tětek | E-mail | PGP8.3.2014 18:48
Bohuzel, Tesseract generuje prazdny soubor. Kazdopadne je ve vyvoji technologie, ktera dokaze captchy spolehlivě lámat. Na tu si ale asi ještě počkáme...

----------
-----BEGIN GEEK CODE BLOCK-----
Version: 3.1
GCS d- s-:- a--- C+ UL++ L+++ W++ w-- PGP++ b++
------END GEEK CODE BLOCK------
Karel2 | 89.24.147.*8.3.2014 14:13
Jakub T.: [link] -> pak vyberes treba "Stavba", napises adresu a po odeslani vyskoci captcha. S takovym pristupem bych je poslal do haje...
Jakub Tětek | E-mail | PGP8.3.2014 11:50
Fil-kun: Děkuji, opravdu zajímavé.
Karel2: Jde o to, jakou CAPTCHU používají. Zběžně jsem na to kouknul, bohužel jsem žádnou nenašel. Pokud mi dáš odkaz, tak na to kouknu.

----------
-----BEGIN GEEK CODE BLOCK-----
Version: 3.1
GCS d- s-:- a--- C+ UL++ L+++ W++ w-- PGP++ b++
------END GEEK CODE BLOCK------

Stránky: 1 2 3