HonzaZ | 195.113.28.* | 18.3.2014 22:10 |
| Clanek do teto problematiky urcite bude uzitecny pro velkou spoustu z nas. S dolovanim dat s html stranky a prevod na txt soubor se zabzvam docela casto. Textovych informaci, ktere vyuziji tam byva jen mala velikost oproti html kodu, ktery ma velikost cca 20x vyssi. Pak napriklad skript stahne 200 GB html kodu a z toho pasovanim dostanu 5 GB nebo jen 1 GB pozadovaneho textu. V Pythonu jsem nikdy nedelal, pouzivam klasicky bash - gawk, sed,grep. Pri pouziti api by byl objem prenesenych dat mensi, ale s tim skusenosti nemam a casto to ani nejde. Problem s datovymi limity a zatizenim procesoru ani tak neni, spis se obavam zatizeni weboveho serveru, ktery kazdou stranku generuje z casto velke databauze po vlozeni URL dotazu, proto pouzivam pauzy pri behu skriptu. Stahovani celych webu a vytvoreni offline obrazu - na to jsou specializovane nastroje jiz dost vivinute, tezko by pro obecnej pripad jen tak nekdo napsal lepsi. Pokud ale stahne vsechny odkazy, casto jich pri dynamicke html muze byt hodne a i mala databaze na webovem serveru vygeneruje X GB dat a miliony html stranek. Pro nektere pripady (napr stazeni fotek z rajcete) se proto opet hodi vlastni bash skript. Pri priliz rychle serii dotazu je na nekterch serverech mozno dostat IP ban a par jsem jich uz schytal, proto se ty pausy hodi. A taky u wget pouzit user-agent aby nebylo videt, ze jde o robota. Captcha - to je problem, ktery se nekdy da obejit (ale potreba vetsi znalosti v problematice) a nekdy ne. Nekdy to neprecte ani clovek. Aktualne nevyreseny problem pro skriptovani je uloz.to. Vyuziti indicke nebo cinske de-captcha sluzby povazuji za amoralni. |
|