Zber dat
HackForum

| Dobry den mal by som otazku.
Existuje nieaka sluzba alebo program ktora napriklad zozbiera emailove adresy s danejs tranky alebo ine udaje a vie ich ulozit? Nejde mi o spam alebo podobne ale chcel by som zostrojit program alebo script ktory by dokazal napriklad s pokecu alebo podobnej sluzby extrahovat data.
dakujem za pomoc (odpovědět) | zber dat? | 95.103.174.* | 12.1.2012 22:43 |
|
|
|
| Za pár stovek ti ho napíšu. (odpovědět) | Bystroushaak_ | 77.104.210.249/10.5.50.* | 13.1.2012 1:06 |
|
|
|
| Ono to chcem robit ako normalny open source projekt.
Preto hladam nieaku inspiraciu.
Bystroushaak_ - daj mi na seba kontakt (odpovědět) | zber dat? | 212.136.7.71/10.15.2.* | 13.1.2012 7:12 |
|
|
|
| Mail: bystrousak@kitakitsune.org (odpovědět) | Bystroushaak_ | 77.104.210.249/10.5.50.* | 13.1.2012 21:59 |
|
|
|
| Hledej informace s výrazem "spider".
----------
Teprve když vstáváte s hackingem a uléháte s myšlenkou na něj, máte šanci být hackerem. (odpovědět) | |
|
|
|
| Perl / Python, regulerni vyrazy
1) stahnout stranku
2) regex na odkazy -> ulozit, navstivit pozdeji
3) regex na maily -> ulozit
4) navstivit dalsi stranku, opakovat od bodu 1
Ruzne rozsahle zmeny v zavislosti na presnych pozadavcich jsou pripustne. (odpovědět) | independent_ | 46.135.141.* | 14.1.2012 17:38 |
|
|
|
| > 2) regex na odkazy -> ulozit, navstivit pozdeji
Hehe. Víš že je dost silně netriviální napsat regexp na odkazy? Vzhledem k tomu že můžou obsahovat javascript, base64 a různě (ne)ukončené uvozovky je to fakt docela hardcore. Naposledy jsem někde našel nějaký na pět řádek a ten pořád ještě nevychytával všecho :) Osobně to řeším HTML parserem vlastní výroby. (odpovědět) | Bystroushaak_ | 77.104.210.249/10.5.50.* | 18.1.2012 14:23 |
|
|
|
| Jo, mas pravdu. Vyparsovat to bude rozhodne jednodussi. (odpovědět) | |
|
|
| neco podobnyho sem delal na prohlizeni obrazku z 9gagu abych jich mel vic na strance: [link] takze se na to muzes mrknout. Jen jsem ty obrazky nestahoval ale zobrazoval (odpovědět) | jstc | 88.102.5.* | 18.1.2012 18:32 |
|
|
|