Demo crawler

HackForum

Demo crawler

Zdravim snazim sa napisat si maly crawler prist na to ako to funguje ale nedary sa mi to. Chcel by som pozbierat vsetky mesta a obce s [link] ale vobec netusim ako "vytiahnut " kompletny zoznam Ak by ma dakto posunul dalej ako na to idealne pomocov php budem viac ako vdacni a o vysledny svojho snazenia sa podelim.
Dakujem za pomoc
(odpovědět)

It Bus | 178.40.43.*

21.3.2013 21:59

re: Demo crawler

Nechce se mi to vysvětlovat, proto rovnou předkládám rychlokód. Měl by snad fungovat. Pokud ne, uprav si ho dle potřeby sám.

Ideální by bylo asi použít nějakou knihovnu na zpracování HTML, ale nad tím se mi nechtělo sedět, takže jsem zvolil cestu zla :)

[link]

----------
Sec-Cave.cz - [link]
(odpovědět)

RubberDuck |

21.3.2013 23:16

re: Demo crawler

Prvne potrebujes stahnout kompletni HTML kod teto stranky. V PHP i Pythonu je to zalezitost nekolika radek.

Ted se musis podivat na strukturu toho HTML. Seznam je razeny abecedne a ke kazdemu pismenu je vzdy samostatna tabulka. Pred tabulkou se vzdy nachazi tento radek:



<h2><span class="editsection">[<a href="/w/index.php?title=Zoznam_slovensk%C3
%BDch_miest,_obc%C3%AD_a_vojensk%C3%BDch_ob
vodov&amp;action=edit&amp;section=1
" title="Upraviť sekciu: A">upraviť</a>]</span> <span class="mw-headline" id="A">A</span></h2>

Je vsude stejny. Jedine, co se meni, jsou pismena ("A", "B", ...) a cislo sekce (1, 2, ...). Zacatek (prvnich nekolik desitek znaku) je nicmene vsude stejny. To je fajn, bude se to hodit.

Za nadpisem se nachazi kod ohraniceny <tr> a </tr>, ktery lze preskocit. Nasleduje dalsi <tr>, kde se hned na nasledujicim radku nachazi tag <td>. Z toho lze vyparsovat nazev obce. Po ukoncovacim </tr> zacina novy par techto tagu, kde je situace uplne stejna.

Konec sekce ("A", "B", ...) naleznes diky tagu </table>, kterym tato sekce konci. Pote tagem <h2> opet zacina nova.

Takze abys to naprogramoval, potrebujes cca toto:
1) Nacist si do nejake promenne ten HTML kod
2) Najit zacatek sekce (ten <h2>)
3) Preskocit prvni par <tr></tr>
4) Po nasledujicim <tr> precist prvni radek <td> a vyparsovat z nej nazev obce (tzn. odstranit vsechny HTML tagy, nic vic).
5) Skocit na dalsich <tr> a opakovat tak dlouho, dokud se nedostanes k tagu </table>
6) Opakovat od bodu 2 dokud nerozparsujes celou stranku
(odpovědět)

independent

21.3.2013 23:26

re: Demo crawler

Zasrany naspeedovany gumovy kachny na koksu, nez clovek napise prispevek, poslou kod :D
(odpovědět)

independent

21.3.2013 23:28

re: Demo crawler

Indy, právě proto jsem psal, že se mi to nechce popisovat :D Sepsat návod je mnohdy mnohem jednodušší a pro čtenáře srozumitelnější ;)

----------
Sec-Cave.cz - [link]
(odpovědět)

RubberDuck |

21.3.2013 23:53

Zpět

Svou ideální brigádu na léto najdete na webu Ideální brigáda


	.Infobox Nejnovější: Články: Zabraňte zneužití svých dat Skrytí oprávnění v Androidu (CVE-2019-2089) Studie: Třetina českých e-shopů má bezpečnostní problémy! Aktuality: Pozvánka na OWASP meetup v Brně Co nyní dělají zakladatelé hacking portálů? Pozvánka na OWASP Czech chapter meeting IT Právo: Jak poslat Email, aby se nejednalo o spam? Konverzace na ICQ jako důkaz. Uveřejnění cizích fotografií Soubory: Phoenix 2.5 Crimeware Exploit Kit Crimepack 3.1.3 BugTrack: SQLi na listyprahy1.cz SQLi na Florenc SQLi na kacov.cz HackForum: Sciolink a pořizování screenshotu obrazovky Dark Web - zkušenosti Detekce HW keyloggeru Další služby: BBC: Supported Tags RSS: RSS Feeds v2.0 IRC: #soom (irc.2600.net) Na SOOM.cz je: Článků: 991 Komentářů: 14 274 Aktualit: 1 862 Souborů: 151 WebForum: 49 500 Hardware: 38 Diskuze: 20 632 BugTrack: 4 415 Reg. uživatelů: 16 423 A proběhlo: Zobraz. článků: 18 233 150 Staženo souborů: 1 462 598 Staženo dat: 963 585 MB Přístupy (hits): 232 115 617

Demo crawler

HackForum

Hacking keywords