Komentáře ke článku

5.3.2011 18:16

dnes jsem to cetl po druhe a klidne bych to četl dokola. fak skvely napad a ja osobne bych výhru predal, to ze se nekdo vymlouva na zákon ktery nebyl porušen je ubohost.

wuku | 90.176.135.*

1.3.2011 17:35

mě by zajímalo, odkud si vyhrabal můj čistě soukromý mail, který nikde na netu skoro není

Baegus |

339251808

27.2.2011 9:57

mtmr: Asi si pleteš využití se zneužitím. Navíc tohle celé mělo jenom dokázat, že v takové soutěži nic není nemožné (proto to taky Emkei rozjel těsně před koncem).

Visgean Skeloru | 83.208.175.*

26.2.2011 23:07

btw: google vás stejně po chvíli zablokuje takže bych nečekal nějaké desetitisíce výsledků. (Tuším že je tam možnost využít nějakého jejich api...)

Emkei |

26.2.2011 11:45

mtmr: a jak jsem to zneuzil?

mtmr | 89.102.116.*

26.2.2011 11:35

A co etika Internetu? To že něco jde špatně právně popsat a podchytit, neznamená že se to musí zneužít.

...děláme Internet horším...

asket - nelognut | 46.13.26.*

19.2.2011 16:28

Hezkej profesionální článek.

pyro | 195.28.76.*

18.2.2011 13:16

ne, tak to neni :) musis pouzit ten callback a hodit ho skrz google search.

pokial si napises spravne skript, dokazes z goooglu vytiahnut:

1x google query = max 100 vysledkov
10x query v skripte = 1000x vysledkov

toto je vsetko nutne napisat do php skriptu, inac to nefunguje..

treba pokukat nejaky email crawler php classy.

zarucene to funguje. v mojej praci robim taketo databazy uz rok pre e-marketing...

netek > ja dokazem stiahnut na jednu query:
1xgoogle strana = 100vysledkov = 10xgoogle strana = 1000 vysledkov.

to znaci, ze na jeden klik mam 1000 mailov a to je menej ako minuta, max dve, v zavislosti od netu

cize 1.5 minuty x 1000 = +-1500 vysledkov v jednej operacii = > 1500 vysledkov x 10minut = 15000

pak uz jenom 15000 = > regexp OR xpath (nebo oboji)

netek | 217.197.36.*

18.2.2011 13:02

to pyro: stahuješ celé stránky a hledáš v nic podle regurelních výrazu požadované info? Potom nechápu jak můžeš během 15ti minut získat 10 tisíc emailů..? Když vezmu že jedna stránka má v sobě takových emailu třeba 5 (a i to je hodně), to bys musel stáhnout 2000 stránek za 10 minut, což je nereálné ne? Nebo špatně chápu a bereš text pouze z výsledků hledání na google?

pyro | 195.28.76.*

18.2.2011 8:35

staci pouzit callback, regular expression / xpath.

postup:

1. aplikuj callback na google search. V googl search pouzi kriteria podla akych potrebujes najst maily. pomocou skriptu odstran vsetky nepotrebne casti vystupu callbacku, aby ostal cisto text - plain, inner, outer (podla potreby)

2. priklad vyrazu pro mail search: "?mail: ~personal? oddelen~"

3. na cisty vystup z bodu 1., v ktorom sa nachadzju najdene polozky, treba pouzit regular expression. extrahovat z vystupu len tie polozky, ktore su relevantne pre vystup - napr: "((?:[a-z][a-z]+))(.)([a-z])" - > vyselektuje slovo "personal".

4. tymto postpom dostanes napriklad:
-nadpis polozky (...nemocnice » Personál odd...)
-obsah polozky (Personál oddělení. Prim. MUDr. Marie Holbová: e-mail: marie.holbova@nem-km.cz: telefon: ( +420 ) 573 322 381)
-linku k zdroju: (...cz/oddeleni/ocni/ocni-personal/)

5.
a) bud vyextrahujes callback vystup a dostanes svoje mena, kontakty, maily, povolani

b) pouzijes xpath na vyhladanou linku a z te nasledne vycucnes cokoliv co je treba

end

Stránky: 1 2 3

Komentáře ke článku

Hacking keywords