Zpět na seznam článků     Zpět na článek

Komentáře ke článku

 
 
 BBCode
misa7 | E-mail5.3.2011 18:16
dnes jsem to cetl po druhe a klidne bych to četl dokola. fak skvely napad a ja osobne bych výhru predal, to ze se nekdo vymlouva na zákon ktery nebyl porušen je ubohost.
wuku | 90.176.135.*1.3.2011 17:35
mě by zajímalo, odkud si vyhrabal můj čistě soukromý mail, který nikde na netu skoro není
Baegus | E-mail | Website | ICQ 33925180827.2.2011 9:57
mtmr: Asi si pleteš využití se zneužitím. Navíc tohle celé mělo jenom dokázat, že v takové soutěži nic není nemožné (proto to taky Emkei rozjel těsně před koncem).
Visgean Skeloru | 83.208.175.*26.2.2011 23:07
btw: google vás stejně po chvíli zablokuje takže bych nečekal nějaké desetitisíce výsledků. (Tuším že je tam možnost využít nějakého jejich api...)
Emkei | E-mail | Website | PGP26.2.2011 11:45
mtmr: a jak jsem to zneuzil?
mtmr | 89.102.116.*26.2.2011 11:35
A co etika Internetu? To že něco jde špatně právně popsat a podchytit, neznamená že se to musí zneužít.

...děláme Internet horším...
asket - nelognut | 46.13.26.*19.2.2011 16:28
Hezkej profesionální článek.
pyro | 195.28.76.*18.2.2011 13:16
ne, tak to neni :) musis pouzit ten callback a hodit ho skrz google search.

pokial si napises spravne skript, dokazes z goooglu vytiahnut:

1x google query = max 100 vysledkov
10x query v skripte = 1000x vysledkov

toto je vsetko nutne napisat do php skriptu, inac to nefunguje..

treba pokukat nejaky email crawler php classy.

zarucene to funguje. v mojej praci robim taketo databazy uz rok pre e-marketing...

netek > ja dokazem stiahnut na jednu query:
1xgoogle strana = 100vysledkov = 10xgoogle strana = 1000 vysledkov.

to znaci, ze na jeden klik mam 1000 mailov a to je menej ako minuta, max dve, v zavislosti od netu

cize 1.5 minuty x 1000 = +-1500 vysledkov v jednej operacii = > 1500 vysledkov x 10minut = 15000

pak uz jenom 15000 = > regexp OR xpath (nebo oboji)
netek | 217.197.36.*18.2.2011 13:02
to pyro: stahuješ celé stránky a hledáš v nic podle regurelních výrazu požadované info? Potom nechápu jak můžeš během 15ti minut získat 10 tisíc emailů..? Když vezmu že jedna stránka má v sobě takových emailu třeba 5 (a i to je hodně), to bys musel stáhnout 2000 stránek za 10 minut, což je nereálné ne? Nebo špatně chápu a bereš text pouze z výsledků hledání na google?
pyro | 195.28.76.*18.2.2011 8:35
staci pouzit callback, regular expression / xpath.

postup:

1. aplikuj callback na google search. V googl search pouzi kriteria podla akych potrebujes najst maily. pomocou skriptu odstran vsetky nepotrebne casti vystupu callbacku, aby ostal cisto text - plain, inner, outer (podla potreby)

2. priklad vyrazu pro mail search: "?mail: ~personal? oddelen~"

3. na cisty vystup z bodu 1., v ktorom sa nachadzju najdene polozky, treba pouzit regular expression. extrahovat z vystupu len tie polozky, ktore su relevantne pre vystup - napr: "((?:[a-z][a-z]+))(.)([a-z])" - > vyselektuje slovo "personal".

4. tymto postpom dostanes napriklad:
-nadpis polozky (...nemocnice » Personál odd...)
-obsah polozky (Personál oddělení. Prim. MUDr. Marie Holbová: e-mail: marie.holbova@nem-km.cz: telefon: ( +420 ) 573 322 381)
-linku k zdroju: (...cz/oddeleni/ocni/ocni-personal/)

5.
a) bud vyextrahujes callback vystup a dostanes svoje mena, kontakty, maily, povolani

b) pouzijes xpath na vyhladanou linku a z te nasledne vycucnes cokoliv co je treba


end

Stránky: 1 2 3