Deskew

HackForum

Deskew#
Ahoj, mám hafo obrázků v každém je na bílém pozadí černým textem slovo, nijak nedeformované, jenom náhodně natočené. Potřeboval bych nějaký nápad jak jít na algoritmus, kteý by ty obrázky pootáčel aby byla slova vodorovně. Umí to plno grafických programů, ale zatím jsem nenašel žádný, který by to uměl aplikovat na celou složku najednou. Nebo úplně nejlepší možnost, jestli někdo nemáte nějakou decaptchu, která by to rovnou uměla i přečíst.
Moc dík.
(odpovědět)
jon1k555 | E-mail23.3.2010 16:36
re: Deskew#
to neni tezke udelat pomoci imagemagick a gocr v bash scriptu. pootoc vzdy obrazek v obou smerech, pokazde jej cropni a zmer jeho sirku. v momente, kdy je sirka nejvyssi, je obrazek cca ve vodorovne poloze (dostatecne pro ocr).
(odpovědět)
Emkei | E-mail | Website | PGP24.3.2010 9:09
re: Deskew#
Viz. Akce ve Photoshopu.
(odpovědět)
sLa | 84.242.106.*24.3.2010 10:00
re: Deskew#
2sLa: dík akce se budou hodit, ale photoshop nemá deskew...
2Emkei: zajímavý nápad, ale netuším jak moc přesně to stačí natáčet aby to to OCR poznalo... Navíc se mi to zdá hodně časově náročné. Vstup je 10000 obrázků. Teď se to snažím vyřešit pomocí Houghovi transformace([link]), ale stejně se mi to nějak nedaří.
(odpovědět)
jon1k555 | E-mail24.3.2010 16:47
re: Deskew#
zalezi na tom, jak jsi zdatny v linuxu, v bashi je to prace na nekolik radku.
natocit to musis podle toho, jak moc je to maximalne natocene na tech obrazcich, u captchy obvykle staci 90° v obou smerech. pro OCR pak nevadi, ze to nebude zcela presne srovnane podle horizontu, vetsina ctecek s mirnym natocenim pocita a dokaze jej detekovat.
(odpovědět)
Emkei | E-mail | Website | PGP25.3.2010 11:34
re: Deskew#
No, v scriptování v bashi moc zdatný nejsem, ale to je skoro jedno, spíš jsem tím myslel časovou náročnost, přecejenom bych nechtěl aby se to počítalo 3 hodiny a potom to ještě nebylo rozpoznatelné. Myslíš, že stačí dejmetomu odchylka 5° od vodorovné polohy? nebo může být i větší?
(odpovědět)
jon1k555 | E-mail25.3.2010 16:37
re: Deskew#
to hodne zavisi na kvalite toho obrazku a pouzitem fontu. kdyz mi posles na mail vzorek dat, tak ti ten script zkusim napsat, pokud mas zajem...
(odpovědět)
Emkei | E-mail | Website | PGP25.3.2010 16:46
re: Deskew#
[link] Nebo jestli chceš kompletní vstup, tak to tam taky můžu hodit. Zájem rozhodně mám. :D Dík za ochotu.
(odpovědět)
jon1k555 | E-mail25.3.2010 17:33
re: Deskew#
ty obrazky jsou hodne male a navic je pouzit ne zrovna idealni font pro OCR, takze je nutne:

# stahnout si pouzity font (jedna se o font Cheri [link])
# rozsekat mala pismena na jednotlive obrazky
# naucit GOCR rozeznavat tento font (viz rezimy)
# invertovat barvu v tvem obrazku
# aplikovat vyse uvedeny algoritmus pro srovnani horizontu (90° v obou smerech)
# v pripade potreby zvetsit a zaostrit obrazek
# spustit OCR

diky uceni gocr novemu fontu toto zabere nekolik hodin, a to uz se mi, jak doufam pochopis, zdarma delat nechce. jsem ochoten ti tech 10 000 obrazku prevest na text za 500,- budes-li o to skutecne tolik stat, v opacnem pripade si vyse uvedene kroky nastuduj a aplikuj svepomoci, ziskas tak nove vedomosti.
(odpovědět)
Emkei | E-mail | Website | PGP26.3.2010 10:40
re: Deskew#
:D Chapu... bude pro mě přínosnější a levnější když si to zkusim udělat sám. Moc dík za rady.
(odpovědět)
jon1k555 | E-mail26.3.2010 13:49

Zpět
Svou ideální brigádu na léto najdete na webu Ideální brigáda
 
 
 

 
BBCode