Списак речи

Размишљајући како да направим просту игрицу типа "На слово, на слово" дошао сам до закључка да ми је неопходан мало дужи списак речи писаних српском ћирилицом. Решење за овај проблем пронашао сам у одговору на адреси  http://www.elitemadzone.org/. Ради се о програму који преузима текстуални садржај с одређеног Интернет сајта, а затим из њега издваја речи. Многи Интернет сајтови и у Србији задовољавају основни услов да је текст написан српском ћирилицом, и омогућавају проналажење великог броја исправно написаних речи за даљу обраду и употребу у лексичким играма или другим језичким анализама.

Програм „Преузми документе“ је врло једноставан, дизајниран је да аутоматски преузме HTML документе са било ког интернет сајта, почевши од задате стартне адресе. Програм рекурзивно прелази преко свих хипервеза унутар домена, до задате дубине, чиме је сада омогућено флексибилно претраживање, не само по индексу већ и по структури линкова на сајту. Преузети документи се чувају у текстуалном УНИКОД формату у фасцикли „Документи“, а сваки документ добија јединствено име на основу редног броја.

По стартовању програма, корисник уноси стартну интернет адресу и максимални број докумената који треба да се преузму, као и колико дубоко програм сме да „завири“ у структуру сајта. Кликом на дугме, програм успоставља интернет везу, проверава доступност адресе и започиње преузимање докумената. Током рада програм приказује статусну поруку, а корисник може у било ком тренутку да прекине процес и касније га поново покрене. Програм памти које адресе су већ обрађене, чиме се избегава дуплирање докумената.

Сви преузети документи су чистог текстуалног садржаја, а из њих се касније може издвојити листа речи за различите намене – попут састављања речника, лексичке анализе или креирања игара.

Напомена :

Веома је важно напоменути да пре коришћења програма корисник мора да провери да ли је преузимање садржаја са изабраног сајта дозвољено. Услови коришћења и ауторска права могу забрањивати аутоматизовано преузимање садржаја, па се препоручује да се власнику сајта упути захтев за дозволу уколико то није јасно назначено.