Perić Željko Smederevo - Списак речи

Списак речи

Размишљајући како да направим просту игрицу типа "На слово, на слово" дошао сам до закључка да ми је неопходан мало дужи списак речи писаних српском ћирилицом. Решење за овај проблем пронашао сам у одговору на адреси http://www.elitemadzone.org/. Ради се о програму који преузима текстуални садржај с одређеног Интернет сајта, а затим из њега издваја речи. Једини Интернет сајт који задовољава услов да је текст написан српском ћирилицом, и омогућава проналажење великог броја речи, јесте сајт компаније Политика http://www.politika.rs/ . Анализом структуре овог сајта пронашао сам рубрику "Најновије вести" http://www.politika.rs/vesti/najnovije-vesti/index.1.sr.html која садржи преко десет хиљада индексираних страница чистог текста, којима се приступа једноставно навођењем броја индекса унутар УРЛ адресе. Уколико желите да приступите страници под редним бројем хиљаду, адреса странице би изгледала овако http://www.politika.rs/vesti/najnovije-vesti/index.1000.sr.html.

Програм је врло једноставан. Успоставимо везу с Интернет сервером на коме је сајт Политике и преузмемо документ с индексом један, у оквиру кога се налази и индекс последњег документа. Прочитамо индекс последњег документа, а затим сукцесивно преузимамо документе од првог до последњег. Када преузмемо све документе, покрећемо претраживање докумената и издвајање појединачних речи. Што се тиче правописа, претпоставићемо да је компанија Политика са својим стажом од преко сто десет година постојања превазишла правописне грешке и да су све пронађене речи у текстовима коректно написане. За потребе овог сајта написана су два програма. Један за преузимање докумената, и други за проналажење речи у оквиру текстуалног документа. Правописне грешке уколико их има могу се отклонити једино "ручно", односно прегледом свих пронађених речи и директном корекцијом.

Напомена :

Могуће је да компанија Политика промени формат докумената на свом интернет сајту, што би довело до онемогућавања рада програма за преузимање докумената. У том случају неопходно је променити програмски код и прилагодити програм новонасталој ситуацији.

Програм "Преузми документе"

По стартовању програма , и кликом на дугме за успоставу везе с Интернет сервером, програм покушава да успостави везу и преузме документ с индексом један. Уколико успе, приказује у за то намењеним пољима, колико докумената постоји на серверу и колико докумената је преузето приликом предходног рада програма. С обзиром да је преузимање докумената доста споро, омогућено је да корисник прекине рад програма и настави преузимање докумената онда када му то одговара. Преузети документи су из ХТМЛ формата пребачени у чист текстуални УНИКОД формат и снимљени у фасцикли "Документи" која се налази у истом директоријуму где је и главни програм. У дну прозора програма налази се "Статусна линија" која омогућава кориснику да тачно зна у којој је фази рада програм.

https://sites.google.com/site/periczeljkosmederevo/spisak-reci/Preuzmi%20dokumente%20screenshot%204.jpg

Програм "Prepiši reči iz tekstualnog dokumenta"

Програм по одабиру текстуалног документа проналази све речи које документ садржи. Начин претраге зависи од одабраног филтера претраге, као и врсте писма, Азбука или Абецеда. Уколико одаберете опцију "Automatsko pretraživanje", програм сукцесивно отвара све документе унутар одабраног фолдера и проналази речи. Када се сви документи претраже, програм нуди опцију за снимање пронађених речи у одабрани фолдер, разврстане по почетном слову речи. Програм не омогућава било какву проверу правописа или проверу да ли постоје дупликати речи. То морате сами да урадите, унапређењем програмског кода.

Програме можете преузети кликом кликом на одређени линк на дну стране, где се налазе и линкови ка документима с отвореним кодом оба програма. За исправан рад програма неопходан је Мајкрософтов .Нет фрејмворк 4.0 ( ^ ) !