இந்திய மொழிகளில் கன்கார்டன்ஸ் - தொடரடைவு கருவிகளின் அவசியம்

An Article on Concordance 

நம்முடைய நாட்டில் பேசப்படும் மொழிகளில் கணினிசார் மொழிக் கருவிகள் உருவாக வேண்டும் என்று அனைவரும் விரும்புகிறோம். அது சார்ந்த வசதிகள் பற்றி அதிகம் பேசிக்கொண்டிருக்கிறோம். சொல்திருத்திகள், அகராதிகள் போன்றவற்றை உருவாக்க முயற்சிகளையும் செய்து கொண்டிருக்கிறோம். ஆனால் இவ்வகை மொழி சார்ந்த கணினி தேவைகள் அனைத்தையுமே நிறைவேற்ற அடிப்படையாக செயல்படக் கூடிய ஒரு வழிமுறையைப் பற்றி நாம் சிந்திக்கவும் அதனை உருவாக்கவும் தொடங்கவில்லை. இத்தகைய வழிமுறைக்கு பெயர் தொடரடைவு. இதனை ஆங்கிலத்தில் கன்கார்டன்ஸ் என்றழைக்கிறார்கள். தொடரடைவு என்பது என்ன என்பதையும், இச்செயலின் விளைவாக அடையப்படக்கூடிய பயன்களையும் காண்போம்.

தொடரடைவு என்பது என்ன?

தொடரடைவு என்பது "ஒரு புத்தகத்தில் பயன்படுத்தப்பட்டுள்ள முதன்மை அல்லது முக்கிய சொற்களின் அகர வரிசைப்படுத்தப்பட்ட பட்டியலாகும். இப்பட்டியலில், சொற்களுடன் அவை இடம்பெறும் தொடர்களும் குறிப்பிடப்பட்டிருக்கும்". அதாவது ஒரு புத்தகத்தில் ஒரு முதன்மை சொல் இடம்பெறும் தொடர்கள் அனைத்தையும் பெறுதல் தொடரடைவு எனக் கூறலாம். இது உண்மையில் அதிக நேரம் எடுக்கும் சிக்கலான ஒரு வேலையாகும். அதனால்தான் பைபிள், குர் ஆன் போன்ற சிறப்பு வாய்ந்த நூல்களுக்கு மட்டும் ஆரம்பத்தில் தொடரடைவு நிகழ்த்தப் பட்டு வந்தது. பிற்காலத்தில் கணினி கண்டறியப்பட்ட பின்பு இச்செயல் ஒரளவுக்கு எளிதாக்கப்பட்டது. ஆனால் முழுமையான தொடரடைவுக் கருவிகள் செய்யப்படுவதற்கு கணினி மட்டும் போதுமானதாக இல்லை. கூடுதலாக ஏராளமான மனித உழைப்பும் தேவைப்பட்டது. ஏனெனில் சொற்களை மட்டுமின்றி அதன் பொருள்களுடனும் தொடரடைவு தொடர்பு கொள்ள வேண்டியுள்ளது. ஆனாலும் கணினியின் வருகையினால் தொடரடைவு சார்ந்த பணிகளை எளிதாகியுள்ளது உண்மைதான். ஏனெனில் சொற்களை தேடுதல் வரிசைப்படுத்துதல் போன்றவை கணினியின் வரவால் அதிக துல்லியமாகவும் விரைவாகவும் நிகழ்த்தப்படுகின்றன.

தொடரடைவின் பயன்கள்

தொடரடைவு என்பது பெரும்பாலும் மொழியியல் துறைகளுக்கு பயன்படக் கூடியது என்பது போன்ற கருத்துகள் இருந்தாலும் இச்செயல் மொழியியலைத் தாண்டி கணினி சார்ந்த மொழியியலில்தான் பெரிதும் பயன்படுகிறது. குறிப்பாக கணினியில் மொழிக்கருவிகளை உருவாக்குவதற்கு தொடரடைவு பெரிதும் உதவும். தொடரடைவுக் கருவிகள்(தொடரடைவி?) மூலம் உருவாக்கப்படும் தரவகங்கள் பெரிய அளவில் பயன்படக்கூடியவை ஆகும். இவ்வகை தரவகங்கள் ஆங்கிலத்தில் "கார்ப்பஸ்" என்றழைக்கப்படுகின்றன. பொதுவாக தொடரடைவு செயலின் பயன்களாவன:

ஒரே சொல்லின் வெவ்வேறு வகையான பயன்பாடுகளை அறிதல்

வேர்சொல் சார்ந்த ஆய்வுகள்

சொற்கள் கையாளப் படும் வீதம்

வாக்கிய அமைப்புகளை கண்டறிதல் மற்றும் வகைப்படுத்துதல்

இவை தவிர கணினி மொழியியல் துறையில் பயன்பாடுகளாவன:

தேடு பொறிகள் உருவாக்கம்

சொல் வளத்தை சிறப்பாக பயன்படுத்தல்

இந்திய மொழிகளில் சிறப்பான தரவுதளங்களை உருவாக்குதல்

துல்லியமான தேடுபொறிகளை உருவாக்கி பயன்படுத்துதல்

சொல் மற்றும் இலக்கண திருத்திகளின் பின்புலமாக(பேக் எண்ட்) பயன்படுத்துதல்

இம்முறைதான் தமிழ் போன்ற மொழிகளில் உரை ஆய்வு எனப்படும் டெக்ஸ்ட் அனாலிஸஸ் செய்வதற்கு சரியான முறையாகும்.

மேலும் தொடரடைவு சரியாக பயன்படுத்தப் பட்டால் எந்திர மொழிமாற்றம் வரை பயன்படக்கூடியது.

தொடரடைவுக் கருவிகள் (Concordancer)

தொடரடைவுக் கருவி என்பது கொடுக்கப்பட்ட ஏதேனும் ஒரு உரையின் தொடரடைவை உருவாக்கித் தரக்கூடிய கணினி நிரல் அல்லது கருவி ஆகும். தொடரடைவு என்பதை கணினியில் தட்டச்சு செய்யப்பட்டு உள்ள ஒரு உரை அல்லது நூலிலிருந்து தரவுத் தளங்களை உருவாக்கும் முறை என்று வரையறுக்கலாம். இப்பணியை செய்து தரும் கருவிகள் தொடரடைவுக் கருவிகள்(தொடரடைவி?) எனப்படுகின்றன. இம்முறையில் உருவாக்கப்படும் பட்டியல் அல்லது தரவுத்தளத்தில், விருப்பத்திற்கேற்ப சொல் நிகழ் எண்ணிக்கை போன்ற பிற வசதிகள் செய்யப்பட்டு அல்லது செய்யப்படாமல் இருக்கலாம். இவ்வாறு பெறப்படும் தொடரடைவுக் கருவிகளின் வெளியீடுகள் மற்ற மொழியியல் கருவிகளான சொல் மற்றும் இலக்கணத் திருத்தி, தேடு பொறிகள், மொழி சார்க்கருவிகள் போன்றவற்றுக்கு உள்ளீடாகத் தரப்படலாம்.

பொதுவாக தொடரடைவுக் கருவிகளிலிலிருந்து பெறப்படும் தரவுகள் குறிப்பிட்ட சொற்கள் இடம்பெறும் தொடர்களை கொண்டிருக்கும். இந்த பட்டியல் உருவாக்கப்படும் தரவுத்தளம் தொடரடைவுக் கருவிகள் உருவாக்கியதாகவோ அல்லது வேறு வழியில் பெறப்பட்டதாகவோ இருக்கலாம். இவ்வாறு கணினியால் கையாளப்படும் வகையில் சொற்களின் தரவுத்தளங்களை கொண்டிருப்பவைதான் தரவகங்கள் எனப்படுகின்றன (ஆங்கிலத்தில் கார்ப்பஸ்). இவ்வகை தரவகங்கள் சிறப்பாக உள்ள மொழிகளில் சிறந்த கணினிசார் மொழிக் கருவிகள் காணப்படுகின்றன. இந்த தரவகங்கள் ஒரு மொழியில் ஏற்படும் மாற்றங்களுக்கு ஏற்ப அடிக்கடி மேம்படுத்தப்படவும் வேண்டும். முழுமையாகப் பார்த்தால் இவ்வகையான தரவகங்கள் கணினி சார் மொழி பயன்பாட்டுக்கு மிகவும் அடிப்படையான ஒரு கருவியாகும்.

தொடரடைவுக் கருவிகளின் அவசியம்

இது வரை தமிழ் போன்ற இந்திய மொழிகளில் கணினி மொழி பயன்பாடு ஆரம்ப நிலையிலேயே உள்ளது. கணினி சார் மொழி பயன்பாட்டில் பல நிலைகள் இனிமேல்தான் அடையப்பட வேண்டும். இவை தொடரடைவு கருவிகள் மூலம் எளிதாக அடையப்பட முடியும். தொடரடைவு கணினி சார் பயன்பாடுகளுக்கு ஒரு மொழியில் மிகவும் வலுவான அடித்தளமாக அமைய வாய்ப்பு கொண்டது. உற்று நோக்கினால் கணினியில் போதிய வளர்ச்சியை அடையாத பல மொழிகள் தொடரடைவு பற்றி சிந்திக்காமல் இருக்கின்றன என்று புரியும். தொடரடைவு கருவிகள் அடிப்படை சொல் திருத்திகளிருந்து எந்திர மொழி மாற்றங்கள் வரை எதிர்கொள்ளப்படும்சிக்கல்களுக்கு தீர்வளிக்கக் கூடியவை ஆகும். ஏனெனில் கணினி மொழிக் கருவிகளில் ஒவ்வொன்றுமே சிறப்பான தரவுத்தள மேலாண்மையை அடிப்படையாக கொண்டது. இந்த தரவுத்தள மேலாண்மை சாதாரண தரவுத்தள மேலாண்மை மென்பொருள்களை மட்டுமின்றி தொடரடைவு மற்றும் தரவகங்களை அதிகம் சார்ந்திருக்கிறது. ஏனெனில் இவ்வகை கருவிகளே பிராந்திய மொழிகளில் சிறப்பான முறையில் தரவுத்தள மேலாண்மையை தர முடியும். எனவே தொடரடைவு மற்றும் தரவகங்கள் சார்ந்த பணிகளில் நாம் காட்டும் ஈடுபாடு சிறப்பான கணினி மொழிக்கருவிகளின் உருவாக்கத்துக்கு துணை செய்யும். மேலும் இதனால் தமிழ் போன்ற இந்திய மொழிகள் கணினியில் விரைவில் தன்னிறைவு அடையும்.