Үгийн тор гэж юу вэ? Монгол үгийн торны тухай
Үгийн тор /wordnet/ гэдэг нь үгс хоорондын утгазүйн холбоо хамаарлыг багтаасан 200 гаруй хэл дээр хэрэгжиж буй үгзүйн өгөгдлийн сан юм.
Утгазүйн холбоо гэдэг нь хоёр ойлголтын холбоос юм. Үгийн тор нь үгсийн ойролцоо нэр, төрөл нэр /гипоним/, төлөөлсөн нэрийг /гиперним/ багтаан утгын харилцаанд холбодог. Ойролцоо утгатай үгсийг тайлбар, хэрэглээний жишээтэй хамт синсетүүдэд /synset/ бүлэглэдэг. Синсет гэж ойролцоо утгаар хэрэглэгдэж болох үгсийн нэгж олонлог бөгөөд синсетэд байгаа үгс утгын хувьд ойролцоо үгс юм[6].
Монгол хэлний үгийн тор
Өнөөг хүртэл Монгол хэлэнд үгийн тор /WordNet/ байхгүй байсан нь энэ төрлийн судалгаа хийгдээгүй орхигдоход хүрчээ. Харин Монгол Улсын Их Сургуулийн Ч. Алтангэрэл[9] нар 26000 гаруй үгийн сантай үгийн торыг бүтээсэн нь энэ төрлийн судалгааг хийх боломжыг олгож байна.
Монгол хэлний үгийн торыг Принцтоны үгийн торыг үгийн сангийн нөөц болгож өргөтгөлийн арга ашиглан мэргэжилтний орчуулга, автомат орчуулга гэх хоёр шатны дамжлагаар хөгжүүлсэн байна. Мэргэжилтний орчуулгыг 2016 оноос Принцтоны үгийн торыг зөвхөн хэлзүйн мэргэжилтнүүдээр орчуулуулах ажлыг эхлүүлсэн байна.
Энэ үгийн тор нь агуулгын хувьд нийт
- 26,875 үгийн сантай
- 2,979 тайлбартай
- 23,665 синсетүүд
- 213 жишээтэй
Үүнээс үгийн сангийн аймгийн хувьд
- 15,976 нэр үг
- 3,791 үйл үг
- 601 дайвар үг
- 3037 тэмдэг нэр
Тус Монгол хэлний үгийн торыг нийтэд CC BY-SA 4.0 лицензийн дор нээлттэй байршуулжээ[11]. Тус монгол үгийн тор нь олон хэлний нээлттэй үгийн торын /Open Multilingual WordNet/ доорх файлын форматыг мөрдөж хийсэн байна.
1 # name langurl license
2 offset -poslang : lemma
3 offset -poslang :def sid
4 offset -poslang :exe sid
Энд ”name” — Төслийн нэр, ”lang” — ISO 3 үсгээс бүрдсэн нэр, ”url” — төслийн URL, ”license” — Лицензийн мэдээлэл, ”offset” — Принцтон үгийн торны оффсет,”pos” — үгсийн аймаг [a,v,n,r] (’s’-г ’a’ гэж үзнэ), ”lemma” — үг (’ ’ -р тусгаарлагдсан), ”sid” — тодорхойлолт/жишээ -н айди(ID)(0-с эхэлнэ)
Үгийн торыг юунд ашиглаж болох вэ?
Хүн төрөлхтөн хүн шиг ухамсартай, бодож сэтгэдэг хиймэл оюуныг бүтээх мөрөөдлөө бүтээхээр өнөөг хүртэл оролдсоор байна.
Туринг тестийг давах хэмжээнд хүрээгүй байгаа боловч алхам алхмаар ойртсоор байна. Туринг тест гэдэг нь Алан Туринг 1950 онд загварчилсан машиныг оюунтай эсэхийг шалгах тест юм .Туринг тестийг давахын тулд машин нь хүний хэлсэн үг, өгүүлбэрийг ойлгож хүнтэй харилцан ярилцах ёстой бөгөөд гуравдагч ажиглагч хүн хэн нь машин гэдгийг ялгаж чадахгүй хэмжээнд байх ёстой.
Цахим эх хэл боловсруулалтад үг өгүүлбэрт хэд дэх утгаараа орсныг тогтоох нь амаргүй даалгавар байдаг. Маш олон үг нэгээс олон утгатай бөгөөд өгүүлбэрт ямар утгаар орсноос шалтгаалж тухайн өгүүлбэрийн утга, санаа өөр болох тул утгыг зөв тогтоох нь чухал юм. Жишээ нь ”Би модны харуул авав.” гэдэг өгүүлбэрийн харуул гэх үг нь өгүүлбэрт ажил мэргэжлийн, модны харуул эсвэл харах үзэхийн харуул гэсэн утгын аль утгаар орж байгааг тогтоох юм.
Тус нийтлэлийг өөрийн бакалаврын ажлын хэсгээс найруулан бэлтгэв.
[6] Г.Амарсанаа. ”Олон хэлний ялгамжит онтологийг олны хүчээр нутагшуулах аргачлал”, МУИС, Улаанбаатар, 2016
[9] Khuyagbaatar Batsuren, Amarsanaa Ganbold, Altangerel Chagnaa, and Fausto Giunchiglia. ”Building The Mongolian WordNet.” In Proceedings of 10th Global Wordnet Conference (GWC). pp 238, 2019.
[11] The Mongolian Wordnet (MonWN), https://github.com/kbatsuren/monwn
Я. Тэмүүжин. “Монгол хэлний үгийн торыг утгазүйн холбоосоор баяжуулах нь”, МУИС, Улаанбаатар, 2020