ئۇيغۇرسوفت يانبىلوگى

بىلوگ ھەققىدە
سەھىپىلەر
ئەڭ يېڭى يازمىلار
كۆپ باھالىق يازمىلار
تورداشلار ياقتۇرغان يازمىلار
تەۋسىيە يازمىلار
ئاۋات يازمىلار
يازما ئىزدەش
Tag لەر رېتى

ئۇيغۇرچە 22 مىليون تەبئىي سۆزلۈك ئامبىرى

ئۇيغۇرچە 22 مىليون تەبئىي سۆزلۈك ئامبىرى

ۋاقتى: 2015-01-31 ئاۋاتلىقى: 1170 قېتىم

يانفوندا كۆرۈش

ئۇيغۇر تىلى كومپيۇتېر تىلشۇناسلىقىدا ھەرقېتىم مۇشۇنداق يېڭى نەرسىلەرنى ھېسابلاپ نەتىجىسىنى كۆرگىنىمىدە، ئانا تىلىمنىڭ ئۇيغۇر تىلى بولۇپ قالغانلىقى، ھېسابلاش ماتېماتىكىسى كەسپىنى ئۆگەنگەنلىكىم ۋە كومپيۇتېردا پىروگرامما يازالىغانلىقىمدىن بەزىدە ئاجايىپ خۇشاللىق ھېس قىلىمەن. ئەمەلىيەتتە ھازىر بۇ بەك يۇقىرى تېخنىكىمۇ ھېسابلانمايدۇ، لېكىن چۈشىنىدىغانلار ياكى ئېھتىياجلىقلار ئۈچۈن بۇ ئىجادىي ئەمگەكنىڭ نەتىجىسى ھەقىقەتەنمۇ زور.

مەن 10 يىل بۇرۇنلا ئۇيغۇر تىلىدىكى ھەرپ-بەلگە، بوغۇملارنىڭ تەكرارلىقىنى ھېسابلاپ كۆرگەن ئىدىم، كېيىن يەنە ئۇيغۇر تىلىدىكى سۆزلەرنىڭ ئاجىزلىشىشى، تۈپ (ئىسىم، پېئىل قاتارلىق) سۆزلەرنى تۈرلەش ۋە كەينىگە قايتۇرۇش (تۈپ سۆزىنى تېپىش) قاتارلىق جەھەتلەردە بەزى ئىلمىي خىزمەتلەرنى ئىشلەپ ياخشى نەتىجىگە ئېرىشتىم، بۇلارنىڭ بەزىلىرى ئۇيغۇرسوفت مەھسۇلاتلىرىدا ئىشلىتىلدى. 3 يىلنىڭ ئالدىدا مەن يەنە تۈپ سۆزلەرنى تۈرلەش ئارقىلىق 50 مىليونغا يېقىن سۆزلۈك ئامبىرىنى قۇرۇپ، ئۇيغۇر تىلىنىڭ ئىپادىلەش كۈچىنىڭ ھەقىقەتەنمۇ يۇقىرىلىقىنى ھېس قىلدىم. ئەمما بۇ ئامباردىكى ھەربىر سۆزگە جۈملە تۈزۈش تامامەن مۇمكىن بولسىمۇ، لېكىن تەبىئىي تېكىستلەردە بۇنداق جۈملىلەر ئاساسەن ئۇچرىمايدىكەن، مۇنداقچە ئېيتقاندا بۇ ئامباردىكى %99 سۆزلۈكنى ئىشلەتمەيدىكەنمىز. ئۇنداقتا ھازىرقى زامان ئۇيغۇر تىلىدىكى تەبىئىي جۈملىلەردە ئىشلىتىلىۋاتقان تەكرارلانمىغان ھەقىقىي سۆزلۈك زادى نەچچە؟ مېنىڭ شۇ ۋاقىتتىكى ھېس قىلىشىمچە تەكرارلىقى 2 دىن كۆپ بولغان سۆزلۈك 500 مىڭدىن ھەرگىز ئاشمايدۇ، لېكىن زادى نەچچە؟

ئەلۋەتتە بۇنى ھېسابلاش ئۈچۈن غايەت زور تەبىئىي سۆزلۈك بولۇشى كېرەك. بۇ سوئال كاللامغا كىرىۋالغاندىن كېيىن تەبىئىي ماتېرىياللارنى توپلاشقا باشلىغان ئىدىم. لېكىن بۇ ھەرگىزمۇ ئۇيغۇرچە تور بېكەتلەردىكى ئۇچۇرلار ئەمەس، ئۇنى ئاساس قىلىشقا بولمايدۇ. چۈنكى ئىلمىيلىكى يۇقىرى بولمايدۇ، توردا تەكرارلانغان سۆز بەك كۆپ، مەسىلەن: ئىنكاس، تېما،…دېگەندەك، ئۇنىڭدىن باشقا يەنە ئىملادىكى خاتالىقلار كۆپ بولۇپ، %20 دىن ئاز ئەمەس. شۇڭا يەنىلا قولۇمدا بار بولغان تەبىئىي ئامبارلارنى ئاساس قىلدىم. نەچچە كۈن ئىلگىرى قارىسام بارلىق سۆزلەر 22 مىليوندىن ئېشىپ، 23 مىليونغا يېقىنلىشىپ قاپتۇ. مېنىڭچە مۇشۇ يېتەرلىك بولدى دەپ قارايمەن. چۈنكى مەن يەنە باشقا ماتېرىياللاردىن بىرەر 100 مىڭ سۆزلۈكنى ئامبارغا قوشاي دېسەم، بۇنىڭ ئىچىدە يېڭىدىن قوشۇلىدىغان سۆز 200 دىن ئاشمايدۇ. دېمەك مېنىڭ بۇ ئامبىرىمدا ئۇيغۇر تىلىدىكى سۆزلەرنىڭ %99.8 كىرىپ بولدى دېگەن گەپ. كەمتەرلىك بىلەن دېگەندە ئۇيغۇر تىلىدىكى %99 سۆزلۈك مېنىڭ ئامبىرىمدا بار.

23 مىليونغا يېقىن سۆزلەرنىڭ تەكرارلىقىنى ھېسابلاپ كۆرسەم، تەكرارلانمىغان 367741 سۆزلۈك قالدى. بۇلارنى تەكرارلىقى بويىچە يۇقىرىدىن تۆۋەنگە رەتلەپ چىقتىم، نەتىجىسى مانا:


سوئال: ئۇيغۇر تىلىدىكى ئەڭ كۆپ ئىشلىتىلىدىغان 5 سۆز قايسى؟
جاۋاب: ۋە، بۇ ، بىلەن، بىر، بولۇپ (لېكىن بۇ تۈپ سۆز ئەمەس، تۈپ سۆز بويىچە «قىل-» دېگەن تۈپ پېئىل بۇ يەرگە تىزىلىدۇ)

سوئال: مەنىداش سۆز «لېكىن»، «ئەمما»، «بىراق»نىڭ ئىچىدە قايسىسى سۆزنىڭ تەكرارلىقى ئەڭ يۇقىرى؟
جاۋاب: ئەمما (58-ئورۇندا)، لېكىن (77-ئورۇندا)، بىراق (154-ئورۇندا) بولۇپ، بۇنىڭ ئىچىدە «ئەمما» ئەڭ كۆپ ئىشلىتىلىدۇ. ئېسىڭىزدە بولسۇن بۇلارنىڭ تەرتىپى ئەمما، لېكىن، بىراق

سوئال: «تېز تاماقخانا» ياكى «تىز تاماقخانا» ئىچىدە قايسىنىڭ ئىملاسى توغرا؟ كومپيۇتېر بۇنى قانداق پەرقلەندۈرۈشى كېرەك؟
جاۋاب: «تېز» دېگەن سۆزنىڭ كەينىدە 86 قېتىم «تاماقخانا»، «تىز» دېگەن سۆزنىڭ كەينىدە 12 قېتىم «تاماقخانا» دېگەن كۆرۈلگەن، شۇڭا كومپيۇتېرغا ھۆكۈم قىلدۇرساق «تېز تاماقخانا» دېگەن سۆزنىڭ ئىملاسى توغرا بولىدۇ. «ئۇيغۇرسوفت كوررېكتورى»دا مۇشۇنداق ھەقىقىي سۆز خاتالىقى مەسىلىسى ھەل بولمىغان ئىدى، مانا ئەمدى بۇنىڭ ھەل بولۇشىدا ئۈمىد بار.

بۇ ئامبارنىڭ ئىلمىي قىممىتى ئىنتايىن يۇقىرى بولۇپ، ئۇيغۇرچە سۆزلۈك كىرگۈزگۈچ، ئاۋازلىق كىرگۈزگۈچ، OCR (رەسىملىك كىرگۈزگۈچ)، كوررېكتورلۇق (ئاپتوماتىك توغرىلاش)، …قاتارلىق نۇرغۇن ساھەلەردە قوللىنىشقا بولىدۇ. مۇشۇ ساھەگە ئائىت دۆلەتنىڭ پەن-تەتقىقات تۈرلىرىگە ئېرىشكەنلەر ناۋادا پايدىلىنىمەن دېسە، مەن ھەقلىق شەكىلدە تەمىنلەپ بېرىمەن. مەندە يەنە مەلۇم بىر ماقالىنىڭ ئۇيغۇرچە، قازاقچە ياكى ئەرەبچە ئىكەنلىكىنى %99 تېپىپ بېرەلەيدىغان سۆزلۈك ئامبىرىم بار. بۇنىڭ ئەھمىيىتى شۇكى ئىزدەش ماتورلىرى توردىن يىغىۋالغان ماتېرىياللارنىڭ مەن يۇقىرىدا دېگەن 3 تىلنىڭ قايسىدا يېزىلغانلىقىنى %99 ھۆكۈم قىلالايدۇ ۋە تۈرلەرگە ئايرىپ ئامبارغا ساقلىيالايدۇ.

كومپيۇتېرلىرىم يەنە بۇ ئامبارلارنى جۈملىلەرگە پارچىلاپ مۇنداق ھېسابلاشلارنى قىلىۋاتىدۇ، بەلكىم ئۇنىڭ نەتىجىسى يېقىندا چىقىشى مۇمكىن. مەسىلەن: «مەكتەپ» دېگەن سۆزنىڭ ئالدىدا نەچچە سۆز ئىشلىتىگەن؟ ئۇنىڭ كەينىدىچۇ؟ «مەكتەپ» دېگەن سۆزنى ئايروپىلاننىڭ گەۋدىسىگە ئوخشاتساق، ئۇنىڭ ئوڭ قانىتىدا نەچچىلىك سۆز بار؟ سول قانىتىدا نەچچىلىك سۆز بار؟ ئايروپىلان ئوڭغا قاراپ ئۇچامدۇ ياكى سولغىمۇ؟ بۇ ئارقىلىق ئويۇن ياساشقىمۇ بولغۇدەك يەنە يېزىقچىلىق ئىشلىرىغىمۇ قوشۇمچە ياردەم بەرگىلى بولۇشى مۇمكىن.

ئۇيغۇر تىلىدا ئەڭ كۆپ ئىشلىتىدىغان ئالدىنقى 100 سۆز
(بۇنى كۆچۈرۈپ Excel غا چاپلاپ كۆرسىڭىزمۇ بولىدۇ)
ID سۆز سانى تەكرارلىقى
1 ۋە 256550 1.1203%
2 بۇ 218911 0.9559%
3 بىلەن 195816 0.8551%
4 بىر 186683 0.8152%
5 بولۇپ 94665 0.4134%
6 قىلىش 77457 0.3382%
7 بولىدۇ 67637 0.2954%
8 قىلىپ 63961 0.2793%
9 بولغان 61218 0.2673%
10 ئۈچۈن 58868 0.2571%
11 مۇنداق 53282 0.2327%
12 ئۇ 52420 0.2289%
13 بويىچە 51298 0.2240%
14 يەنە 49065 0.2143%
15 قاتارلىق 47298 0.2065%
16 كېيىن 46558 0.2033%
17 كېرەك 46440 0.2028%
18 دېدى 45250 0.1976%
19 ئارقىلىق 43122 0.1883%
20 دەپ 39187 0.1711%
21 ئەمدى 37382 0.1632%
22 يۇقىرى 35867 0.1566%
23 قىلغان 34590 0.1510%
24 قىلىدۇ 34325 0.1499%
25 مۇشۇ 33904 0.1481%
26 قىلدى 33624 0.1468%
27 چوڭ 32613 0.1424%
28 مەن 32037 0.1399%
29 ئۇنىڭ 31209 0.1363%
30 دېگەن 30545 0.1334%
31 ئېلىپ 30452 0.1330%
32 بېرىش 29107 0.1271%
33 ياكى 27963 0.1221%
34 شۇ 26712 0.1166%
35 بىز 26051 0.1138%
36 قانداق 25117 0.1097%
37 بېرىپ 25098 0.1096%
38 بولسا 24935 0.1089%
39 يېقىندا 24900 0.1087%
40 سۇ 23656 0.1033%
41 بۇيان 23593 0.1030%
42 ھەمدە 23390 0.1021%
43 باشقا 22487 0.0982%
44 بولسۇن 21937 0.0958%
45 بولدى 21758 0.0950%
46 ئىچىدە 21411 0.0935%
47 تېخىمۇ 21179 0.0925%
48 ھەم 20229 0.0883%
49 بولۇش 19487 0.0851%
50 قارىغاندا 18866 0.0824%
51 شۇڭا 18406 0.0804%
52 قايسى 18053 0.0788%
53 سىز 17364 0.0758%
54 نۆۋەتتە 16439 0.0718%
55 باشلاپ 16304 0.0712%
56 كەلگەن 16257 0.0710%
57 ئىكەن 16253 0.0710%
58 ئەمما 16003 0.0699%
59 ئۇلارنىڭ 15321 0.0669%
60 نۇرغۇن 15128 0.0661%
61 ئۇلار 15100 0.0659%
62 ھازىر 14777 0.0645%
63 يېتىپ 14733 0.0643%
64 نەچچە 14423 0.0630%
65 شۇنداقلا 14207 0.0620%
66 قىلىنغان 14194 0.0620%
67 ئۇنى 13501 0.0590%
68 ئوخشاش 13438 0.0587%
69 توغرىسىدا 13397 0.0585%
70 ئەمەس 13307 0.0581%
71 ھالدا 13091 0.0572%
72 ئىدى 13002 0.0568%
73 قالغان 12952 0.0566%
74 بۇنىڭدىن 12877 0.0562%
75 شۇنداق 12837 0.0561%
76 ناھايىتى 12811 0.0559%
77 لېكىن 12763 0.0557%
78 ئەگەر 12741 0.0556%
79 بەردى 12601 0.0550%
80 بۇنداق 12484 0.0545%
81 يوق 12473 0.0545%
82 ئۆزىنىڭ 12324 0.0538%
83 كىشىلەر 12087 0.0528%
84 بولسىمۇ 11977 0.0523%
85 كېلىپ 11957 0.0522%
86 داۋاملىق 11898 0.0520%
87 بەرگەن 11823 0.0516%
88 ۋاقىتتا 11632 0.0508%
89 ئارتۇق 11446 0.0500%
90 مۇمكىن 11165 0.0488%
91 تۇرۇپ 11109 0.0485%
92 قاراپ 10875 0.0475%
93 يەردە 10606 0.0463%
94 چىقىپ 10394 0.0454%
95 تولۇق 10340 0.0452%
96 تۇرسۇن 10272 0.0449%
97 يەنى 10267 0.0448%
98 ئالدى 10073 0.0440%
99 قىلىمىز 10071 0.0440%
100 ئىبارەت 10045 0.0439%

بايانات

مەزكۇر يانبىلوگ ئۇيغۇرسوفت شىركىتىنىڭ ئورگان يانبىلوگى بولۇپ، بارلىق ھوقۇق ئۇيغۇرسوفت شىركىتىگە تەۋە!

تەلەي قاپىقىدىن چىققان يازمىلار

باھالار

ئىسمىڭىز:

باھالار رېتى