ئۇيغۇرسوفت يانبىلوگى

بىلوگ ھەققىدە
سەھىپىلەر
ئەڭ يېڭى يازمىلار
كۆپ باھالىق يازمىلار
تورداشلار ياقتۇرغان يازمىلار
تەۋسىيە يازمىلار
ئاۋات يازمىلار
يازما ئىزدەش
Tag لەر رېتى

ئۇيغۇرچە OCR

ئۇيغۇرچە OCR

ۋاقتى: 2015-01-31 ئاۋاتلىقى: 1250 قېتىم

يانفوندا كۆرۈش

بۈگۈن (يەنى 2011-يىلى 4-ئاينىڭ 27-كۈنى، چارشەنبە) بېيجىڭدىكى ئۈچىنچى ئىشىم بېيجىڭ خەنۋاڭ (汉王) شىركىتىنىڭ تەكلىپى بۇيىچە مۇناسىۋەتلىك خادىملار بىلەن تېخنىكىلىق پىكىر ئالماشتۇرۇش ۋە ھەمكارلىقنى كۈچەيتىش ئىدى، خەنۋاڭ شىركىتى دۆلىتىمىزدىكى OCR (ئوپتىكىلىق ھەرپ-بەلگىلەرنى پەرقلەندۈرۈش) تېخنىكىسى جەھەتتە ئەڭ ئالدىنقى ئورۇندا تۇرىدىغان بولۇپ، بۇ شىركەت دۆلەتنىڭ تۈر مەبلىغىگە ئېرىشكەندىن كېيىن، ئۇيغۇرچە يۇمشاق دېتال ساھەسىدە تېخى تەلتۈكۈس ھەل بولمىغان ئۇيغۇرچە، قازاقچە ۋە قىرغىزچە OCR يۇمشاق دېتالىنى تەتقىق قىلىۋاتقان ئىدى. خەنۋاڭ بىلەن ئۇيغۇرسوفتنىڭ ئۇيغۇرچە OCR جەھەتتىكى تېخنىكىلىق ئالاقىسى ئالدىنقى يىلنىڭ بېشىدا باشلانغان بولۇپ، دەسلەپكى سىناق مەھسۇلاتمۇ پۈتۈپ قالغان ئىدى، ئەمما، قىسمەن مەسىلە ساقلانغان بولۇپ، بۇنى پەقەت بىۋاسىتە تېخنىكىلىق مۇنازىرە قىلىش، پىكىر ئالماشتۇرۇش ۋە ھەمكارلىشىش ئارقىلىق ھەل قىلىشقا بولاتتى.

خەنۋاڭ شىركىتىدىكى مۇناسىۋەتلىك خادىملار مېنىڭ بېيجىڭغا بارىدىغانلىقىمنى بىلگەندىن كېيىن، بىز 4-ئاينىڭ 27-كۈنى چارشەنبە چۈشتىن بۇرۇن ئۇچرىشىشنى پىلانلىغان ئىدۇق. بۇ مىكروسوفت شىركىتىگە بارغان كۈننىڭ ئەتىسى ئىدى. مەن ئۇيغۇرچە OCR نىڭ سىناق نۇسخىسىدىكى نۇقسانلارنى رەتلەپ، ھەل قىلىش چارىسىنىمۇ ناھايىتى پۇختا تەييارلىغان ئىدىم. ئۇلار مېنىڭ ۋاقتىمغا ئاساسەن شۇ كۈنى چۈشتىن بۇرۇن ئىككى سائەت تېخنىكىلىق لېكسىيە ئورۇنلاشتۇرغان ئىدى.

مەن دېيىشكەن ۋاقىتتىن يېرىم سائەت بۇرۇن، جۇڭگۈەنسۈن يۇمشاق دېتال باغچىسى (شاڭدى غەربىي يولى上地西路)غا جايلاشقان بېيجىڭ خەنۋاڭ (باش) شىركىتىگە كەلدىم. ئىشىك تۈۋىدىكىلەرگە تىزىملىتىپ ساقلاپ تۇردۇم، ئۇزۇن ئۆتمەيلا مەن بىلەن كۈرۈشمەكچى بولغان مەسئۇل خادىم پەسكە ئۆزى چۈشۈپ مېنى ئېلىپ ماڭدى. بۇ شىركەتنىڭ مىكروسوفتقا ئوخشىمايدىغان يېرى كارتا بەرمىدى، لېكىن، ئىشىك ئالدىدا چىراي پەرقلەندۈرۈش ئۈسكۈنىسى ئارقىلىق بىخەتەرلىك تەكشۈرۈش ۋە يوقلىمىدىن ئۆتىدىكەنمىز. بۇ ئۈسكۈنىلەرنىڭ ھەممىسى ئەلۋەتتە خەنۋاڭنىڭ مەھسۇلاتى بولۇپ، پەرقلەندۈرۈش سۈرئىتى خېلە تېز ئىكەن. بىز لېفىت ئارقىلىق 3-قەۋەتتىكى 10 كىشلىك كىچىك يىغىن زالىغا كەلدۇق. ئارقىدىن باش دېرىكتورنىڭ ياردەمچىسى ۋە 5-6 كىشى كىرىپ كەلدى. ئۇ باش دېرىكتورنىڭ ئالدىنقى كۈنى ئاۋىستىرالىيەگە Intel شىركىتىنىڭ يىغىنغا كەتكەنلىكىنى، ھازىرچە بارلىق ئىشلارغا ئۆزىنىڭ مەسئۇل بولىدىغانلىقىنى ئېيتىپ ئۆزىنىڭ ئىسىم كارتوچكىسىنى بەردى. ئاندىن ئۇ خادىملارغا: «ئالىم مۇئەللىم شىنجاڭدىن ئالاھىدە شىركىتىمىزگە قەدەم تەشرىپ قىلدى، پۇرسەتنى چىڭ تۇتۇپ ئۇيغۇرچە OCR غا مۇناسىۋەتلىك تېخنىكىلىق مەسىلىلەرنى ئوبدان سورىۋېلىڭلار، بولمىسا، سىلەرنى ئۈرۈمچىگە ئەۋەتىمەن، ئالىم مۇئەللىم، بىز سىزنىڭ تەكلىپ-پىكىرلىرىڭىزنى ئاڭلاشقا تەييار بولدۇق»-دېدى. قىززىق يېرى مەن ئىسىم كارتوچكىسىدا خەنزۇچە ئالىم ئەھەت (دېرىكتور) دەپ يازساممۇ، ئۇلار مېنى ئىزچىل «ئالىم مۇئەللىم (阿老师)»-دەپ چاقىرىپ تۇردى. قارىغاندا، ئۇلار دېرىكتورنى چوڭ بىلمەي، ئۇنىۋېرسىتېت ئوقۇتقۇچىسىنى چوڭ بىلەمدىغاندۇ؟ ياكى تېخنىكىلىق جەھەتتە ئۇلارغا لېكسىيە سۆزلەپ بېرىدىغانلىقىمنى ئاڭلاپ، مۇئەللىم دەپ تۇرىۋالدىمۇ ھېچ بىلمىدىم.

ھەرپ-بەلگە پەرقلەندۈرۈش بۆلۈمىنىڭ باشلىقىمۇ يىغىنغا قاتناشتى، بىز شۇنداق قىلىپ سۆھبەتنى باشلىۋەتتۇق. مەن بارلىق تېخنىكىلىق مەسىلىلەرنى ئوتتۇرغا قويدۇم، ناھايىتى قىزغىن پاراڭلاشتۇق، ئۇلارنىڭ بەزىلىرى دەپتىرىگە ئالدىن تەييارلىۋالغان سوئاللىرى بويىچە سوئال سوراشقا باشلىدى، ئۇلارنىڭ سىناق مەھسۇلاتىدا كۆرۈلگەن مەسىلىلەرنى كۆرسىتىپ، ھەل قىلىش چارىسىنى ئوتتۇرغا قويدۇم، ئۇلارمۇ خۇددىي ئوقۇغۇچىلاردەك دەپتەرلىرىگە خاتىرە قالدۇردى. مېنى تەسىرلەندۈرگەن يېرى ئۇلارمۇ بىر يىلدىن بۇيان ئۇيغۇرچە ھەرپ-بەلگىلەرنى خېلە تۇنۇيدىغان بولۇپتۇ، ئەمما، ئۇيغۇر-يېزىقىنى تېگىدىن چۈشەنمىگەن بولغاچقا، ھەر بىر مەسىلىنى ئوتتۇرغا قويغاندا، ناھايىتى كەسكىن مۇنازىرە ئېلىپ باردۇق. ئۇلارغا نىسبەتەن قىيىن ئىش سۆزلەرنىڭ ئىچىدىكى تۇتاش بۆلەكنى ئايرىش (يەنى سۆز ۋە تۇتاش بۆلەك چېگرىسىنى بېكىتىش) ۋە ئاخىرقى نەتىجىگە نىسبەتەن ئىملا تۈزىتىش ئىكەن. بۇ ماڭا نىسبەتەن بەكلا ئاددىي ئىش ئىدى، لېكىن، ماڭا نىسبەتەن قىيىن ئىش ئۇيغۇرچە ھەرپلەرنى بىر-بىرىدىن ئاجرىتىش ئىدى. ئۇلار ئۇيغۇرچە ھەرپلەرنى بىر-بىرىدىن ياخشى ئاجرىتىپتۇ، لېكىن، بىرىكتۈرگەندە سۆزنىڭ ئىملاسىدا مەسىلە كۆرۈلىدىكەن. گەرچە يەككە ھەرپلەرنى پەرقلەندۈرۈش نىسبىتى %98 گە يەتسىمۇ، لېكىن ئۇلارنى بىرىكتۈرگەندە ھاسىل بولغان سۆزنىڭ ئىملاسىدا خاتالىق كۆپ ئىكەن. ئومۇمىي پەرقلەندۈرۈش نىسبىتى %60 دىن %70 غىچە بولىدىكەن، بۇنى پەقەت ئىملا تەكشۈرۈش ئارقىلىق (بولۇپمۇ سۆز ۋە ھەرپنىڭ چاستوتاسىغا ئاساسەن، ئېھتىماللىق نەزەرىيىسى بۇيىچە) ھەل قىلغاندا، %90 دىن يۇقىرى قىلىشقا بولىدۇ، ئۇيغۇرسوفت كوررېكتورى ئارقىلىق سىناق نەتىجىسى ئىزچىل ياخشى بولدى. بەتنى ئاپتۇماتىك تۈزلەش، داغ نۇقتىلارنى چىقىرىپ تاشلاش قاتارلىق ئالاھىدىلىكى ئۈچۈن، ئەسلىدىكى خەنزۇچە OCR نىڭ ئىقتىدارلىرىنى ئىشلىتىپتۇ، ناۋادا، ئىملا تەكشۈرۈش ئېلىپ بارمىغاندا، پەرقلەندۈرۈش نەتىجىسى تۆۋەنلەپ قولدا ئۆزگەرتىشكە توغرا كېلىدىكەن

ئۇنىڭدىن باشقا يەنە ھەر بىر قۇر كەينىدە قۇر ئايرىش بەلگىسىنى سۈكۈتتىكى ھالەتتە (ئىلگىرىكى قاتتىق قۇر ئايرىش بەلگىسىنىڭ ئورنىغا) يۇمشاق قۇر ئايرىش بەلگىسىگە ئالماشتۇرۇش، «س» بىلەن «ى»، «ل» بىلەن «ى»، «ا» بىلەن «1» قاتارلىقلارنى توغرا پەرقلەندۈرۈشتە ھەقىقەتەنمۇ سۆزلۈك ئامبىرى ۋە ئىملا تەكشۈرۈش تېخنىكىسىغا ئېھتىياجلىق بولىدىغانلىقىنى تولۇق ھېس قىلدى. مەن ئەينى ۋاقىتتا «ئۇيغۇرچە كوررېكتورلۇق يۇمشاق دېتالى» ھەققىدىكى ماگىستېرلىق ئوقۇش پۈتتۈرۈش ماقالىسىنى ئوقۇغاندىنمۇ كەسكىن مۇنازىرە بولدى. تېخنىكىلىق سۆھبەت ئىككى يېرىم سائەتتىن ئارتۇق داۋاملاشتى. چۈشلۈك تاماق ۋاقتى بولاي دېگەندە، مەركىزىي مىللەتلەر ئۇنىۋېرسىتېتىكى بىر ئوقۇتقۇچى بىلەن كۆرۈشىدىغان ئىشىمنىڭ بارلىقىنى ئېيتىپ خوشلاشتىم. ئۇلار رەسىمگە چۈشۈپ خاتىرە قالدۇرۇپ قويايلى دېيىشتى، ئاندىن ھەممىسى 1-قەۋەتكە چۈشۈپ ئۇزۇتۇپ قويدى.


مەن شۇنداق قىلىپ بۇ ساھەگە مۇناسىۋەتلىك ئۇيغۇرچە يۇمشاق دېتالدىمۇ مەسئۇلىيىتىمنى تولۇق ئادا قىلدىم، خەنۋاڭ شىركىتىنىڭ ھەرپ-بەلگە پەرقلەندۈرۈش جەھەتتىكى تېخنىكىسى ناھايىتى ئىلغار، ئۇيغۇرسوفت شىركىتىنىڭمۇ ئۇيغۇرچە تىل-يېزىققا مۇناسىۋەتلىك يۇمشاق دېتاللاردا تىكلىگەن ئاساسىي ئىنتايىن پۇختا، شۇنداق قىلىپ ، ئۇيغۇرچە (قازاقچە ۋە قىرغىزچە) يۇمشاق دېتال ساھەسىدە ئۇزۇندىن بېرى تالاش-تارتىش قىلىۋاتقان بۇ تېخنىكا ئاخىرى ھەمكارلىق ئاساسىدا ياخشى ئۈنۈم بەردى. كۆڭلۈم ئىنتايىن ئارام تاپتى.

جۇڭگۈەنسۈن يۇمشاق دېتال باغچا رايونىغا دۆلىتىمىزدىكى داڭلىق يۇمشاق دېتال كارخانىلىرى توپلاشقان ئىكەن، خەنۋاڭ شىركىتىدىن ئايرىلىپ ئالدىدىكى چوڭ يولغا كەلسەم، Baidu شىركىتىنىڭ بىناسى كۆرۈندى. قارىغاندا بۇ يەر يېقىن كەلگۈسىدە، دۇنيادىكى 2-كىرىمنىي جىلغىسى بولۇپ قالغۇدەك.

OCR توغرىسىدىكى مۇناسىۋەتلىك ئۇلانما:


بايانات

مەزكۇر يانبىلوگ ئۇيغۇرسوفت شىركىتىنىڭ ئورگان يانبىلوگى بولۇپ، بارلىق ھوقۇق ئۇيغۇرسوفت شىركىتىگە تەۋە!

تەلەي قاپىقىدىن چىققان يازمىلار

باھالار

ئىسمىڭىز:

باھالار رېتى