ဒေတာလုပ်ငန်းစဉ်

လုပ်ငန်းစဉ်ပုံကြမ်း
လုပ်ငန်းစဉ်ပုံကြမ်း

ဒေတာများကိုရယူခြင်း

ဒေတာများကို ရယူရာတွင် မတူညီသည့်နေရာများမှ တဆင့်ရယူရခြင်းဖြစ်သည်။ ယင်းတို့သည် ဌာနအလိုက် သိမ်းဆည်းထားသည့် ပုံစံမတူညီသည့် အတွက် သုတေသနပြုရာတွင်ဖြစ်စေ၊ သရုတ်ခွဲရာတွင်ဖြစ်စေ ဒေတာရယူခြင်းသည် အရေးပါသည့် အခန်းကဏ္ဍတွင်ပါဝင်သည်။ အချို့သော် ဒေတာများသည် csv ပုံစံဖြင့်သိမ်းဆည်းထားပြီး ရယူရန်အတွက် file server များမှတဆင့်ပေးခြင်းမျိုးရှိနိုင်သည်။ အချို့သော် Excel file များကိုရယူရာတွင်မူ email မှတဆင့်ရယူရခြင်း ယင်းတို့တွင် သက်ဆိုင်ရာဌာနအလိုက် လုံခြုံစေရန်အတွက် password များဖြင့် ပေးလေ့ရှိသည်။ အချို့သော် ဒေတာများမှာမူ database များတွင်သိမ်းဆည်းထားကြပြီးယင်းတို့ကိုရယူရန်အတွက် ဌာနအလိုက်မတူညီသည့် စည်းမျည်းများ၊ခွင့်ပြုချက်များကိုလိုအပ်သည်။ ယင်းတို့ကို ရယူရန်အတွက် SQL language ကို အသုံးများသည်။ အထူးသတိပြုရမည့်အချက်မှာ SQL query ကို သက်ဆိုင်ရာ ဌာနများမှပေးသည့် အတိုင်းသာ အသုံးပြုရမည်ဖြစ်သည်။ မိမိဖက်မှပြုပြင်ခြင်းဖြည့်စွက်ခြင်းကိုလုပ်ဆောင်ခွင့်မရှိပါ။ READ only သာလျှင် အသုံးပြုရမည်ဖြစ်ပြီး အခြားသော DML များကို အသုံးပြုခြင်းမပြုရ။ API မှတဆင့်ရယူခြင်း ယင်းတို့သည် သက်ဆိုင်ရာ application developer များမှ တဆင့် ခွင့်ပြုချက်ရထားသည့် ဒေတာများကိုရယူခြင်းဖြစ်သည်။ file ဖြစ်နိုင်သကဲ့သို့ database အားခွင့်ပြုပေးလိုက်ခြင်းလည်းဖြစ်နိုင်သည်။ READ only သာလျှင်တောင်းယူရမည်ဖြစ်ပြီးအခြားသော permission များပါဝင်နေပါက ယင်းတို့ကိုပြန်လည်ရုတ်သိမ်းထားရန်တောင်းဆိုရမည်ဖြစ်သည်။ Hadoop file နှင့် feather ကိုအသုံးပြုမည်ဆိုပါက Apache Spark နှင့် အသုံးပြုခြင်းက ပိုမိုသင့်လျှော်မည်ဖြစ်သည်။ Pandas dataframe သည်ယင်းကဲ့သို့ကြီးမားသည့် ဒေတာများအတွက် အဆင်ပြေစွာလုပ်ဆောင်နိုင်မည်မဟုတ်ပါ။

တန်ဖိုးရှိဒေတာများကိုရွေးခြယ်ခြင်း

ရယူထားသည့် ဒေတာများသည် များသောအားဖြင့် အသုံးချ၍မရသေးသည့် အကြမ်းထည်အဆင့်သာရှိသေးသည့် ဒေတာများဖြစ်သည်။ သို့ဖြစ်၍ ယင်းတို့သည် လက်ရှိမိမိဖြေရှင်းလိုသည့် ပြဿနာနှင့် အနီးစပ်ဆုံးဖြစ်နိုင်မည်ဟုယူဆရသည့် ကော်လံများ (columns) ကိုရွေးခြယ်ရမည်။ ငွေကြေး (Financial) နှင့်သက်ဆိုင်သည်၊ လူ့စွမ်းအားအရင်းအမြစ် (Human resource) နှင့်သက်ဆိုင်သည်၊ ကြေငြာများ (Advertisements) နှင့်သက်ဆိုင်သည်၊နေရာဒေသ (Geo spatial) နှင့်သက်ဆိုင်သည်၊ အထူးပြုထားသည့်သုသေတန အကြောင်းအရာစသည်ဖြင့် သက်ဆိုင်ရာ ကော်လံ (columns) များကိုရွေးထုတ်ရမည်ဖြစ်သည်။ ထိုသို့ရွေးခြယ်ရာတွင် မိမိရယူထားသည့် ဒေတာကော်လံများသည် (မှတ်ချက် ယင်းတို့ကို feature ဟုခေါ်သည်) နည်းနည်းနှင့် သတ်မှတ်ထားသည့် ရလဒ်ကို အကောင်းမွန်ဆုံးထုတ်ပေးနိုင်မည့် ကော်လံများဖြစ်ရန်လိုအပ်သည်။ ဤလုပ်ဆောင်ချက်ကို data mining လုပ်ဆောင်ခြင်းဟုနည်းပညာအခေါ်အားဖြင့်သတ်မှတ်ခေါ်ဆိုကြသည်

ဒေတာအားစစ်ဆေးခြင်း

ဒေတာများကို စနစ်တကျ ရွေးခြယ်ပြီးပါက ယင်းဒေတာများသည် အသုံးပြုရန်သင့်မသင့်ကို စတင်စစ်ဆေးရန်လိုအပ်သည်။ စတင်စစ်ဆေးခြင်းမပြုမီ ယင်းတို့သည် စံပုံစံဖြစ်နေရန်လိုအပ်သည်။ ယင်းတို့သည် database များမှရယူခဲ့ပါ ယင်းတို့အား ကော်လံ များအဖြစ်ပြောင်းလဲရန်လိုအပ်သည်။ ယင်းသို့ပြောင်းလဲရာတွင် ကြားခံအဆင့်တဆင့်လိုအပ်မည်ဖြစ်သည်။ ထိုသို့ပြောင်းလဲရာတွင် ဒေတာပမာဏပေါ်မူတည်၍ အသုံးပြုရမည့် နည်းပညာအနည်းငယ် ကွာခြားသွားမည်ဖြစ်သည်။ စစ်ဆေးရာတွင် ဒေတာစုံခြင်းမစုံခြင်း၊ ဒေတာများ ပျောက်ဆုံးခြင်းရှိမရှိ၊ ပြုပြင်ပြောင်းလဲခြင်းလုပ်ဆောင်ထားခြင်းရှိမရှိ၊ အနည်းဆုံးနှင့် အများဆုံးတန်ဖိုးများကိုရှာခြင်း၊ Box plot ဖြင့် ဒေတာများသည် မည်သည့် quantile ထဲတွင်ပါဝင်ကြောင်းကို စစ်ဆေးရမည်ဖြစ်သည်။ ဒေတာများ၏ ပုံစံသည် စံသတ်မှတ်ထားသည့်ပုံစံနှင့်ကိုက်ညီမှုရှိမရှိကို စစ်ဆေးခြင်းစသည်တို့ကိုလုပ်ဆောင်ရမည်ဖြစ်သည်။ ထို့သို့စစ်ဆေးခြင်းလုပ်ဆောင်နိုင်ရန်အတွက် ဒေတာများသည် အနည်းဆုံး ၆ လ စာရှိနေရမည်ဖြစ်သည်။ သို့မှသာ ယင်းတို့၏ trend များကိုသိရှိနိုင်မည်ဖြစ်သည်။ အကယ်၍ စစ်ဆေးချက်များသည် ယခင်ဒေတာများထက်ကောင်းမွန်လာခြင်းမရှိပဲ ပျောက်ဆုံးမှုများ၊ မတည်ငြိမ်မှုများ၊ ယုံကြည်ရန်ခက်ခဲသည့် အခြေအနေများကိုတွေ့မြင်ရလာပါက ယင်းတို့ကို အစမှတဖန်ပြန်လည်စစ်ဆေးခြင်းကိုလုပ်ဆောင်ရမည်ဖြစ်သည်။

တွက်ချက်ခြင်း

ဒေတာများကို သက်ဆိုင်ရာကော်လံအလိုက်မတူညီသည့် တွက်ချက်မှုများကိုလုပ်ဆောင်ပေးရသည်။ အဓိက ကျသည့် တွက်ချက်မှုများမျာ ၁။ ပျှမ်းမျှရှာခြင်း (average/ mean) ၂။ Moving average ရှာခြင်း ၃။ Weighted mean average (WMA) ရှာခြင်း ၄။ Exponential weighted mean average (EWMA)တန်ဖိုးရှာခြင်း စသည့်လုပ်ဆောင်ချက်များပါဝင်သည်။ ထို့သို့တွက်ချက်ရာတွင် မတူညီသည့် filter များ၏ရလဒ်ကို အသုံးပြုရသည်။ ငွေကြေးဆိုင်ရာများတွင် ရငွေသီးသန့်ကိုသာဆွဲယူခြင်း၊ အသုံးပြုငွေကိုသာဆွဲယူခြင်း၊ HR ဒေတာများထဲတွင် ပျက်ရက်များအတွက် ပေါင်းခြင်း နုတ်ခြင်းစသည်တို့ကို လုပ်ဆောင်ပြီးသည်နှင့် မဖြစ်နိုင်လောက်သည့် တွက်ချက်မှုများကို ဆန်းစစ်ကာ ဒေတာပမာဏ ၏ ၅ရာခိုင်နှုန်းအောက်ဆိုပါက ဖယ်ရှားခြင်း စသည်တို့ကိုလုပ်ဆောင်ခြင်းဖြစ်သည်။ filter အဆင့်သည် မတွက်မီနှင့် တွက်ပြီးအဆင့်များတွင် ပါဝင်နိုင်သည်။ သို့ရာတွင် ဖယ်ရှားသည့် ဒေတာများသည်လည်း သက်ဆိုင်ရာကျွမ်းကျင်သူများ၏အကြံပြုချက်ဖြင့်သာဖယ်ရှားပေးရမည်ဖြစ်သည်။

Gaussian သို့ပြောင်းခြင်း

ရရှိလာသည့် ဒေတာများကို Hypothesis လုပ်ခြင်း၊ Linear model များတွင် ထည့်သွင်း၍ ခန့်မှန်းချက်များရယူခြင်း စသည်တို့လုပ်ဆောင်နိုင်ရန်အတွက် Bell shape ပုံစံသို့ပြောင်းလဲမည်ဖြစ်သည်။

model ရွေးခြယ်ခြင်း

ဤအဆင့်သည် သက်ဆိုင်ရာ package များကိုအသုံးပြုခြင်းဖြင့်လုပ်ဆောင်နိုင်သည်။ သို့ရာတွင်အခြေခံအချက်များကို သိရှိထားမှသာလျှင် မိမိ model ၏ ရလဒ်ကိုကောင်းမွန်အောင်ပြုပြင်ပေးနိုင်မည်ဖြစ်သည်။

နောက်ခံလေ့လာထားရမည့် သင်္ချာဆိုင်ရာများ

1. Linear algebra 2. Vector 3. Calculus 4. ODE အနည်းငယ်