তথ্য বিজ্ঞানীদের খুঁজছে সারা পৃথিবী! আপনি প্রস্তুত তো?
তথ্য বিজ্ঞানী কারা? বিগ-ডেটা কি? ডেটা মাইনিং কি? বিগ-ডেটার ভবিষ্যৎ? বাংলাদেশ প্রেক্ষিতে এর ব্যবহার? এগুলো নিয়ে আলোচনা করা হয়েছে এ প্রকাশনায়।
আমেরিকান চাকরি দাতা ওয়েবসাইট গ্ল্যাসেডরের ২০১৬ সালের তালিকা অনুযায়ী আমেরিকার এক নাম্বার চাকরি হচ্ছে “তথ্য বিজ্ঞানী” (ডেটা সায়েন্টিস্ট)। (তথ্যসূত্র)
তথ্য বিজ্ঞানীদের চাহিদা হঠাৎ বাড়ার কারণ হিসেবে বলা হচ্ছে যে বিগ-ডেটা প্রক্রিয়াকরণের সফলতা সব কোম্পানি বুঝতে শুরু করেছে। কিন্তু প্রয়োজনীয় এবং দক্ষ লোক পাওয়া যাচ্ছে না। (তথ্যসূত্র-১, তথ্যসূত্র-২, তথ্যসূত্র-৩)
এ চাহিদা কিন্তু শুধু আমেরিকাতেই নয় সারা বিশ্বের বাড়ছে। হয়ত পরিসংখ্যান করলে দেখা যাবে সারা বিশ্বেই এক নাম্বার চাকরিতে এখন তথ্য বিজ্ঞানী!
তথ্য বিজ্ঞানী কারা? যারা তথ্য নিয়ে বিশেষ করে বিগ-ডেটা নিয়ে গবেষণা করে, তারাই তথ্য বিজ্ঞানী।
বিগ-ডেটা নিয়ে নিচে বিস্তারিত আলোচনা করা হয়েছে।
ডেটা কি?
আমরা নিয়মিত এনালগ (কাগজ-কলম) এবং ডিজিটাল (ইলেকট্রনিক ডিভাইস যেমন: ডেস্কটপ, মোবাইল ইত্যাদি) মাধ্যমে যা তৈরি অথবা/এবং সংরক্ষণ করি এবং যা স্বয়ংক্রিয় তৈরি / সংরক্ষণ হয় সব কিছুই ডেটা বা তথ্য।
বিগ-ডেটা (BigData) কি?
একসময় ইন্টারনেটের মাধ্যমে শুধু লেখা আদান-প্রদান করা হত। কিন্তু এখন লেখার সাথে শব্দ, ছবি, চলচ্চিত্র, মানচিত্র, সেন্সর ডেটা ইত্যাদি কতকিছু আদান-প্রদান করা হয়। এসব ডেটা বা তথ্য কিন্তু সব কিছুই কোথাও না কোথাও সংরক্ষিত হয়।
এসব ডেটা বা তথ্যের পরিমাণ বাড়তে বাড়তে বর্তমানে এমন পর্যায়ে চলে গেছে যে, এই বিরাট পরিমাণ এবং জটিল ডেটা সমূহকে পুরনো সফটওয়্যার দিয়ে বা পুরনো পদ্ধতিতে আর প্রক্রিয়াকরণ (processing) করা যাচ্ছে না! এ বিরাট পরিমাণের জটিল (complex) তথ্যসমূহ-কেই বলা হচ্ছে বিগ-ডেটা (BigData)।
ডেটা সংরক্ষণেই শুধু “বিগ-ডেটা” টার্মটি ব্যবহার হয়না, ডেটা আদান-প্রদানেও এটি ব্যবহার করা হয়।
বিগ-ডেটা মাইনিং (BigData Mining / Data Mining) কি?
বিগ-ডেটা থেকে প্রয়োজনীয় তথ্য খুঁজে বের করে আনাকে বলা হয় বিগ-ডেটা/ডেটা মাইনিং; বাংলায় বলা যায় তথ্য উত্তোলন, তথ্য খুঁজে বের করা ইত্যাদি।
এত ডেটা কিভাবে তৈরি হচ্ছে?
পরিচিত উদাহরণ দেখি: (২০১৬ প্রেক্ষাপট)
আপনি জানেন কি: ফেসবুকে আপনার প্রতিটি সময়ের প্রতিটি পদক্ষেপ সংরক্ষণ করে! আপনি কখন কোথায় কিসে ক্লিক করছেন, কোন পোষ্টে কত সময় দিচ্ছেন, কি/কোথায় শেয়ার, লাইক, কমেন্ট, ইমোশন দিচ্ছেন ইত্যাদি সবকিছু সংরক্ষিত হয়। ফেসবুকের নিয়মিত সক্রিয় ব্যবহারকারী প্রায় ১০০ কোটি। তো চিন্তা করুন শুধু ফেসবুকে কত ডেটা প্রতিদিন সংরক্ষিত হচ্ছে।
গুগলে প্রতিদিন প্রায় 3 হাজার ৫০০ কোটি সার্চ হয়।
টুইটারের মাসিক ব্যবহারকারী ৩১ কোটি। প্রতিদিন প্রায় 50 কোটি টুইট করা হয় টুইটারে।
ইউটিউবে প্রতি মিনিটে ৩০০ ঘণ্টার ভিডিও আপলোড করা হয়। (২০১৪ প্রেক্ষাপট)
ইত্যাদি ইত্যাদি…
নিয়মিত এরকম আরো কত সার্ভিস যে আমরা ব্যবহারকারী ডেটা তৈরি করার জন্য একটু ভেবে দেখুন… 🙂
এছাড়া তথ্য আদান-প্রদানের কথা চিন্তা করলে দেখা যায়: মোবাইলের বিভিন্ন সেন্সরের তথ্য, গাড়ির বিভিন্ন সেন্সরের তথ্য, টিভি, ফ্রিজ… স্যাটেলাইট, কম্পিউটার ইত্যাদির সেন্সর থেকে ডেটা তৈরি/চলাচল হচ্ছে। অডিও/ভিডিও স্ট্রিমিং এ বড় পরিমাণ ডেটা আদান প্রদান হচ্ছে। প্রতিদিন ইউটিউবে ১০ কোটি ঘণ্টার পরিমাণ ভিডিও দেখা হয়।
আপনারা যদি লক্ষ করেন বর্তমানে প্রায় প্রতিটি অ্যাপেই অপশন/সেটিংস এ এরকম একটি অপশন দেখা যা যাতে লিখা থাকে “…automatically send usage statictics to help us improve…” অথবা “…user experience program…” ইত্যাদি, এ অপশন গুলো চালু রাখলে আপনার প্রতিটি পদক্ষেপ সংরক্ষিত হয়, এবং তা ওই অ্যাপ্লিকেশনের সার্ভারে চলে যায়, তবে অ্যাপ্লিকেশন গুলা আপনার পরিচয় জাতীয় তথ্য গোপন রাখে বা পাঠানো হয়না সার্ভারে (বেশীরভাগ ক্ষেত্রেই তারা তাদের Privacy Policy তে লিখে দেয় পরিচয় গোপন রাখা হয়, আসলে কতটুকু সত্য তা তারাই জানেন)।
গুগল, ফেসবুক এবং টুইটারের বিগ-ডেটা ইনফোগ্রাফ দেখতে নিচের ছবিগুলোতে ক্লিক করুন:
বিগ-ডেটার প্রয়োগ
এখন দেখা যাক বিগ-ডেটাকে কিভাবে ব্যবহার করা হয়। বিগ-ডেটা গুলোকে প্রক্রিয়াকরণ (processing) করে এর থেকে প্রয়োজনীয় তথ্য, প্যাটার্ন, মিল খুঁজে বের করা হয়, এবং এসব ব্যবহার করে ভবিষ্যতে অনুমান করা হয়। নিচে বিগ-ডেটা ব্যবহারের কিছু উদাহরণ দেয়া হলঃ
ফেসবুকের ক্ষেত্রে এর ব্যবহারটা দেখা যাক। আমরা উপরেই জেনেছি আমাদের প্রতিটি পদক্ষেপ ফেসবুক সংরক্ষণ করে। তারপর সেসব বিগ-ডেটাকে প্রক্রিয়াকরণ করে আপনার ভালো-লাগা খারাপ-লাগা গুলোকে ফেসবুক বুঝার চেষ্টা করে সে অনুযায়ী আপনাকে বিজ্ঞাপন দেখানো হয়। এছাড়া ফ্রেন্ড সাজেশন, পেজ সাজেশন, গ্রুপ সাজেশন, অ্যাপ, গেম সাজেশন সব গুলো করা হয় এই বিগ-ডেটাকে প্রক্রিয়াকরণ করেই।
বিগ-ডেটা গুলো প্রক্রিয়াকরণ করেই ফেসবুক ঠিক করে কোন ফিচার বন্ধ করা উচিত, কোন ফিচার চালু করা উচিৎ, কোন ফিচার আরো উন্নত করা উচিত। অর্থাৎ পণ্যের উন্নয়নে বিগ-ডেটা খুবই গুরুত্ব পূর্ণ।
এরকম ভাবে গুগল সার্চ, ইউটিউব, টুইটার সহ সব প্রতিষ্ঠান আপনার পার্সোনাল আচার-ব্যবহার গুলোকে সংরক্ষণ করে, এবং সেগুলোর মাধ্যমে আপনাকে বিভিন্ন জিনিস সাজেশন দেয় এবং তৃতীয় পক্ষের সাথে এগুলো শেয়ার করে (সহজ কথায় বিক্রি করে) এবং আপনার আচার-ব্যবহারের উপর ভিত্তি করে আপনার কাছে এই তৃতীয় পক্ষের বিজ্ঞাপন প্রচার করে।
এছাড়া পণ্য বিক্রয়ের ওয়েব সাইট যেমন: অ্যামাজন.কম এর মত সাইট গুলোও বিগ-ডেটা ব্যবহার করে। তারা বিগ-ডেটা ব্যবহার করে বের করার চেষ্টা করে কোন পণ্যের সাথে কোন পণ্যের অ্যাড দিলে তাদের বিক্রি বাড়বে। তারার আপনার আচরণকে অনুসরণ করে বিগ-ডেটা তৈরির মাধ্যমে।
বিগ-ডেটা এবং ডেটা মাইনিং এর গুরুত্ব বুঝানোর জন্য একটি জনপ্রিয় গল্প হচ্ছে “বিয়ার এবং ডায়পার” এর গল্প! গল্পটি এরকম:
বিশ্বখ্যাত ব্যবসাপ্রতিষ্ঠান ওয়াল-মার্ট, তাদের ক্রেতারা একধরনের কার্ড ব্যবহার করে কেনাকাটা করত ওয়াল-মার্ট থেকে। সেই কার্ডের মাধ্যমে ওয়াল-মার্ট কোম্পানি জানতে পারত কোন সময় কোন ক্রেতা কি জিনিস ক্রয় করত। তারা এ তথ্য গুলো সংরক্ষণ করে রাখত। একসময় ওয়াল-মার্ট ক্রেতাদের সব তথ্য গুলো (বিগ-ডেটা) বিশ্লেষণ করে দেখল প্রতি শুক্রবার সন্ধ্যায় আমেরিকান পুরুষেরা যারা ডায়পার কিনত তারা সাথে বিয়ার ও কিনতো!
পারে ওয়াল-মার্ট কি করল, যে, শুক্রবার সন্ধ্যায় ক্রেতাদের জন্য ডায়পার এবং বিয়ার একসাথে রেখে দেয়া হত। ফলে ক্রেতাদের আর আলাদা করে বিয়ারের খুঁজতে হত না, এবং যারা বিয়ার নিতে ভুলে যেত তারাও আর ভুলত না! এতে তাদের ব্যবসা আরো বেড়ে গেল।
তথ্যসূত্র
ওয়েব সাইট ডেভেলপাররা ইতিমধ্যেই বিগ-ডেটা ব্যবহার করছেন। SEO (Search Engine Optimization) এর জন্য গুগলের বিভিন্ন টুল এবং অন্যান্য টুল গুলো ওয়েব ডেভেলপারদেরকে যে সাহায্য করে থাকে (যেমন: কিওয়ার্ড সিলেকশনের ইত্যাদি) সেগুলো কিন্তু বিগ-ডেটা প্রক্রিয়াকরণের মাধ্যমেই এসব টুল আমাদের দিয়ে থাকে।
গুগল সার্চে বেশীরভাগ ক্ষেত্রেই আমরা সামান্য কিছু লিখার সাথে সাথেই আমরা কি খুঁজতে পারি গুগল তার একটা সাজেশন দেখায়, বেশীরভাগ ক্ষেত্রেই সাজেশনেই আমারা যা খুঁজতে চাইছি তা পেয়ে যাই, এটি কিন্তু বিগ-ডেটা প্রক্রিয়াকরণ করেই গুগল সাজেশন গুলো দেয়।
বিগ-ডেটা তত্বাবধানে তিন-ভি (3V)
বিগ-ডেটা প্রক্রিয়াকরণে তিনটি V নিয়ে ডেটা গবেষকদের চিন্তা করতে হয়। এগুলো নিচে বর্ণনা করা হলঃ
১. Volume (আকার)
প্রতি সেকেন্ডে সেকেন্ডে ডেটার আকার বাড়ছে। সামাজিক যোগাযোগ সাইট থেকে শুরু করে ব্লগ, কেনাবেচার, সেবা, বিনোদন, স্বাস্থ্য ইত্যাদি ওয়েব সাইটের মাধ্যমে তথ্য বাড়ছে। গাড়িতে সেন্সরের তথ্য, স্মার্ট ফোনের বিভিন্ন অ্যাপসের মাধ্যমে, লাইভ স্ট্রিমিং, লাইভ গেমিং ইত্যাদি বিভিন্ন ভাবে প্রতি নিয়ত তথ্যের আকার বেড়েই চলেছে। এত পরিমাণ তথ্য বাড়ছে যে আমাদের ব্যবহার করা সাধারণ সফটওয়্যারে সেগুলো প্রক্রিয়াকরণ সম্ভব হচ্ছে না।
সভ্যতার শুরু থেকে ২০০৩ পর্যন্ত আমরা যত তথ্য তৈরি করেছি, এখন প্রতি দুই দিনই আমরা সে পরিমাণ তথ্য তৈরি করি।
এরিক স্মিথ
বিগ-ডেটা থেকে আশানুরূপ ফলাফল পেতে হলে, আমাদেরকে অবশ্যই এমন একটি পথ খুঁজে বের করতে হবে, যা, ডেটা বৃদ্ধি এবং ডেটা প্রক্রিয়াকরণের সামর্থ্যের ভিতর একটি সামঞ্জস্যতা তৈরি করবে।
কেনেথ চং
২. Variety (বিচিত্রতা)
ডেটা বিভিন্ন ধরনের হয়ে থাকে, যেমন: লিখা (text) , সেন্সরের ডেটা, শব্দ, ছবি, চলচ্চিত্র, গ্রাফ, মানচিত্র ইত্যাদি অনেক আকারে ডেটা থাকে। বিগ-ডেটা প্রক্রিয়াকরণের জন্য সফটওয়্যার এবং অ্যালগরিদম তৈরির সময় এগুলো যাতে সব ধরনের ডেটা বিশ্লেষণ করার ক্ষমতা রাখে সেদিকে খেয়াল রাখতে হয়, যা খুব একটা সহজ কাজ নয়।
৩. Velocity (গতি)
বর্তমানে বড় ধরনের ডেটা খুব দ্রুত আদান-প্রদান হচ্ছে, আমরা অডিও, ভিডিও, ছবি ইন্টারনেটে আপলোড, ডাউনলোড করছি; দ্রুত আদান-প্রদান করা এ তথ্য থেকে সাথে সাথে তথ্যগুলো প্রক্রিয়াকরণ করাতে হয় এবং সেখান থেকে প্রয়োজনীয় তথ্য খুঁজে বের করে ফলাফল / সাজেশন তৈরি করতে হয়। দ্রুত তথ্য আদান-প্রদানের উদাহরণ হতে পারে স্ট্রিমিং ভিডিও, মাল্টিপ্লেয়ার গেমস ইত্যাদি। বিগ-ডেটা নিয়ে কাজ করার সময় গবেষকদের ডেটার গতি এবং ফলাফল তৈরির দ্রুততার কথাও চিন্তায় রাখতে হয়।
এগুলো ছাড়াও আরো একটি “V” এর কথা গবেষকরা বলেন, সেটি হল:
৪. Veracity (সত্যতা)
বিগ-ডেটায় প্রাপ্ত সব তথ্যই যে কাজের তা কিন্তু নয়। যেমন কোনো সার্ভে যদি করা হয়, সবাই যে সার্ভেতে সঠিক তথ্য দিবে বা আসলেই প্রশ্ন বুঝে তথ্য দিবে তা কিন্তু কেউ নিশ্চিত করতে পারে না! তাই বিগ-ডেটা প্রক্রিয়াকরণের সময় প্রয়োজনীয় তথ্য খুঁজে বের করাটাই প্রধান এবং জটিল কাজ হয় বিগ-ডেটা বিজ্ঞানীদের।
এছাড়াও বিভিন্ন গবেষকরা আরো কিছু “V” এর কথা বলেন। যেমনঃ Value, Veracity, Viability, Variability ইত্যাদি। এগুলো নিয়ে আলোচনা করা হচ্ছে না।
বিগ-ডেটা নিয়ে কাজ করার সময় উপরের বিষয় গুলো লক্ষ রেখেই অ্যাপ্লিকেশন, অ্যালগরিদম ইত্যাদি তৈরি এবং ব্যবহার করতে হয়। নিচের চিত্রে উপরের চারটি V কে চিত্রায়িত করা হয়েছে: (বড় করে দেখতে ছবিতে ক্লিক করুন)
বাংলাদেশে বিগ-ডেটার প্রয়োগ
উপরের আলোচনায় বিগ-ডেটা কোথায় কোথায় ব্যবহার করা হচ্ছে তা দেখানো হয়েছে। এখন আমাদের দেশের ক্ষেত্রে তা কোথায় কোথায় কাজে লাগানো যেতে পারে তার একটা “খসড়া” ধারনা নিচে দিলামঃ
- ব্যবসা ক্ষেত্রে: উপরে ওয়াল-মার্টের উদাহরণেই দেখা যাচ্ছে যে বিগ-ডেটা তৈরি/সংগ্রহ করে তা বিশ্লেষণ করে কিভাবে “ঝোঁক বুঝে কোপ মারা” যায়। সঠিক জায়গায়, সঠিক সময়ে, সঠিক মানুষদের কাছে বিজ্ঞাপন প্রচারের ক্ষেত্রেও বিগ-ডেটা ব্যবহার করা হয়, ফেসবুক এর বড় উদাহরণ।
- শিক্ষা ক্ষেত্রে: শিক্ষা ক্ষেত্রে শিক্ষার্থীদের থেকে নিয়মিত তথ্য (ক্লাস, পরীক্ষা ইত্যাদির) নেয়া যায়, তারপর সেগুলো বিশ্লেষণ করলে শিক্ষার্থীদের সমস্যা বের করা যাবে। তাদের কোন দিকে সমস্যা তা বুঝা যাবে, এবং তা সমাধান করা যাবে।
- নিরাপত্তা ক্ষেত্রে: নিরাপত্তা ক্ষেত্রে বিগ-ডেটা যথেষ্ট ভূমিকা রাখতে পারে। জনগণের চলাফেরা, অপ্রীতিকর ঘটনা ইত্যাদি তথ্য সংগ্রহ করে তা বিশ্লেষণ করলে কিন্তু অনেক কিছুই জানা যাবে, যেগুলো ভবিষ্যতের অপ্রীতিকর ঘটনা গুলো রোধ করতে সাহায্য করবে।
- IoT: বর্তমানে Internet of Things নিয়ে যথেষ্ট গবেষণা চলছে। IoT এর প্রধান শক্তি হচ্ছে কৃত্রিম বুদ্ধিমত্তা, যা দিয়ে বিভিন্ন যন্ত্র (যেমন: মোবাইল, ফ্রিজ, এসি ইত্যাদি) নিজেদের ভিতর যোগাযোগ করবে।
IoT এর একটা উদাহরণ হতে পারে এরকম: আপনি ধরুন কাজ থেকে বাসায় যাচ্ছেন, আপনার মোবাইল ফোন তার লোকেশন সার্ভিস দিয়ে যখন দেখবে আপনি বাসার কাছাকাছি তখন সে আপনার বাসার এসিকে সংকেত পাঠাবে চালু হওয়ার জন্য, ফলে বাসায় গিয়েই বিশ্রাম নিতে পারবেন।
কৃত্রিম বুদ্ধিমত্তা বিকাশের বড় টুল হল বিগ-ডেটা এবং ডেটা মাইনিং। আমাদের দেশেও IoT এর প্রয়োগ অচিরেই শুরু হবে আশা করছি। - রাজনীতি: রাজনীতিতে আমাদের দেশে বিগ-ডেটা কাজে লাগানো না হলেও অন্যান্য দেশে কিন্তু কাজে লাগানো হচ্ছে। রাজনীতিবিদেরা খুঁজে বের করছেন কোথায় বিজ্ঞাপন দিলে বেশী মানুষের কাছে যাবে, সবাই কি চাইছে ইত্যাদি। আমাদের অ্যানালগ (!) রাজনীতিবিদেরাও আশা করি সামনে ডিজিটাল হবেন।
- আবহাওয়া পূর্বাভাস: আবহাওয়ার পূর্বাভাসে ইতিমধ্যেই পৃথিবীর সব জায়গাতেই বিগ-ডেটার ব্যবহার চলছে। সব সময় প্রকৃতিকে পর্যবেক্ষণ চলছে, সেই পর্যবেক্ষণের বিগ-ডেটাকে বিশ্লেষণ করে আবহাওয়া পূর্বাভাস দেয়ার চেষ্টা করা হচ্ছে।
- চিকিৎসা: চিকিৎসা ক্ষেত্রেও ব্যাপক ব্যবহার হচ্ছে বিগ-ডেটা। রোগ বিশ্লেষণ, প্রতিকার, প্রতিরোধ করার জন্য ব্যবহার হচ্ছে বিগ-ডেটা।
অবশ্যই আরো অনেক ক্ষেত্র আছে বিগ-ডেটার। আমার স্মরণে যে গুলো এসেছে সেগুলোই বললাম.. 🙂
এত বিগ-ডেটাকে কোথায় রাখবেন?
বিগ-ডেটা কত বড় হতে পারে তা কিন্তু আমরা উপরের আলোচনায় দেখেছি। এ ডেটা কিন্তু নিয়মিত বাড়ছেই, এবং এ ডেটা কমার কোনো সম্ভাবনা নেই! এখন প্রশ্ন আসতে পারে ডেটা রাখার জন্য এবং এত তথ্য দ্রুত প্রক্রিয়াকরণ করার জন্য যন্ত্রপাতি আমরা কোথায় পাব! অবশ্যই গুগলের মত হার্ডওয়্যার কিনার ক্ষমতা সব কোম্পানি/সবাই রাখে না।
এজন্যই বর্তমানে ক্লাউড কম্পিউটিং চালু হয়েছে এবং জনপ্রিয় হচ্ছে। ক্লাউড কম্পিউটিং এর মূলমন্ত্র হল শেয়ার করা। ক্লাউড কম্পিউটিং এর মাধ্যমে সব কিছু শেয়ার করা যায়, যেমনঃ সফটওয়্যার, হার্ডওয়্যার ইত্যাদি।
এটা সহজে বুঝানো যায় এভাবেঃ ধরুন আপনার একটি বিরাট গুদাম ঘর আছে, আপনার সব কাজে সর্বোচ্চ ২৫% জায়গা খরচ হয় গুদাম ঘরের। এখন আপনি আরেকটি প্রতিষ্ঠানকে বললেন যে আপনি আপনার গুদাম ঘরটার কিছু অংশ ভাড়া দিবেন, এতে ওই ছোট প্রতিষ্ঠানটিকে নতুন করে গুদাম ঘর বানাতে হবেনা এবং তুলনামূলক কম খরচেই আপনারটা সে ব্যবহার করতে পারবে, সবাই লাভবান! ক্লাউড কম্পিউটিং ও একই ব্যাপার। এখানে বড় কোম্পানিগুলো হার্ডওয়্যার কিনে আপনাকে কম খরচে তা ব্যবহার করতে দিবে।
ক্লাউড কম্পিউটিং এর সুবিধা:
- যন্ত্র রক্ষণাবেক্ষণ নিয়ে কোনো চিন্তা করতে হয় না। যার থেকে আপনি সেবা নিবেন, রক্ষণাবেক্ষণ তাদের হাতে থাকে।
- ক্লাউড কম্পিউটিং এ একটি টার্ম হল “স্কেলিং”; অর্থাৎ ধরুন আপনি কোনো ক্লাউড প্রতিষ্ঠান থেকে সার্ভার স্পেস (হোস্টিং) কিনেছেন। যখন ব্যবসা শুরু করেছেন তখন আপনার প্রয়োজন ছিল ৫ জিবি স্পেস, কিন্তু ব্যবসা প্রসারে আপনার হঠাৎ করেই ১০ জিবি যায়গা প্রয়োজন হচ্ছে, ক্লাউড কম্পিউটিং স্কেলিং সুবিধার মাধ্যমে আপনার ডেটা বাড়ার সাথে সাথে আপনার ভাড়া করা সার্ভারের স্পেসও বেড়ে যায়। আবার যদি কোনো কারণে আপনার ডেটা কমে যায়, সার্ভারও নিজেই তার স্পেসও কমিয়ে দিবে, টাকা কিন্তু আপনাকে যখন যতটুকু খরচ করছেন তত টুকুই দিতে হবে। ফলে কোনো ক্ষতি নেই। সম্পূর্ণ লাভ।
- যতটুকু ব্যবহার তত টুকুই খরচ (pay-as-you-go)
ক্লাউড কম্পিউটিং সেবা শুধু স্টোরেজ এর ক্ষেত্রে না, সব ক্ষেত্রেই হতে পারে।
তবে বর্তমানে জনপ্রিয় তিনটি ক্লাউড সেবা হচ্ছেঃ
- SaaS (Software as a Service): এখানে একটি সফটওয়্যার/অ্যাপ ভাড়ায় বা বিনামূল্যে সবাই মিলে ব্যবহার করা যায়। এরকম বিনামূল্য সার্ভিস হল: গুগল ডক, গুগল স্লাইড, জিমেইল ইত্যাদি।
- PaaS (Platform as a Service): এখানে নির্দিষ্ট করা একটি অপারেটিং সিস্টেম, সার্ভিস হিসেবে ভাড়া দেয়া হয়, এতে যেকোনো সফটওয়্যার নিজের মত ইন্সটল করে ব্যবহার করা যায়। যেমন: Google Apps Engine, Salesforce.com, Force platform, Microsoft Azure ইত্যাদি।
- IaaS (Infrastructure as a Service): এখানে সম্পূর্ণ যন্ত্রপাতি ভাড়া দেয়া হয়। সেগুলোয় নিজের ইচ্ছামত অপারেটিং সিস্টেম ইন্সটল করে ইচ্ছে মত সফটওয়্যার/অ্যাপ চালানো যায়। যেমন: Amazon’s EC2 ইত্যাদি।
কিছু ক্লাউড কম্পিউটিং সার্ভিস প্রভাইডার হল:
- https://en.wikipedia.org/wiki/Amazon_S3
- https://en.wikipedia.org/wiki/Amazon_Elastic_Compute_Cloud
- https://en.wikipedia.org/wiki/Google_Cloud_Platform
- https://en.wikipedia.org/wiki/Microsoft_Azure
ইত্যাদি।
ক্লাউড কম্পিউটিং সেবা প্রদানকারীদের মোটামুটি সম্পূর্ণ একটি তালিকা পাবেন এখানে:
বিগ-ডেটাকে প্রয়োগের জন্য সফটওয়্যার / লাইব্রেরি
নিচে কিছু সফটওয়্যার / লাইব্রেরির বর্ণনা দেয়া হলো, যেগুলো বিগ-ডেটা প্রক্রিয়াকরণে এবং প্রক্রিয়াকরণের সফটওয়্যার ও অ্যালগরিদম তৈরিতে ব্যবহার করা হয়ঃ
১. MapReduce
একটি প্রোগ্রামিং মডেল, বিগ-ডেটা প্রক্রিয়াকরণে জন্য এটি বহুল ব্যবহৃত।
(https://en.wikipedia.org/wiki/MapReduce)
২. Apache Hadoop
Apache Hadoop সফটওয়্যার লাইব্রেরি হচ্ছে একটি ফ্রেমওয়ার্ক, যেটি বিগ-ডেটাকে প্রক্রিয়াকরণ করার জন্য ব্যবহার করা হয়। এটি MapReduce এর একটি implementation। এটি ডেটা রাখার জন্য Hadoop Distributed File System (HDFS) ব্যবহার করে।
The Apache Hadoop software library is a framework that allows for the distributed processing of large data sets across clusters of computers using simple programming models.
http://hadoop.apache.org/
৩. Apache S4
Apache S4 হচ্ছে এমন একটি প্লাটফরম যেটি দিয়ে তৈরি অ্যাপ্লিকেশন দিয়ে যে কোনো ধরনের, আকারের, গতির স্ট্রিমিং ডেটাকে প্রক্রিয়াকরণ করা যায়।
S4 is a general-purpose, distributed, scalable, fault-tolerant, pluggable platform that allows programmers to easily develop applications for processing continuous unbounded streams of data.
http://incubator.apache.org/s4/
৪. Storm
Storm হচ্ছে Apache S4 এর মত একটি সফটওয়্যার যেটি দিয়ে যে কোনো ধরনের,আকারের, গতির স্ট্রিমিং ডেটাকে প্রক্রিয়াকরণ করা যায়।
Apache Storm is a free and open source distributed realtime computation system. Storm makes it easy to reliably process unbounded streams of data, doing for realtime processing what Hadoop did for batch processing.
http://storm.apache.org/
৫. Apache Mahout
Apache Mahout সফটওয়্যারটি মেশিন লার্নিং এবং ডেটা-মাইনিং এর অ্যালগরিদম তৈরির জন্য একটি ওপেন-সোর্স প্রজেক্ট।
The Apache Mahout™ project’s goal is to build an environment for quickly creating scalable performant machine learning applications.
http://mahout.apache.org/
৬. R language
R একটি প্রোগ্রামিং ভাষা, যেটি পরিসংখ্যান কম্পিউটিং এবং এ জাতীয় ভিজুয়াল/গ্রাফিক্সের কাজের জন্য ব্যবহার করা হয়। এটিও ওপেন-সোর্স।
R is a language and environment for statistical computing and graphics.
https://www.r-project.org/about.html
৭. MOA
MOA একটি ওপেনসোর্স ফ্রেমওয়ার্ক, যেটি ডেটা স্ট্রিমিং মাইনিং এর জন্য ব্যবহার করা হয়।
MOA is the most popular open source framework for data stream mining. It includes a collection of machine learning algorithms (classification, regression, clustering, outlier detection, concept drift detection and recommender systems) and tools for evaluation.
http://moa.cms.waikato.ac.nz/
৮. Vowpal Wabbit
Vowpal Wabbit হচ্ছে একটি ওপেনসোর্স প্রজেক্ট, যার উদ্দেশ্য হচ্ছে একটি দ্রুত, স্কেলেবল, এবং প্রয়োজনীয় লার্নিং অ্যালগরিদম তৈরি করা।
open source project started at Yahoo! Research and continuing at Microsoft Research to design a fast, scalable, useful learning algorithm.
https://github.com/JohnLangford/vowpal_wabbit/wiki
৯. Pegasus
Pegasus হচ্ছে একটি ওপেন-সোর্স বিগ গ্রাফ-মাইনিং সিস্টেম।
Pegasus An award-winning, open-source, graph-mining system with massive scalability.
http://www.cs.cmu.edu/~pegasus/
১০. GraphLab
GraphLab ও একটি ওপেন-সোর্স ফ্রেমওয়ার্ক, যেটি গ্রাফ-মাইনিং এর জন্য ব্যবহার করা হয়।
(https://en.wikipedia.org/wiki/GraphLab)
১১. NOSQL (Not Only SQL)
ডেটা রাখার জন্য বর্তমানে বহুল ব্যবহৃত ডেটাবেজ সিস্টেম হল NOSQL।
NoSQL DEFINITION: Next Generation Databases mostly addressing some of the points: being non-relational, distributed, open-source and horizontally scalable.
http://nosql-database.org/
তথ্য বিজ্ঞানী হতে কি কি দক্ষতা দরকার?
The Wall Street Journal তাদের এক প্রকাশনায় তথ্য বিজ্ঞানীদের সম্পর্কে বলেন,
তথ্য বিজ্ঞানীদের সেরা পাঁচ দক্ষতার তালিকায় আছে তথ্য বিশ্লেষণ (data analysis), তথ্য খুঁজে বের করা (data mining), মেশিন লার্নিং (machine learning) এবং আর (R) ও পাইথন (Python) প্রোগ্রামিং ভাষা সম্পর্কে জ্ঞান।
তথ্যসূত্র
mastersindatascience.org এর মতে তথ্য বিজ্ঞানীদের নিচের দক্ষতা গুলা থাকা প্রয়োজন,
1. Math (e.g. linear algebra, calculus and probability)
2. Statistics (e.g. hypothesis testing and summary statistics)
3. Machine learning tools and techniques (e.g. k-nearest neighbors, random forests, ensemble methods, 4. etc.)
4. Software engineering skills (e.g. distributed computing, algorithms and data structures)
5. Data mining
6. Data cleaning and munging
7. Data visualization (e.g. ggplot and d3.js) and reporting techniques
8. Unstructured data techniques
9. R and/or SAS languages
10. SQL databases and database querying languages
11. Python (most common), C/C++ Java, Perl
12. Big data platforms like Hadoop, Hive & Pig
13. Cloud tools like Amazon S3
তথ্যসূত্র
উপরের তালিকাটিতে মোটামুটি সবকিছুই চলে এসেছে। প্রায় সব প্রকাশনাতেই আমি উপরের দক্ষতা গুলোর কথা পেয়েছি।
শেষ কথা
শুরুতে যা বলেছিলাম তা শেষেও আবার বলছি,
…সারা বিশ্বেই এক নাম্বার চাকরিতে এখন তথ্য বিজ্ঞানী!
প্রকাশনাটিতে আমি আমার সাধ্যমত বিগ-ডেটা এবং এ সম্পর্কিত প্রয়োজনীয় সবকিছু বুঝানোর এবং জানানো চেষ্টা করেছি। তারপরও কিছু বাদ গেলে বা কিছু না বুঝলে বা কোথাও কোনো ভুল পেলে অবশ্যই জানাবেন।
আজ এ পর্যন্তই।
অন্যান্য তথ্যসূত্রঃ
- “Mining Big Data: Current Status, and Forecast to the Future” – Wei Fan, Albert Bifet
- “Big Data: New Opportunities and New Challenges” – Katina Michael, Keith W. Miller
- “The rise of ‘big data’ on cloud computing – Review and open research issues” – Ibrahim Abaker Targio Hashem, Ibrar Yaqoob, NorBadrulAnuar, Salimah Mokhtar, AbdullahGani, SameeUllahKhan
অন্যান্য শিরোনাম সমূহঃ
- কেন পুরা বিশ্ব আজ বিগ-ডেটা এবং ডেটা মাইনিং এর কাছে বন্দী?
- পুরা বিশ্ব বিগ-ডেটা এবং ডেটা মাইনিং এর আয়ত্তে কেন? কিভাবে?
- বিগ-ডেটা এবং ডেটা মাইনিং – আমেরিকার এক নাম্বার চাকরি “তথ্য বিজ্ঞানী”
- বর্তমান সময়ে আমেরিকায় চাকরির মূলক্ষেত্র হচ্ছে তথ্য প্রযুক্তি
কি ভাবে Data Scientist হব? আপনার ও অন্য কিছু লেখা পড়ে আমি বুঝতে পেরেছি যে Data Mining — Data Scientist পরাশুনার একটা অংশ। Data Scientist একটা অনেক বড় জগত যা আয়ত্ত করতে অনেক পড়াশুনা র প্রয়ওজন হবে। আমি কি Data Mining ইউটিউব ভিডিও দেখে আয়ত্ত করতে পারব? না Formal Education র প্রয়ওজন হবেই? Data Mining শিখে আমি কি Freelancing ঘরে বসে করতে পারব? সময় পেলে প্লিজ একটু জানাবেন। পরিশেষে বলি আপনার লেখা পড়ে আমি সাহস পেয়েছি। আপনাকে শত সালাম।
Apner Mail Address ta deya jabe ?
Apner Mial Address ra deya jabe ?
Well…porlam. Valo likhco. #Shohag