Road to Data Science

Data Science Apr 14, 2021

২ মিনিটের জন্য নিজেকে বিড়াল চিন্তা করুন। যার আলুর চিপ্স ভীষণ পছন্দ। ডাটা সায়েন্সের আপনি কী বুঝবেন?

তবে, আপনার একজন বন্ধু আছে, সে আবার মানুষ। তার কাছে অনেক অনেক ডাটা আছে। থাকলেই বা কী? সে এগুলা মোটেও ইউজ করে না, ভীষণ অলস সে।

আলুর চিপ্স তো আপনার সে-ই মজা লাগে, একদিন ঠিক করলেন- আলুর চিপ্সের একটা ব্র‍্যান্ড খুলবেন আপনি, চিপ্সটা হবে টুনা স্বাদের। ডিসিশন ফাইনাল।

মানুষ আপনার চিপ্স পছন্দ করবে কি করবে না, দাম কত হবে, বা আদৌ সামনে এই জিনিসের চাহিদা আছে কিনা, এসব বিষয়ে আপনার বিন্দুমাত্র কোন ধারণা নাই।  তবে এইটুকু আপনি জানেন যে, আপনার মানুষ বন্ধুর কাছে প্রচুর ডাটা আছে। আর ডাটা যে জাদুর মতো কাজ করে, এটা তো আল্লাহর দুনিয়ায় সবাই-ই জানে। গেলেন তার কাছে, যদি মানুষ বন্ধুটা আলুর চিপ্সের ব্র‍্যাণ্ড খোলার ব্যাপারে আপনাকে কোন সাহায্য করতে পারেন।

ডাটা সায়েন্স অন-লাইভ কোর্সে এনরোল করতে চাইলে ক্লিক করুন নীচের লিংকেঃ https://ostad.app/batch/data-science-for-beginners

আপনার মানুষ বন্ধুটা আপনাকে ডেটা দিতে রাজি হলো। শুধু তা-ই না, ডেটা তো খালি নিলেই হয় না, ডেটা কীভাবে ব্যবহার করতে হয়-সেটাও আপনাকে শিখাবে বলে সম্মত হলো। হ্যাঁ, এখন আপনার কাছে ডাটা আছে। ডাটা কে কী কী প্রশ্ন আপনি করবেন, আর তার থেকে কী কী উত্তর আপনি বের করবেন-টোটাল প্ল্যান রেডি।

প্রথমত, আপনি জানতে চেয়েছিলেন যে মানুষরা আপনার চিপ্সের টুনা গন্ধ পছন্দ করবে কিনা। আপনার মানুষ বন্ধু আপনাকে জানিয়ে দিয়েছেন, আপনি যদি একটি রেন্ডম মানুষকে বাছাই করেন, যিনি তার জীবনে কমপক্ষে একবার চিপস খেয়েছিলেন এবং তাকে জিজ্ঞাসা করেন তিনি এটি পছন্দ করেন কিনা, তবে কেবল দুটি উত্তর থাকতে পারে, হ্যাঁ বা না।

একইভাবে, আপনি যদি তাদের জিজ্ঞাসা করেন যে Sour Cream, Tomato এবং BBQ-এর মধ্যে তারা কোন স্বাদ পছন্দ করে তবে উত্তরটি অবশ্যই জলপাই স্বাদযুক্ত কিছু নয়। Sour Cream, tomato বা BBQ-এর মধ্যেই থাকবে উত্তর। অতএব, আপনি এই ধরণের প্রশ্নের বিকল্পগুলির একটি নির্দিষ্ট সেট থেকে একটি উত্তর বেছে নিতে পারেন। আপনার মানুষ বন্ধু আপনাকে এখন জানিয়েছে যে আপনি যে সমস্যাটি সফলভাবে আবিষ্কার করেছেন-তার নাম Classification.

এখন আসা যাক বাকী কোয়েশ্চনগুলোর ক্ষেত্রে। দাম সম্পর্কে কি আপনার বেসিক কোন আইডিয়া আছে?নেই, তো আর কী করা? হাতের কাছে ডাটা ছাড়া তো কিছুই নেই। ডাটা আপনাকে বললো, ১৬ আউন্সের Hay’s Chips এর দাম ৩.৬৬ ডলার। এই চিপ্সের ফ্লেভার হচ্ছে পেঁয়াজ এবং Sour Cream-এর. অন্যদিকে একটা ৮ আউন্সের Tingles চিপ্সের প্যাকেটের দাম ২ ডলার। এই চিপ্সটা টমেটো সালসা ফ্লেভারের। আপনি অবাক হয়ে খেয়াল করলেন, ডাটা থেকে আপনি অনেক কিছুই জানেন। যেমনঃ প্যাকেট সাইজ, ফ্লেভার, কী কী জিনিস ব্যাবহার করা হয়েছে একেক রকম চিপ্সে। আর সবগুলোর দামও নিশ্চয়ই ৩.৬৬ বা ২ ডলার হয় না। দাম অবশ্যই হেরফের করে একেক বিষয়ের উপর ডিপেন্ড করে।

উদাহরণস্বরূপ, চিপসের প্রথম 5 টি স্যাম্পলের দাম এরকম $ 2.19, $ 4.10, $ 3.50, $ 2.20 এবং $ 2.50, স্যাম্পলের দাম কেবল এই রেঞ্জের মধ্যে থাকতে হবে এমন কোনও নিয়ম নেই। $ 1.99 বা 50 4.50 হতে পারে, ডিপেন্ড করছে কতটা জটিল ফ্লেভার ইউজ করা হচ্ছে এবং প্যাকেটের সাইজ কেমন। আরেকটু খেয়াল করুন যে, আপনার মানুষ বন্ধু এটিকে একটি “Regression” হিসাবে অভিহিত করছে।

এই টাইপের Regression-কে বলে “Time Series Regression”. এই টাইপের Regression-এ আপনাকে অতীতের দামগুলোকে ব্যবহার করে একটা পার্টিকুলার জিনিসের দাম ফিউচারে কেমন হবে সেটা predict করতে হয়, আর পুরো প্রেডিকশনটা করতে হবে সময়ের সাথে। আপনার তিন নাম্বার প্রবলেমটা টাইম সিরিজ প্রবলেম। এ মাসের ডিমান্ডের উপর নির্ভর করে সামনের মাসে কেমন ডিমান্ড হবে-সেটা  প্রেডিক্ট করা। আর একইভাবে, এই মাসের সেলসের উপর ডিপেন্ড করে সামনের মাসের সেলস প্রেডিক্ট করা। হয়তো বুঝতে পারছেন না, সমস্যা নেই। মানুষ বন্ধু তো আছেই, আপনাকে বুঝিয়ে দেয়ার জন্য।

এখন আপনি কিছু রিয়েল লাইফ কাজ করার জন্য একদম রেডি। কীভাবে ডাটা থেকে কোয়েশ্চন আইডেন্টফাই করতে হয়, এবং কীভাবে এপ্রোচ করতে হয়- সবকিছুই আপনি জানেন।

জয়েন করুন "Data Science On-live Course"-এঃ

https://ostad.app/batch/data-science-for-beginners

Writer: Marjan Ferdousi, CTO at Insight Labs-Metsys, Fujitsu Research Institute, BUET CSE

Tags

Great! You've successfully subscribed.
Great! Next, complete checkout for full access.
Welcome back! You've successfully signed in.
Success! Your account is fully activated, you now have access to all content.