এআই প্রায় অর্ধেক সময় ভুল স্বাস্থ্য পরামর্শ দেয়, নতুন গবেষণা

April 21, 2026 · Prothom Alo

হঠাৎ আপনি জানতে পারলেন, আপনার ক্যানসার হয়েছে। তবে ক্যানসার একদম প্রাথমিক পর্যায়ে আছে। ডাক্তারের কাছে যাওয়ার আগে আপনি একটি এআই চ্যাটবটকে জিজ্ঞেস করলেন, কোন বিকল্প ক্লিনিকগুলো ক্যানসারের সফল চিকিৎসা করতে পারে?

Visit syntagm.co.za for more information.

কয়েক সেকেন্ডের মধ্যেই চ্যাটবটটি আপনাকে সুন্দরভাবে সাজিয়ে সূত্রসহ এমন একটি উত্তর দিল। সেই উত্তর পড়ে আপনার মনে হবে, কোনো অভিজ্ঞ ডাক্তার এটি লিখেছেন। কিন্তু সমস্যা হলো, এর ভেতরের কিছু দাবির কোনো ভিত্তি নেই, সূত্রগুলোরও নেই কোনো অস্তিত্ব। চ্যাটবটটি একবারও আপনাকে বলেনি, আপনার করা প্রশ্নটাই হয়তো ভুল ছিল।

গবেষকেরা চ্যাটজিপিটি, জেমিনি, গ্রোক, মেটা এআই এবং ডিপসিক—এই পাঁচটি চ্যাটবটকে ৫০টি করে স্বাস্থ্য ও চিকিৎসাবিষয়ক প্রশ্ন করেছিলেন

এটি কোনো কাল্পনিক ঘটনা নয়। সাতজন গবেষকের একটি দল বিশ্বের সবচেয়ে জনপ্রিয় পাঁচটি চ্যাটবটকে স্বাস্থ্যবিষয়ক প্রশ্নের মাধ্যমে পরীক্ষা করে ঠিক এমনটাই দেখতে পেয়েছেন। তাঁদের এই গবেষণার ফলাফল প্রকাশিত হয়েছে বিএমজে ওপেন জার্নালে।

গবেষকেরা চ্যাটজিপিটি, জেমিনি, গ্রোক, মেটা এআই এবং ডিপসিক—এই পাঁচটি চ্যাটবটকে ক্যানসার, টিকা, স্টেম সেল, পুষ্টি এবং খেলাধুলার পারফরম্যান্স নিয়ে ৫০টি করে স্বাস্থ্য ও চিকিৎসাবিষয়ক প্রশ্ন করেছিলেন।

এআই হাইপ, ভবিষ্যদ্বাণী ও অদৃশ্য প্রতারণার রাজনীতি

গবেষকেরা যখন চ্যাটবটগুলোকে এমন প্রশ্ন করেন যেগুলোর উত্তর বিস্তারিতভাবে দিতে হয়, তখন পরিস্থিতি সবচেয়ে খারাপ হয়। এ ধরনের প্রশ্নের ৩২ শতাংশ উত্তরই ছিল ভুল।

প্রতিটি উত্তর দুজন বিশেষজ্ঞ আলাদাভাবে যাচাই করেন। তাঁরা দেখেন, চ্যাটবটগুলোর দেওয়া উত্তরের প্রায় ২০ শতাংশই ভুল, অর্ধেক উত্তরে অনেক সমস্যা আছে এবং ৩০ শতাংশ উত্তরে সমস্যা ছিল সামান্য। কোনো চ্যাটবটই পুরোপুরি সঠিক সূত্রের তালিকা দিতে পারেনি। আর ২৫০টি প্রশ্নের মধ্যে তারা মাত্র দুটিতে উত্তর দিতে সরাসরি অস্বীকৃতি জানিয়েছে।

সব মিলিয়ে পাঁচটি চ্যাটবটের পারফরম্যান্স প্রায় একই রকম ছিল। এর মধ্যে সবচেয়ে খারাপ করেছে গ্রোক। এর চ্যাটবটের ৫৮ শতাংশ উত্তরই ছিল সমস্যাযুক্ত। এরপর চ্যাটজিপিটির ৫২ শতাংশ এবং মেটা এআইয়ের ৫০ শতাংশ উত্তরে সমস্যা ছিল।

গবেষকেরা যখন চ্যাটবটগুলোকে এমন প্রশ্ন করেন যেগুলোর উত্তর বিস্তারিতভাবে দিতে হয়, তখন পরিস্থিতি সবচেয়ে খারাপ হয়

অবশ্য বিষয়ের ওপর ভিত্তি করে এদের পারফরম্যান্স আলাদা ছিল। টিকা এবং ক্যানসারের মতো বিষয়গুলোতে চ্যাটবটগুলো তুলনামূলক ভালো করেছে। তারপরও এসব ক্ষেত্রে তাদের দেওয়া প্রায় চার ভাগের এক ভাগ উত্তর ছিল সমস্যাযুক্ত।

সবচেয়ে বেশি হোঁচট খেয়েছে পুষ্টি এবং খেলাধুলার পারফরম্যান্স নিয়ে করা প্রশ্নগুলোতে। কারণ ইন্টারনেটে এসব বিষয়ে অনেক বিভ্রান্তিকর ও সাংঘর্ষিক তথ্য রয়েছে এবং নিখুঁত প্রমাণের অভাব রয়েছে। গবেষকেরা যখন চ্যাটবটগুলোকে এমন প্রশ্ন করেন যেগুলোর উত্তর বিস্তারিতভাবে দিতে হয়, তখন পরিস্থিতি সবচেয়ে খারাপ হয়। এ ধরনের প্রশ্নের ৩২ শতাংশ উত্তরই ছিল ভুল। অন্যদিকে, হ্যাঁ বা না উত্তরের ক্ষেত্রে ভুলের হার ছিল মাত্র ৭ শতাংশ।

সৃজনশীলতায় মানুষকে ছাড়িয়ে গেল এআই!

পাঁচটি চ্যাটবটের মধ্যে সবচেয়ে খারাপ করেছে গ্রোক। এর চ্যাটবটের ৫৮ শতাংশ উত্তরই ছিল সমস্যাযুক্ত। এরপর চ্যাটজিপিটির ৫২ শতাংশ এবং মেটা এআইয়ের ৫০ শতাংশ উত্তরে সমস্যা ছিল।

এই পার্থক্যটা খুবই গুরুত্বপূর্ণ। কারণ বাস্তব জীবনে মানুষ স্বাস্থ্য নিয়ে বিস্তারিত প্রশ্নই বেশি করে। তারা চ্যাটবটকে সত্য নাকি মিথ্যা ধরনের প্রশ্ন করে না। তারা জানতে চায়, সুস্বাস্থ্যের জন্য কোন সাপ্লিমেন্টগুলো সবচেয়ে ভালো? এ ধরনের প্রশ্ন করলেই চ্যাটবটগুলো খুব আত্মবিশ্বাসের সঙ্গে সুন্দর করে এমন উত্তর দেয়, যা অনেক সময় ক্ষতিকর হতে পারে।

গবেষকেরা যখন প্রতিটি চ্যাটবটের কাছে দশটি বৈজ্ঞানিক সূত্র জানতে চান, তখন তাদের দেওয়া তথ্যের সম্পূর্ণতার গড় ছিল মাত্র ৪০ শতাংশ। ২৫ বারের চেষ্টায় কোনো চ্যাটবটই একবারও পুরোপুরি নির্ভুল সূত্রের তালিকা দিতে পারেনি। চ্যাটবটগুলো লেখকের নাম ভুল দিয়েছে, কাজ করে না এমন লিংক দিয়েছে, এমনকি পুরোপুরি বানোয়াট গবেষণাপত্রের নাম দিয়েছে। বাস্তবে এমন কোনো গবেষণাপত্র কোনো দিন প্রকাশিতই হয়নি।

কৃত্রিম বুদ্ধিমত্তার এই ভুল উত্তর দেওয়া খুব বিপজ্জনক। কারণ সূত্র দেখলে সেগুলোকে প্রমাণ হিসেবে মনে হয়। সুন্দর করে সাজানো সূত্রের তালিকা দেখলে সাধারণ পাঠকদের সেই তথ্যের ওপর সন্দেহ করার কোনো কারণই থাকে না।

এআই কি কখনো মানুষের চেয়ে বেশি সৃজনশীল হতে পারবে

গবেষকেরা যখন প্রতিটি চ্যাটবটের কাছে দশটি বৈজ্ঞানিক সূত্র জানতে চান, তখন তাদের দেওয়া তথ্যের সম্পূর্ণতার গড় ছিল মাত্র ৪০ শতাংশ।

চ্যাটবট কেন ভুল উত্তর দেয়

চ্যাটবটগুলো চিকিৎসাবিষয়ক উত্তর ভুল দেওয়ার পেছনে একটি সহজ কারণ আছে। এআই ভাষার মডেলগুলো নিজেরা কিছুই জানে না। তারা শুধু তাদের প্রশিক্ষণ ডেটা এবং প্রসঙ্গের ওপর ভিত্তি করে হিসাব কষে বের করে, এরপর কোন শব্দটি বসার সম্ভাবনা সবচেয়ে বেশি। তারা কোনো প্রমাণ বিচার করে না বা ভালো-মন্দের পার্থক্যও বোঝে না।

তাদের প্রশিক্ষণের উপাদানের মধ্যে যেমন বিজ্ঞানীদের দ্বারা যাচাই করা গবেষণাপত্র থাকে, তেমনি রেডিটের আলোচনা, ওয়েলনেস ব্লগ এবং সোশ্যাল মিডিয়ার নানা তর্ক-বিতর্কও যুক্ত থাকে।

রেড টিমিং এআইয়ের দুর্বলতা পরীক্ষার একটি সাধারণ কৌশল

গবেষকেরা চ্যাটবটগুলোকে কোনো সাধারণ বা নিরপেক্ষ প্রশ্ন করেননি। তাঁরা ইচ্ছে করেই এমনভাবে প্রশ্নগুলো সাজিয়েছিলেন, যেন চ্যাটবটগুলো বিভ্রান্তিকর উত্তর দিতে বাধ্য হয়। এআই নিরাপত্তার গবেষণায় একে রেড টিমিং বলা হয়। এটি এআইয়ের দুর্বলতা পরীক্ষার একটি সাধারণ কৌশল।

এর মানে হলো, আপনি যদি সাধারণভাবে প্রশ্ন করেন, তবে হয়তো এত বেশি ভুল উত্তর পাবেন না। গবেষণায় চ্যাটবটগুলোর ফ্রি সংস্করণ ব্যবহার করা হয়েছিল, যা ২০২৫ সালের ফেব্রুয়ারিতে পাওয়া যেত। এদের পেইড বা নতুন সংস্করণগুলো হয়তো এর চেয়ে ভালো ফলাফল দিতে পারে।

তবুও, বেশির ভাগ মানুষ এই ফ্রি সংস্করণগুলোই ব্যবহার করেন এবং তারা স্বাস্থ্য নিয়ে করা প্রশ্নগুলো খুব সাবধানে সাজিয়ে করেন না। সাধারণ মানুষ যেভাবে এই টুলগুলো ব্যবহার করে, তারই একটি বাস্তব চিত্র তুলে ধরা হয়েছে এই গবেষণার মাধ্যমে।

এআই কেন এআইয়ের লেখা ধরতে পারে না

গবেষকেরা ইচ্ছে করেই এমনভাবে প্রশ্নগুলো সাজিয়েছিলেন, যেন চ্যাটবটগুলো বিভ্রান্তিকর উত্তর দিতে বাধ্য হয়। এআই নিরাপত্তার গবেষণায় একে রেড টিমিং বলা হয়।

এই প্রবন্ধের ফলাফলগুলো কোনো বিচ্ছিন্ন ঘটনা নয়; বরং এটি এমন অনেক গবেষণার অংশ, যা একই ধরনের চিত্র তুলে ধরছে। ২০২৬ সালের ফেব্রুয়ারিতে নেচার মেডিসিন জার্নালে প্রকাশিত একটি গবেষণায় অবাক করার মতো একটি তথ্য পাওয়া যায়। দেখা যায়, চ্যাটবটগুলো নিজে থেকে প্রায় ৯৫ শতাংশ সময় সঠিক চিকিৎসাবিষয়ক উত্তর দিতে পারে। কিন্তু সাধারণ মানুষ যখন একই চ্যাটবট ব্যবহার করেন, তখন তাঁরা ৩৫ শতাংশেরও কম সময় সঠিক উত্তর পান। সহজ কথায়, সমস্যা শুধু চ্যাটবট সঠিক উত্তর দিচ্ছে কি না তা নয়, বরং সাধারণ ব্যবহারকারীরা সেই উত্তর বুঝতে এবং সঠিকভাবে ব্যবহার করতে পারছেন কি না, সেটাই আসল বিষয়।

সাধারণ মানুষ যখন একই চ্যাটবট ব্যবহার করেন, তখন তাঁরা ৩৫ শতাংশেরও কম সময় সঠিক উত্তর পান

জামা নেটওয়ার্ক ওপেন নামে পিয়ার-রিভিউড এবং ওপেন-অ্যাক্সেস মেডিকেল জার্নালে প্রকাশিত সম্প্রতি আরেকটি গবেষণায় ২১টি শীর্ষস্থানীয় এআই মডেল পরীক্ষা করা হয়। গবেষকেরা তাদের সম্ভাব্য রোগ নির্ণয় করতে বলেছিলেন। যখন মডেলগুলোকে শুধু রোগীর বয়স, লিঙ্গ এবং উপসর্গের মতো প্রাথমিক তথ্য দেওয়া হয়, তখন তারা ৮০ শতাংশেরও বেশি সময় সঠিক রোগটি চিহ্নিত করতে ব্যর্থ হয়। কিন্তু গবেষকেরা যখন ডাক্তারি পরীক্ষা এবং ল্যাবের ফলাফলগুলো তাদের দেন, তখন তাদের নির্ভুলতা ৯০ শতাংশের ওপরে চলে যায়।

এদিকে, নেচার কমিউনিকেশনস মেডিসিন-এ প্রকাশিত যুক্তরাষ্ট্রের আরেকটি গবেষণায় দেখা গেছে, প্রশ্নের মধ্যে যদি বানোয়াট চিকিৎসাবিষয়ক শব্দ ঢুকিয়ে দেওয়া হয়, তবে চ্যাটবটগুলো অনায়াসেই সেই শব্দগুলো পুনরাবৃত্তি করে এবং সেগুলো নিয়ে বিস্তারিত আলোচনাও শুরু করে দেয়।

সব মিলিয়ে এই গবেষণাগুলো এটাই প্রমাণ করে যে, বিএমজে ওপেন গবেষণায় পাওয়া দুর্বলতাগুলো কোনো নির্দিষ্ট পরীক্ষা পদ্ধতির ত্রুটি নয়, বরং বর্তমান এআই প্রযুক্তি ঠিক কোন পর্যায়ে দাঁড়িয়ে আছে, এটি তারই একটি মৌলিক প্রতিফলন।

এআই কি মানুষের বলা মিথ্যা ধরতে পারবে

যখন মডেলগুলোকে শুধু রোগীর বয়স, লিঙ্গ এবং উপসর্গের মতো প্রাথমিক তথ্য দেওয়া হয়, তখন তারা ৮০ শতাংশেরও বেশি সময় সঠিক রোগটি চিহ্নিত করতে ব্যর্থ হয়।

এই চ্যাটবটগুলো কোথাও হারিয়ে যাচ্ছে না, তাদের হারিয়ে যাওয়া উচিতও নয়। তারা জটিল বিষয়গুলোকে সহজে সারসংক্ষেপ করতে পারে, ডাক্তারের কাছে যাওয়ার আগে প্রশ্ন প্রস্তুত করতে সাহায্য করতে পারে এবং গবেষণার শুরুর ধাপ হিসেবেও কাজ করতে পারে। কিন্তু এই গবেষণাটি স্পষ্টভাবে প্রমাণ করে, চ্যাটবটগুলোকে কখনোই একক বা স্বয়ংসম্পূর্ণ চিকিৎসাবিষয়ক কর্তৃপক্ষ হিসেবে মেনে নেওয়া উচিত নয়।

চ্যাটবটগুলোকে কখনোই স্বয়ংসম্পূর্ণ চিকিৎসাবিষয়ক কর্তৃপক্ষ হিসেবে মেনে নেওয়া উচিত নয়

আপনি যদি চিকিৎসাবিষয়ক পরামর্শের জন্য এই চ্যাটবটগুলো ব্যবহার করেনই, তবে এর দেওয়া যেকোনো স্বাস্থ্যবিষয়ক দাবি যাচাই করে নিন। এর তথ্যসূত্রগুলোকে ধ্রুব সত্য হিসেবে না ধরে যাচাই করার পরামর্শ হিসেবে নিন।

লেখক: ফ্রন্টেন্ড ডেভলপার, সফটভেঞ্চসূত্র: সায়েন্স অ্যালার্টসবাই কেন এআই পছন্দ করে না

Read full story at source