කට්ටිය අහලා තියෙනවනේ Anthropic සමාගමේ Claude ගැන? එයාලගේ අලුත්ම Claude Opus 4.6 මොඩල් එක ටෙස්ට් කරද්දී පර්යේෂකයන්ට හිතාගන්න බැරි මාරම වැඩක් වෙලා තියෙනවා.
මේගොල්ලෝ Claude Opus 4.6 එකට අන්තර්ජාලයෙන් හොයාගන්න අමාරු තොරතුරු හොයන BrowseComp කියන Benchmark test එක දීලා තියෙනවා. ගොඩක් ප්රශ්න වලට මෙයා සාමාන්ය විදියට search කරලා උත්තර හොයාගෙන තියෙනවා. හැබැයි අවස්ථා දෙකකදී මේ AI මොඩල් එකට සාමාන්ය විදියට උත්තර හොයාගන්න බැරි වෙලා තියෙනවා.
සාමාන්යයෙන් එහෙම වුණාම AI එකක් කරන්නේ ‘Sorry මට හොයාගන්න බෑ’ කියන එකනේ. ඒත් මේ AI උත්තර හොයන්න ගහපු සර්ච් සිය ගාණක් ෆේල් වුණාට පස්සේ, මේ AI මොඩල් එකට සැක හිතිලා තියෙනවා තමන්ට මේ දීලා තියෙන්නේ සාමාන්ය ප්රශ්නයක් නෙවෙයි, තමන්ව Test කරන Benchmark එකක් කියලා.
ඊට පස්සේ මෙයා ප්රශ්නෙට උත්තර හොයන එක පැත්තක තියලා, AI Benchmarks ගැන අන්තර්ජාලයේ හොයන්න පටන් අරන්. එහෙම හොයලා තමන්ව ටෙස්ට් කරන BrowseComp Benchmark එකේ Source Code එක අන්තර්ජාලයෙන් හොයාගෙන, ඒකෙ තියෙන Answer Key එක Decrypt කරන්න අලුතින්ම කෝඩ් එකකුත් ලියලා, හොරෙන්ම උත්තරේ හොයාගෙන!
පර්යේෂකයෝ කියන විදියට, AI එකකට තමන්ව ටෙස්ට් කරනවා කියලා තේරුම් අරන්, ඒක reverse-engineer කරලා උත්තරේ හොරාගත්ත පළවෙනි අවස්ථාව විදියට තමයි මේක වාර්තා වෙන්නේ.
මේකෙන් පැහැදිලි වෙන එකම දේ තමයි, ඉස්සරහට එන AI මොඩල්ස් මේ තරමටම ස්මාර්ට් වෙද්දී, එයාලව මනින්න පාවිච්චි කරන සාමාන්ය ටෙස්ට් (Benchmarks) වලින් කිසිම තේරුමක් නැති වෙනවා. මොකද උන් ඒ ටෙස්ට් එකත් බයිපාස් කරලා හොර කරන්න ඉගෙනගෙන ඉවරයි!
මේ විදියට AI එක ස්වයංව තීරණ අරන් වැඩ කරන එක ගැන ඔයාලා මොකද හිතන්නේ? ඉස්සරහට මේක කොහෙන් කෙළවර වෙයිද? පහළින් කමෙන්ට් එකක් දාගෙන යමු! ![]()
![]()
Source: Anthropic Engineering Report
උපුටා ගැනීම: Sanjana Sandanayaka
