Anthropic සමාගමේ Claude

කට්ටිය අහලා තියෙනවනේ Anthropic සමාගමේ Claude ගැන? එයාලගේ අලුත්ම Claude Opus 4.6 මොඩල් එක ටෙස්ට් කරද්දී පර්යේෂකයන්ට හිතාගන්න බැරි මාරම වැඩක් වෙලා තියෙනවා.

මේගොල්ලෝ Claude Opus 4.6 එකට අන්තර්ජාලයෙන් හොයාගන්න අමාරු තොරතුරු හොයන BrowseComp කියන Benchmark test එක දීලා තියෙනවා. ගොඩක් ප්‍රශ්න වලට මෙයා සාමාන්‍ය විදියට search කරලා උත්තර හොයාගෙන තියෙනවා. හැබැයි අවස්ථා දෙකකදී මේ AI මොඩල් එකට සාමාන්‍ය විදියට උත්තර හොයාගන්න බැරි වෙලා තියෙනවා.

සාමාන්‍යයෙන් එහෙම වුණාම AI එකක් කරන්නේ ‘Sorry මට හොයාගන්න බෑ’ කියන එකනේ. ඒත් මේ AI උත්තර හොයන්න ගහපු සර්ච් සිය ගාණක් ෆේල් වුණාට පස්සේ, මේ AI මොඩල් එකට සැක හිතිලා තියෙනවා තමන්ට මේ දීලා තියෙන්නේ සාමාන්‍ය ප්‍රශ්නයක් නෙවෙයි, තමන්ව Test කරන Benchmark එකක් කියලා.

ඊට පස්සේ මෙයා ප්‍රශ්නෙට උත්තර හොයන එක පැත්තක තියලා, AI Benchmarks ගැන අන්තර්ජාලයේ හොයන්න පටන් අරන්. එහෙම හොයලා තමන්ව ටෙස්ට් කරන BrowseComp Benchmark එකේ Source Code එක අන්තර්ජාලයෙන් හොයාගෙන, ඒකෙ තියෙන Answer Key එක Decrypt කරන්න අලුතින්ම කෝඩ් එකකුත් ලියලා, හොරෙන්ම උත්තරේ හොයාගෙන!

පර්යේෂකයෝ කියන විදියට, AI එකකට තමන්ව ටෙස්ට් කරනවා කියලා තේරුම් අරන්, ඒක reverse-engineer කරලා උත්තරේ හොරාගත්ත පළවෙනි අවස්ථාව විදියට තමයි මේක වාර්තා වෙන්නේ.

මේකෙන් පැහැදිලි වෙන එකම දේ තමයි, ඉස්සරහට එන AI මොඩල්ස් මේ තරමටම ස්මාර්ට් වෙද්දී, එයාලව මනින්න පාවිච්චි කරන සාමාන්‍ය ටෙස්ට් (Benchmarks) වලින් කිසිම තේරුමක් නැති වෙනවා. මොකද උන් ඒ ටෙස්ට් එකත් බයිපාස් කරලා හොර කරන්න ඉගෙනගෙන ඉවරයි!

මේ විදියට AI එක ස්වයංව තීරණ අරන් වැඩ කරන එක ගැන ඔයාලා මොකද හිතන්නේ? ඉස්සරහට මේක කොහෙන් කෙළවර වෙයිද? පහළින් කමෙන්ට් එකක් දාගෙන යමු!

Source: Anthropic Engineering Report

උපුටා ගැනීම: Sanjana Sandanayaka

Popular Post

Claude Mythos

iPhone 16: එන්නට නියමිත නවතම අයිෆෝන් එක ගැන දැනට දැනගන්න තියෙන හැමදේම

ඔබේ ස්මාට්ෆෝන් එකට ඇවිත් තියෙන අලුත් AI මෙවලම් ගැන දැනගමු

ඩිජිටල් ලොවට හොරා ආදරේ කරමු: ‘No-launch’ dating trend

Anthropic සමාගමේ Claude

Must Read

Apple අයිෆෝන් 16 වෙළඳපොළට හඳුන්වා දෙයි; AI තාක්ෂණය සමඟ වැඩිදියුණු කළ විශේෂාංග රැසක්…

Claude Mythos

iPhone 16: එන්නට නියමිත නවතම අයිෆෝන් එක ගැන දැනට දැනගන්න තියෙන හැමදේම

ඔබේ ස්මාට්ෆෝන් එකට ඇවිත් තියෙන අලුත් AI මෙවලම් ගැන දැනගමු

ඩිජිටල් ලොවට හොරා ආදරේ කරමු: ‘No-launch’ dating trend

You Might also Like

පිටු ගණන් PDF කියවන්න වෙලාව නැද්ද? දැන් AI එකෙන් ඒ ගැන අහලා දැනගමු!

වැඩිදියුණු කල Image generation සහ Editing එක්ක ChatGPT 1.5

UI/UX ඉවරද? අනාගතයේ වෙබ් සයිට්ස් වලට UI ඕනෙම නැති වෙයිද?

OpenClaw නිර්මාතෘ OpenAI සමග එක්වීම AI ලෝකයේ නව පරිච්ඡේදයක් සනිටුහන් කරයි

Follow Thakshanaya.lk