මීට දවස් තුනකට කලින් NVIDIA ලා Hugging face platform එකේ release කරපු computer vision model එකක් ගැන මේ වෙනකොට මුළු ලෝකයේම කතාබහක් ඇතිවෙලා තියෙනවා. මෙච්චර කාලෙකට ලෝකෙ release වුනු localization-focused vision language model වල තිබ්බ ලොකුම අඩු පාඩුව තමයි එයාලා object locate කරද්දි, ගොඩක් වෙලාවට inaccurate සහ inefficient උන එක, ඒ ප්රශ්න දෙකම මේ model එකෙන් විසඳලා තියෙනවා.
Object එකක් locate කරනකොට AI එකක් කරන්නේ ඒ object එක වටේ virtual box එකක් දාන එක. ඒකට කියන්නේ bounding box කියලා.ඊට පස්සේ ඒ box එක track කිරීමෙන් object එක කොහෙද තියෙන්නේ කියලා හොයාගන්නවා. කලින් AI models image එකක් බලලා object එකක් locate කරන්න ඕනි වුනොත්, ඒ bounding box එකේ coordinates predict කරේ එකින් එක, ඒ කියන්නේ “ඉහළ වමේ x, ඉහළ වමේ y, පහළ දකුණේ x, පහළ දකුණේ y” විදිහට sequence එකක් විදිහට. ඒ process එක slow වෙනවා, ඒ වගේම coordinates independent විදිහට predict වෙන නිසා final bounding box එක geometrically inconsistent වෙන්නත් පුළුවන් . ඒ කියන්නේ box එක object එකට හරියටම fit නොවෙන අවස්ථා තියෙනවා. Robots, AI agents, autonomous vehicles වගේ real-time decisions ගන්න ඕනි systems වලට මේක ලොකු ප්රශ්නයක්. locate කිරීමේ speed සහ accuracy නැතිනම් ඒ systems වල performance එකත් drop වෙනවා.
LocateAnything කරන්නේ ඒ bounding box එකේ coordinates හතරම එකවර predict කිරීම. Sequential විදිහට නෙවෙයි, එකපාරයි. ඒ නිසා speed එක මාර විදියට improve වෙනවා, accuracy එකත් වැඩිවෙනවා. Real world applications ගත්තොත් robot එකකට warehouse එකක් ඇතුලේ නිවැරදි item එක pick කරගන්න, self-driving car එකකට road එකේ පදිකයන් සහ බාධක locate කරන්න, AI agent එකකට screen එකක් බලලා correct button එක click කරන්න, medical imaging systems වලට scans වල specific areas identify කරන්න මේ ඔක්කොටම නිවැරදි සහ වේගවත් object localization ඕනි. LocateAnything ඒ foundation එක හදනවා.
model එක train කරන්න එයාලා images 12 million සහ queries 138 million වලින්, bounding boxes 785 million cover කරලා. Architecture එක NVIDIA ගේ Eagle VLM family එකෙන් build කරලා, language backbone එකට Qwen2.5-3B use කරලා තියෙනවා. CVPR 2026 එහෙමත් නැත්නම් ලෝකයේ ලොකුම computer vision conference එකේ present වෙන paper එකක් නිසා academic credibility එකත් තියෙනවා.
උපුටා ගැනීම : :Pasan De Zoysa
