Artificial Intelligence ලෝකයේ documents analyze කිරීම සඳහා OCR technology එක බොහෝ කාලයක් භාවිතා වුණා. OCR හෙවත් Optical Character Recognition කියන්නේ images හෝ scanned PDFs වල text extract කරන ක්රමයක්. නමුත් complex documents, tables, handwritten notes සහ mixed layouts analyze කිරීමේදී OCR systems බොහෝ විට errors ලබාදෙනවා. මේ ගැටලුවට අලුත් විසඳුමක් ලෙස Alibaba විසින් නිර්මාණය කළ “mPLUG-DocOwl” project එක දැන් tech ලෝකයේ විශාල අවධානයක් දිනාගෙන තිබෙනවා.
mPLUG-DocOwl කියන්නේ multimodal Large Language Model එකක්. මෙය OCR process එකක් නොමැතිව PDFs, scanned documents, charts, tables සහ images direct ලෙස තේරුම් ගැනීමට හැකියාව ඇති AI system එකක්. සාමාන්ය AI models text එකක් පමණක් analyze කරන අතර, DocOwl එක document layout, visuals, structure සහ content එක එකට combine කර human-like understanding එකක් ලබාගන්නවා.
මෙහි ප්රධාන විශේෂත්වය වන්නේ “document understanding without OCR” capability එක. User කෙනෙක් PDF file එකක් upload කළ පසු, AI system එක එය page-by-page human reader කෙනෙක් වගේ analyze කරනවා. Headings, paragraphs, diagrams, tables, forms සහ handwritten elements පවා context එක සමඟ තේරුම් ගන්න පුළුවන්. මේ නිසා traditional OCR systems වල common errors ගොඩක් අඩු වෙනවා.
mPLUG-DocOwl research papers, invoices, contracts, medical reports, academic documents සහ business forms analyze කිරීම සඳහා ඉතා ප්රබල tool එකක් ලෙස සැලකෙනවා. Companies සහ researchers ලාට large document collections summarize කරන්න, important information extract කරන්න සහ AI-powered document assistants build කරන්න මෙය භාවිතා කළ හැකියි.
මෙම model එක multimodal AI architecture එකක් භාවිතා කරන නිසා images සහ text එකට එකවර reasoning කරන්න පුළුවන්. ඒ කියන්නේ chart එකක්, graph එකක් හෝ complex table එකක් තිබුණත් AI එකට ඒවා interpret කර meaningful answers ලබාදෙන්න හැකියාව තිබෙනවා. මේ technology එක future office automation සහ intelligent document processing systems සඳහා විශාල පෙරළියක් ලෙස සැලකෙනවා.
අද ලෝකයේ business documents සහ digital paperwork ප්රමාණය වේගයෙන් වැඩි වෙමින් තිබෙනවා. mPLUG-DocOwl වගේ AI systems නිසා documents manually read කිරීමේ අවශ්යතාවය අඩුවෙමින්, AI-powered smart document assistants යුගයක් බිහි වෙමින් තිබෙනවා. Human-like document understanding capability එක නිසා මෙය next-generation AI document technology එකක් ලෙස බොහෝ දෙනා දකිනවා.
උපුටා ගැනීම :Buwa Thoughts
