Це відео досліджує патент США 9,477,656 B1 "Крос-мовне індексування та пошук інформації". Патент описує системи та методи для пошуку інформації у багатомовних джерелах. Він вирішує проблему, коли користувачі шукають інформацію однією мовою, але потенційно релевантні документи написані іншими мовами.
Основні аспекти патенту включають:
Пошук у перекладених документах (підхід 1):
Група документів (наприклад, веб-сторінки) попередньо машинно перекладається на одну або кілька цільових мов.
Для перекладу документів використовується контекстно-специфічна модель перекладу. Контекст може залежати від тексту всіх сторінок на веб-сайті, тексту сторінок, що посилаються на дану сторінку, або тексту сторінок, на які посилається дана сторінка.
Анкорний текст (видимий текст посилання) посилань, що вказують на документи в групі, також перекладається та індексується. Анкорний текст часто дає точніший опис веб-сторінки, ніж сама сторінка.
Отримавши запит певною мовою, пошукова система шукає інформацію у документах, перекладених цією мовою, а також в оригінальних документах, написаних цією мовою.
Знайдені релевантні документи повертаються користувачеві, за бажанням, попередньо перекладені на мову запиту користувача.
Цей підхід, хоча і вимагає більше обчислень під час індексування, забезпечує більшу точність перекладу, оскільки перекладаються більші обсяги тексту, що надає більше контексту.
Переклад запиту та пошук (підхід 2):
Запит користувача перекладається на одну або кілька інших мов.
Документи, написані цими мовами, потім шукаються на відповідну перекладену версію запиту.
Результати з різних мовних груп можуть бути об'єднані.
Цей підхід вимагає менше зберігання документів та обчислень під час індексування, але більше обчислень під час обробки запиту.
Система (приклад реалізації):
Система включає процесор, пам'ять (що містить базу даних документів, пошукову систему, систему перекладу та інтерфейсний додаток).
Документи в базі даних можуть бути індексовані та перекладені багатьма мовами.
Система перекладу може автоматично перекладати документ на кілька мов і додавати його до бази даних.
Користувацький інтерфейс дозволяє отримувати запити та відображати результати.
Покращення точності перекладу:
Використання контекстно-специфічних моделей перекладу, де контекст може включати текст усього веб-сайту, сусідніх сторінок, або сторінок, що посилаються на дану.
Використання анкорного тексту як контекстної інформації, оскільки він часто точно описує зміст цільової веб-сторінки.
Мультимовна контекстна інформація може бути особливо цінною, наприклад, для перевірки точності машинного перекладу.
Информация по комментариям в разработке