Алгоритм Itaka відновлює втрачені частини тексту

Новий алгоритм від британських розробників робленого розуму DeepMind під назвою «Ітака» перечитав понад 170 тисяч розшифрованих давньогрецьких текстів і допоміг відновити втрачені частини з точністю до 62 відсотків. Крім цього нейромережа змогла розподілити тексти по областях та навіть віднести їх з похибкою до 30 років. «Ітака» створює кілька відмін втрачених частин тексту, з яких дослідники зможуть обрати підхожий. DeepMind оприлюднили вихідний код «Ітаки» у відкритий доступ та навіть запустили безплатну взаємодійну відміну. Більше про розробку вчені розповіли у статті, оприлюдненій у Nature.

Як розшифровують давні тексти?

Дослідженню стародавніх написів, вирізьблених на твердих речовинах, як-то камінь, кераміка і метал, присвячена наука епіграфіка. І хоча до нашого часу збереглися тисячі таких пам'яток, часто знавцям у цій галузі доводиться робити з частинами, відновлюючи тексти за доступними частинами. У такому випадку вчені глядають текстові і контекстуальні паралелі: відновлюють загублені графеми за відомостями про мову першотвір та дієписним контекстом, брати до вгляду час і місце появи пам'ятки.

Але навіть такі відомості в розпорядженні дослідника може не бути запорукою успіху, адже пам'ятки у ході дієпису могли перевозитися і продаватися, а радіовуглецеве дослідження часто неможливе через саму речовину, на якому знайдено текст. Відомостей про древні мови може бути недостатньо, тому у відновленні текстів часто доводиться звертатися до значних узагальнень.

Втім, для нейромереж завдання з зіставлення різних відомостей є набагато простішим, адже вони добре вміють виявляти та використовувати складні облікові закономірності у величезній кількості даних. І збільшення їхніх обчислювальних потужностей вже дає робленому розуму можливість однаково добре і грати в ігри, і утримувати у токамаках плазму для термоядерного сполучення, і передвиджувати стрій білків. Всі ці перелічені приклади здобутків нейромереж належать розробникам британського підприємства DeepMind, які цього разу взялися за дієписні письмена і представили алгоритм для відновлення втрачених частин «Ітака».

Як навчити нейромережу розшифровувати тексти?

Названа на честь згаданого в «Одіссеї» грецького острова Ітака нейромережа навчалася на текстах, написаних давньогрецькою мовою на просторах 84 дієписних областей Середземномор'я у межах з 8 століття до нашої доби по восьме століття нашої доби. Для неї цей кістяк давньогрецького письма переклали на машиночитний текст включно зі знаками і словами — всього 78 608 написів, де втрачені, зіпсовані або невідомі слова замінені «тире».

Для щонайбільшої користи дієписцям, архітектура «Ітаки» пропонує вченим не єдиний вислід своєї роботи над текстом, а набір з 20 найкращих передвиджень, які розподіляє за ймовірністю. Щоб віднести текст до певної області, «Ітака» також видає свої віщування стосовно 84 відомих їй землеписних областей, а затим розбиває всі дати між 800 роком до нашої доби і 800 роком нашої на 10-річні проміжки, що дає змогу датувати написи з майже 100-відсотковою ймовірністю.

Чи задоволені дієписці «Ітакою»?

Тестування показало, що «Ітака» сама по собі здатна досягти 62-відсоткової точности при відновленні зіпсованого тексту порівняно з 25-відсотковою точністю відмін, запропонованих знавцями. Разом з алгоритмом дієписці досягли загальної точності 72 відсотки. Крім того, «Ітака» з точністю до 71 відсотка змогла визначити місце походження тексту і відносити його з точністю до 30 років.

Технології

Шукати в цьому блозі

«Вимикач» нестримної тяги до кокаїну

Алгоритм Itaka відновлює втрачені частини тексту