Корпорация Google представила промежуточные итоги масштабного проекта
по переводу статей Википедии на языки, плохо представленные в этом
онлайновом справочнике. С помощью волонтёров, профессиональных
переводчиков и участников вики-сообщества планируется перевести более
16 млн слов на арабский, гуджарати, хинди, каннада, суахили, тамильский
и телугу. С хинди работа началась в 2008 году; на этом языке говорят
десятки миллионов интернет-пользователей, отчего-то не спешащих наполнять свой языковой раздел Википедии. К тому
моменту он насчитывал 3,4 млн слов в 21 тыс. статей. Для сравнения:
английская версия энциклопедии могла похвастаться 1,3 млрд слов в 2,5
млн материалов.
Для перевода выбирались статьи, удовлетворявшие
ряду критериев. Во-первых, по поисковым запросам Google определялись
англоязычные материалы, к которым жители страны обращались чаще всего.
Затем с помощью сервиса Google Trends отбраковывались статьи, которые
были популярны лишь некоторое время. Наконец, материалы переводились с
помощью инструмента Translator Toolkit. Получившееся редактировалось
вручную. За три месяца с английского на хинди было переведено 600 тыс.
слов из 100 статей, что позволило хинди-разделу вырасти на 20%.