Всеядный Google

Я уже упоминал, что с недавних пор поисковик Google научился индексировать flash-контент, но при этом такой распространенный формат документов как PDF он продолжал считать картинкой. Сейчас же программисты Google решились изменить состояние вещей и научили поискового робота "видеть", используя продвинутую технологию оптического распознавания изображений. Теперь Google умеет распознавать символы и индексировать текст в документах, что, с учетом распространенности формата pdf, делает его поиск еще более удобным.

Стоит упомянуть, что документ PDF может быть создан как текстовый или набор картинок. В первом случае доступ к содержимому не предоставляет никаких проблем: многие программы для просмотра PDF, например Acrobat Reader, позволяют скопировать текст из такого документа и вставить, к примеру, в MS Word. Но некоторые ПДФ-документы представляют собой многостраничное изображение (как правило это - результаты сканирования) и текст в них воспринимается как изображение. Некоторые программы, например новые версии Abbyy FineReader, умеют распознавать такие документы с использованием оптической системы распознавания. Теперь так же умеет и Google.

Мой блог находят по следующим фразам

VkontakteShare

Leave a Reply

Your email address will not be published. Required fields are marked *

*

You may use these HTML tags and attributes: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong>




© Автостопом по интернету
CyberChimps