пнвтсрчтптсбвс
1234567
891011121314
15161718192021
22232425262728
2930     
       

Реклама


  Технобизнес/Технорешение

Только факты и статистика!

«Платформа ОФД»: Технология обработки коротких текстов

«Платформа ОФД»: Технология обработки коротких текстов 14.09.2021
12:50

Российская IT-компания «Платформа ОФД», входящая в экосистему Сбербанка, разработала собственную технологию обработки коротких текстов, которая позволяет определять, идентифицировать и классифицировать товары, указанные в кассовых чеках магазинов, в том числе таких, где содержатся многочисленные ошибки, опечатки и сокращения.
 
Генеральный директор компании Алексей Баров, подчеркнул, что почти 65% чековых записей содержат либо сокращения, либо фактические ошибки, либо непонятные символы. То есть две трети чеков содержат «буквенный мусор», и, чтобы его преобразовать в полезные данные применяется технология Machine Learning.
 
Сегодня «Платформа ОФД» обрабатывает до 50 миллионов кассовых чеков в день. Потоковая обработка охватывает до 21 миллиона товаров из 3,5 тысячи категорий с шестью уровнями вложенности. Теперь новая технология компании позволяет классифицировать, сравнивать, верифицировать товарные записи, в том числе содержащие ошибки, скоростью более 1 тысячи транзакций в секунду.
 
Директор по продуктам на данных в компании Дмитрий Батюшенков уточнил, что совокупный объем Big Data, хранимой в ЦОДах «Платформы ОФД», уже достигает 5 петабайт.
 
Для того чтобы машина работала как человек в распознавании текста, обучение может занимать от 7 до 100 итераций, потому что на каждой итерации машина обучается и дает более внятный результат.
 
По его словам, массивы информации используются для помощи ретейлу, производителям и финансовым организациям. Она может использоваться клиентами компании не только для составления аналитики или отчетности, но и для выстраивания более грамотных маркетинговых стратегий.
 
На сегодняшний день база для работы с короткими текстами «Платформы ОФД» включает 5 миллиардов уникальных записей товаров, 150 миллионов написаний товаров в день. На потоке определяется более 3 миллиардов брендов. Данные агрегируются как из чеков, так и из свободного доступа, например, отраслевых классификаторов, каталогов с сайтов ретейлеров и других.
 
 


<< Предыдущая В начало рубрики Следующая >>



Конкурсы

Реклама