понедельник, 28 сентября 2020 г.

Apache Ignite cache: Выбор датасета

 В идеале, хотелось бы найти датасет, который обновлялся хотя бы один раз в неделю. В этом случае, можно было бы протестировать наше приложение на реальных обновляемых данных. Но найти такой я не смог (на самом деле, не очень-то и искал). Поэтому буду использовать датасет от Амазона: Electronics 5-core, состоящий из 1689188 записей отзывов покупателей о товаре, относящемся к группе "электроника".

Датасет небольшой, но, надеюсь, его хватит для демонстрации возможностей приложения.

Состоит датасет примерно из таких вот полей:

{
  "reviewerID": "A2SUAM1J3GNN3B",
  "asin": "0000013714",
  "reviewerName": "J. McDonald",
  "helpful": [2, 3],
  "reviewText": "I bought this for my husband who plays the piano. He is having a wonderful time playing these old hymns. The music is at times hard to read because we think the book was published for singing from more than playing from. Great purchase though!",
  "overall": 5.0,
  "summary": "Heavenly Highway Hymns",
  "unixReviewTime": 1252800000,
  "reviewTime": "09 13, 2009"
}

По структуре датасета можем сразу прикинуть, какие поля будут у нашей модели.

В следующей статье опишу создание компонента, отвечающего за загрузку датасета.