Фільтрація основних моментів записів онлайн-трансляцій на основі аналізу коментарів
Abstract
Більшість досліджень у галузі обробки природної мови зосереджено на моделюванні та розумінні тексту, що складається з повних речень з правильним написанням та граматикою. Однак чат у прямому ефірі кардинально відрізняється від звичайного тексту. Глядачі зазвичай пишуть короткі повідомлення, відповідаючи на події в трансляції, часто з неправильною граматикою і безліччю сленгових виразів, що повторюються (слова, смайлики). Крім того, сленгові вирази, які зазвичай використовуються в чаті у прямому ефірі, невідомі традиційним засобам щодо розуміння мови, які зосереджені на прозовому тексті. Оскільки прямі трансляції стають все більш популярними, стає все більш актуальним необхідність вивчати за допомогою аналізу чату способи взаємодії аудиторії з трансляцією. Це непросте завдання, чат у прямому ефірі - це багата і складна область. Чат трансляції містить безліч орфографічних помилок, наприклад через те, що глядачі швидко набирають повідомлення, які реагують на потік. Ці орфографічні помилки можуть бути навмисними. Крім того, у чатах широко використовуються «емоції», специфічні для предметної області смайли з багатим та складним значенням. Хоча чат у прямому ефірі має деякі подібності з іншими соціальними медіа даними, у літературі чітко показано, що чат у прямому ефірі має кілька унікальних властивостей. Насамперед, він тісно пов'язаний з потоковим ігровим контентом, наприклад тому, що учасники реагують на події в потоці, і, таким чином, чат відіграє ключову роль у розумінні контексту прямих трансляцій. По-друге, величезний масштаб розміру чату в доповненні до часових обмежень призводить до унікальних властивостей. Таким чином, розуміння цієї галузі є одночасно надзвичайно складним і дуже важливим, оскільки популярність потокової передачі зростає як розважальна область.