Обсуждение:Web mining
Проект «Информационные технологии» (уровень ХС, важность для проекта средняя)
Эта статья тематически связана с вики-проектом «Информационные технологии», цель которого — создание и улучшение статей по темам, связанным с информационными технологиями. Вы можете её отредактировать, а также присоединиться к проекту, принять участие в его обсуждении и поработать над требуемыми статьями. |
По мелочи (преамбула)
[править код]— «авторских сайтов» — не авторитетных ли сайтов? Неточность перевода?
— «…это автоматическое обнаружение шаблонов в маршруте передвижения пользователя…» — на каком-то транспорте? — Andrew Krizhanovsky 16:08, 21 января 2013 (UTC)
Иллюстрация
[править код]4. Сделайте, пожалуйста, иллюстрацию с текстом на английском…
…Но сначала по трём нижним квадратикам. Если я правильно понимаю, то они соответствуют трём достаточно известным задачам, для которых есть соответствующие статьи в русской и, наверняка, в английской википедиях. Поэтому:
- назовите на иллюстрации эти задачи так, как называются соответствующие статьи в википедии;
- выберите для задач цвет, который будет отличаться от четырёх квадратиков Web Mining’a или сделайте фигурную скобку (слева или справа) и напишите за ней "Задачи". Или и то, и другое. Надо пробовать и смотреть, что лучше.
- добавьте соответствующий текст в статью с внутренней ссылкой, то есть если на картинке есть задача «Кластеризация», то и в тексте статьи должно быть упоминание этой задачи вместе со ссылкой на статью ВП про ту кластеризацию, которую вы имеете в виду. Если статья есть только у англичан, то используйте шаблон {{нп3}} — Andrew Krizhanovsky 16:08, 21 января 2013 (UTC)
Иллюстрация на английском сделана. По поводу задач в нижних квадратиках: они относятся к статье DATA MINING, а суть схемы указана в описании. Не вижу смысла что-то еще менять.
Рецензирование статьи Web mining
[править код]Убедительно прошу, коллеги, дать рекомендации по устранению замечаний, недоработок и пр. — Эта реплика добавлена участником Андронов Руслан (о • в)
- В статье есть целые абзацы без источников. Филатов Алексей 05:28, 22 января 2013 (UTC)
- Сделано Исправлены некоторые моменты, в остальных случаях ссылки на информацию одни и те же, поэтому нет смысла дублирования
- Разделы из одного-двух предложений. Филатов Алексей 05:28, 22 января 2013 (UTC)
- Если писать в одном разделе, то не получится тематической связности
- Плюсы и минусы практически без ссылок. Филатов Алексей 05:28, 22 января 2013 (UTC)
- Сделано Этот раздел является переводом информации с английской статьи в википедии, поэтому указал в примечаниях ссылку на нее.
- Абсолютно ничего нет про историю развития данной технологии и т.д. Филатов Алексей 05:28, 22 января 2013 (UTC)
- Web Mining - это одна из ветвей развития Data Mining(Интеллектуального анализа данных). Откуда это пошло, указано в основной статье.
- Не совсем понятно, чем web mining отличается от поиска в интернете. Стоило бы привести конкретный пример использования технологии.
- Некоторые утверждают, что информационный поиск в Интернете - это частный случай Web Mining, другие ассоциируют Web Mining с интеллектуальным информационным поиском. что за "некоторые" и что за "другие"? Здесь нужны имена.
- Злоупотребление болдом (жирным шрифтом) по всему тексту. - Saidaziz 08:41, 22 января 2013 (UTC)
- Сделано Убрал лишнее, проверяйте и буду рад новым комментариям.
- Примера я пока не вижу. Имеется нечто (алгоритм, парадигма программирования … непонятно) под названием web mining. У него на входе поток данных (сайт, html страница…). web mining их обрабатывает и что-то получаем на выходе. Теперь нужен конкретный пример. Берём, ну скажем, сайт ЦРУ обрабатываем web mining и получаем на выходе нечто. С пояснениями в чём здесь польза человечеству. - Saidaziz 09:42, 30 января 2013 (UTC)
Bold и литература
[править код]В преамбуле «жирный» шрифт для четырех определений оправдан, «жирный» шрифт для второго и третьего употребления фразы «Web mining» — не годится.
После преамбулы — в двух-трёх местах, где даются определения — «жирный» шрифт можно оставить, в остальных случаях — лишнее.
- Сделано Убрал лишнее, проверяйте и буду рад новым комментариям.
- Нижеследующая ссылка намекает, что она взята прямо из книжки:
- Harvest (Brown и др., 1994),
- Было бы чудесно — увидеть Brown’a обёрнутым в {{sfn}} по всем правилам оформительского искусства. Ну и ещё несколько подобных ссылок в разделе «Web Content Mining». — Andrew Krizhanovsky 14:55, 22 января 2013 (UTC)
- Сделано Убрал лишнее, проверяйте и буду рад новым комментариям.
Ссылка на enwiki
[править код]<ref>[http://en.wikipedia.org/wiki/Web_mining#Web_Usage_mining_Pros_and_Cons Web Usage mining Pros and Cons]</ref>:
Ссылки на другие вики-проекты лучше оформить с помощью шаблона {{нп3}}. -- Andrew Krizhanovsky 08:45, 30 января 2013 (UTC)
- Не сделано Не понял как использовать этот шаблон относительно УЖЕ существующих записанных статей!?
- Я ошибочно подумал, что идёт ссылка не на ту же самую (параллельную) статью в англовики... Поэтому моё предложение добавить шаблон {{нп3}} - не имеет смысла.
- По правилам ВП текст других страниц ВП и других википедий не является авторитетным. Статья "Web mining" в англовики доступна через интервики (для заинтересованных). Страница обсуждения поясняет, что первично материал взят со статьи в enwiki. Посему полагаю, что ссылка на подраздел - лишняя, предлагаю её убрать вовсе. -- Andrew Krizhanovsky 14:46, 30 января 2013 (UTC)
Web Usage Mining
[править код]Вы даёте определение:
Web Usage Mining (Анализ использования веб-ресурсов) — это автоматическое обнаружение...
Т.е. это процесс.
Далее пишите:
В зависимости от вида использования данных, Web Usage Mining сам по себе может быть классифицирован как:
- Данные веб-сервера;
- Данные серверных приложений;
- Данные прикладного уровня.
Т.е. это данные. Где правда? -- Andrew Krizhanovsky 08:45, 30 января 2013 (UTC)
- Сделано Отлично, спасибо. Указанные данные являются результатом работы процесса, исправил.
От Александра Крайнова
[править код]Пожелания
[править код]- Я немного подправил разметку ответов на данной странице. Сложно читать. Не возражаете? — Александр Крайнов 16:19, 4 февраля 2013 (UTC)
- Название ссылок в шаблоне {{sfn}} обычно состоит из фамилий. Сейчас это названия книг. В общем, это в пределах правил, но немного непривычно читать. — Александр Крайнов 16:19, 4 февраля 2013 (UTC)
- Структура статьи грамотная, но есть возможности для улучшения: — Александр Крайнов 16:19, 4 февраля 2013 (UTC)
- Раздел 1 можно назвать «Место Web Mining среди (приложений искусственного интеллекта; подходов к обработке информации; или т. п.)». Там же нужно ещё сравнение (как минимум) с Data Mining и (в идеале) Text Mining, OLAP, ETL, семантической паутиной.
- Разделы 2, 3, 4 нужно объединить в один (сделать подразделами) с названием «Направления Web Mining».
- Третьим разделом описать этапы Web Mining.
- На мой взгляд, источник про этапы (http://www.basegroup.ru/) не совсем авторитетный, и в преамбуле такому не место. Желательно найти информацию в книгах. Про категории тоже нужно подумать.
- Четвёртым разделом описать задачи Web Mining (классификация, кластеризация, ассоциация), в чём их особенности применения к вебу. Здесь же нужны примеры.
- Пятым разделом и правда можно было бы описать историю. Ну или скопипастить из другой статьи, если таковая есть, и чуть поменять. Лично мне интересно было бы, когда впервые были применены методы ИАД для веба, что делали с Интернетом
пещерные людидревние программисты, прежде чем появился термин Web Mining (и когда он появился), какие важные книги и статьи оказали на эту область влияние.
Отдельные замечания
[править код]- Web Content Mining != Извлечение веб-контента. Это интеллектуальный анализ веб-контента. То же с извлечением веб-структур. Стоит проверить статью на перевод mining как извлечение (это не одно и то же) и исправить. Вообще, мне кажется, неплохо бы статью переименовать в «Интеллектуальный анализ веб-данных». — Александр Крайнов 16:19, 4 февраля 2013 (UTC)
- Проверить статью на перевод mining как добыча данных и тоже исправить. — Александр Крайнов 15:13, 5 февраля 2013 (UTC)
- «Web Content Mining — процесс извлечения знаний из контента документов или их описания…» — неясно, знания формируются из одного единственного документа или коллекции документов. — Александр Крайнов 16:19, 4 февраля 2013 (UTC)
- На картинке в статье на одну чёрточку больше, чем в источнике. Нужно понять, где ошибка — там или здесь. — Александр Крайнов 15:13, 5 февраля 2013 (UTC)
Brateevsky
[править код]- Надо бы сделать так, чтобы статья перестала быть сиротой. Для этого в верхнем правом углу есть кнопка «Связать» и далее там найти статьи, которые могли бы ссылаться на данную. Я бы вообще проставил ссылку на эту статью, естественно, с Data Mining, вот только пока не знаю, как сделать это, чтобы ссылка вела из текста. --Brateevsky {talk} 19:22, 25 февраля 2013 (UTC)
- Рекомендуется по правилу ВП:Ё проставить точки над Е там, где это необходимо. --Brateevsky {talk} 19:22, 25 февраля 2013 (UTC)
- Ну и просто спасибо за статью. Ибо что такое Data Mining я слышал (хотя в своё время за незнание этого даже 2 получил), а вот Web Mining — пока нет. Кстати, может, упомянуть разницу между этими понятиями? --Brateevsky {talk} 19:22, 25 февраля 2013 (UTC)