Форум истории автоспорта > Исследовательская лаборатория
Поиск и сбор информации
(1/1)
Владимир Коваленко:
В закончившемся сезоне 2007 года я проводил своего рода эксперимент, пытаясь понять, насколько возможно планомерно, систематически собирать с официальных и неофициальных сайтов информацию о текущих событиях. Практика показала, что даже один человек с медленным интернетом вполне способен уследить за событиями, хотя и приходится напрягаться.
В предстоящем сезоне я хочу попросить помощи у участников форума, чтобы у меня оставалось больше времени на историю автоспорта.
Желающие заниматься какой-либо серией могут обращаться уже сейчас, а я планирую предлагать участие каждому конкретно. Естественно, всё это в рамках возможного и разумного.
К сожалению, я не продумал удобный способ обмена собранной информацией, но что-нибудь придумаю.
Будем считать это продолжением эксперимента.
Александр Кречетов:
Я бы занялся таким сбором.
Владимир:
Серия Grand Prix 2.
Хотя у меня и по этому году еще не все собрано, но всего не соберешь.
Только вот я не знаю.
1. Насколько я смогу собирать именно ту информацию, которая требуется и самое главное в реальном времени.
Часть фотографий ты видел, и статистику за 7 или 8 гонок.
К концу года надеюсь смогу собрать новости, как сделал это про 2005 год.
2. В один прекрасный миг могу просто взять и остановится по тем или инвм причинам. Специально говорю это сразу, так правильнее, мне кажется.
Анна Левина:
хм. я занимаюсь российским ралли. всеми его видами, кроме р3к.
Владимир Коваленко:
Спасибо большое за отклики. Я обязательно расскажу о методах поиска, сбора и хранения информации. Как будет появляться возможность, потихоньку буду рассказывать.
Наша задача - грамотно сохранить базовую информацию о разных сериях. Базовая - это статистика в удобном формате и легкодоступные фотографии. Можно найти много фотосайтов, но навряд ли будет возможность обработать их все, поэтому для каждой серии нужно выбрать один-два источника фотографий, чтобы их-то использовать по полной программе, а дальше уже можно будет смотреть, что сделать.
В папке текущего сезона я создаю много папочек - для каждой серии. Их список выглядит примерно так:
a1gp-2007
alms-2007
andros-trophy-2007
btcc-2007
champ-car-2007
dtm-2007
erc-2007
etrc-2007
events-07
f1-07
f3-asian-2007
f3-euro-2007
f3-southamerica-2007
fia-2007
fia-gt-2007
fia-gt3-2007
gp2-2007
grandam-2007
indycar-2007
irc-2007
lemans24h-07
library-2007
lms-2007
nascar-busch-2007
nascar-nextel-2007
national-aus-2007
national-esp-2007
national-fin-2007
national-gbr-2007
national-ger-2007
national-ita-2007
national-jpn-2007
national-rus-2007
news-07
rally-raid-2007
speedcar-2007
tv-07
v8-supercars-2007
wmcc-07
wrc-07
wsbk-2007
wtcc-2007
Это на самом деле неполный вариант, а всего лишь тот, который оказался под рукой. Уже готова папочка для 2008 года, а в ней - папочки для некоторых серий, по которым у меня уже есть информация. Уже в новый сезон я отношу и события межсезонья, хоть они и происходят ещё в предыдущем календарном году, но напрямую относятся к следующему.
В папочке каждой серии - подпапочки для каждой гонки. Например, для "Формулы-1" в 2007 году были:
00.preseason-07
01.ausgp(18.03.07)
02.mlsgp(08.04.07)
03.bahgp(15.04.07)
и так далее.
Ну а уже в эти подпапочки складываются собственно файлы. Хотя нередко я делаю подпапочки и внутри гонок (по дням недели, конкретным событиям и т.п.).
Вот это базовая структура, для которой уже можно искать информацию.
Собственно поиск проводится в начале сезона, когда выявляются сайты с нужной информацией, чтобы затем её с них собирать. Ссылки я храню в "Избранном" с использованием подобной же структуры.
Вот последняя версия коллекции ссылок: Избранное.rar (http://disk.tom.ru/qewmgcu).
Затем после каждого соревнования надо заходить на каждый сайт из списка и сохранять новую информацию.
Для того, чтобы ориентироваться в том, какие гонки проходили в прошедшие выходные, я использую календарь: 2007 - Календарь.rar (http://disk.tom.ru/d72w7dy). Если вы откроете этот файлик, то увидите, что в нём выделены соревнования одной из недель. Вот так я делаю для себя, чтобы по порядку просматривать появившуюся информацию по каждой серии.
У каждого сайта есть свои особенности, всех не упомнишь, поэтому для каждой серии я делаю памятку: по каким конкретно ссылкам заходить на сайте для поиска статистики и фотографий, как нужно составлять списки ссылок для автоматического загрузчика (если невозможно это сделать стандартным способом).
Итак, сбор информации ведётся примерно по следующей схеме.
1. Подготовить структуру хранения информации, списки ссылок, памятки по пользованию каждым сайтом и календарь соревнований.
2. В начале каждой недели открывается календарь и выделяются все соревнования прошедших выходных.
3. Для каждой серии по ссылкам и памяткам сохраняется нужная информация в соответствующую папочку в архиве.
Всю подготовительную работу по 2008 году я проведу: подготовлю и календарь, и список ссылок, и памятки. От помощников будет требоваться только после каждого этапа выбранных ими серий собирать нужную информацию или хотя бы готовить списки ссылок, по которым я буду скачивать файлы. Это позволит мне немного разгрузиться и заниматься другими полезными проектами.
Собранную информацию можно выкладывать в темах соответствующих серий.
Навигация
Перейти к полной версии