Форум истории автоспорта > Исследовательская лаборатория
Регулярные проекты
(1/1)
Владимир Коваленко:
Раз с наскока организовать бурную деятельность в лаборатории не удалось, надо пойти другим путём - от малого к большому постепенно.
Мне удаётся поддерживать на плаву следующие небольшие проекты:
- таблица испытаний
- таблица лучших кругов
- календарь предстоящих событий (эпизодически, но я исправлюсь)
Сегодня я запустил ещё один маленький проектик - расписание телевизионных трансляций на предстоящие выходные. Надеюсь регулярно его обновлять, хотя это будет непросто, потому что к концу недели обычно из-за усталости я начинаю плохо соображать и всё забываю. Но посмотрим.
Если до 12.00 по московскому времени в пятницу календарь и расписание не появятся в соответствующих темах, может кто-нибудь меня подстраховать и самостоятельно выполнить эту работу?
Владимир Коваленко:
С появлением безлимитного интернета я смог наконец-то реально попытаться реализовать давнюю мечту историка, следящего также и за текущими событиями: построить схему сбора текущей базовой информации. Предпосылок тому несколько.
Во-первых, наступит время, когда сегодняшние гонки станут историей, и чтобы потом иметь всю необходимую информацию для работы, собирать её проще всего сейчас, когда она лежит на поверхности. Во-вторых, уже даже по телевизору показывают так много гонок, что во всех сразу сориентироваться сложно, но перед каждой гонкой можно освежать в голове предыдущие события по имеющейся информации. В-третьих, свою роль играет вообще интерес к систематизации информации, и ты понимаешь, что лучше фиксировать текущую информацию и затем навёрстывать упущенное по прошлым сезонам, чем собирать историческую информацию, а потом догонять современную.
Возможно, могут существовать разные стратегии, но лично я выбрал такую.
1. Календарь.
Чтобы ничего не упустить, надо составить хотя бы общий список того, что имеется. Замечено, что первые сообщения о календарях серий появляются уже осенью, но они носят предварительный характер. Возможно, есть смысл начинать уже с них, но потом придётся перепроверять, когда сезон начнётся, и произойдут кое-какие перемены.
При составлении календаря я беру расписание гонок из официального источника и обязательно разбиваю многодневные соревнования по зачётным дням. То есть, если ралли проводится в три дня с пятницы по воскресенье, то в календаре будут три строчки, а если у какой-нибудь "Формулы БМВ" проходят гонки в субботу и воскресенье - две. Цель - избежать сложных дат и обеспечить сортировку в "Экселе".
Таким образом, в календаре для каждого дня будут указаны зачётные соревнования, и можно будет заранее ориентироваться, что будет происходить в предстоящие выходные.
Сразу за один день составить полный календарь, видимо, невозможно, да я и не пытаюсь. Нынче начал с того, что было на слуху на данный момент, и постепенно добавлял всё новые и новые серии. Это работа продолжается до сих пор. Даже если пройдёт пол-сезона, расписания новых серий будут добавляться полностью, чтобы этим календарём можно было пользоваться в будущем.
2. Хранение информации.
Многие уже знакомы с моими принципами хранения информации об автоспорте. Для каждого сезона - отдельная папочка, а в ней всё распределено по сериям, внутри которых - по гонкам. В этом сезоне я внёс кое-какие модификации. Например, если раньше для каждой серии была папочка "preseason" с информацией о предсезонных событиях, то теперь в её имя я впереди добавил два ноля, чтобы она стояла по списку перед всеми гоночными папочками.
Очень удобными оказываются информационные материалы в формате ПДФ. Ими удобно пользоваться, и они не содержат лишней информации, которая всегда есть на ХТМЛ-страницах (типа меню сайта, рекламных блоков и т.п.). Очень многие серии предоставляют информацию именно в этом формате.
3. Сайты серий, трасс, команд и прочие.
В большинстве случаев исчерпывающую информацию можно найти на официальных сайтах серий. При составлении календаря я нахожу эти сайты и сохраняю ссылки на них в "Избранном". С точки зрения дальнейшего использования лучше всего оставлять ссылки не на главные страницы, а на страницы со статистикой, потому что иногда навигация бывает несколько мудрёной, и лучше избежать повторения нудных поисков по сайту.
4. Сбор информации.
В основном это - статистика и фотографии. Иногда попадается аналитика. Оперативная информация появляется максимум в течение нескольких дней после гонки, так что обычно ближе к выходным я открываю календарь и выписываю все серии, проводившие свои соревнования в прошедшие выходные, и начинаю по порядку собирать по сайтам нужную информацию.
Крайне желательно, чтобы информацию можно было скачать автоматом. Составил задание, включил загрузчик - и забыл. Такое возможно далеко не всегда. Для многих сайтов списки закачки можно составить не напрямую, а лишь через промежуточную обработку ссылок. Скажем, я захожу в фотогалерею, открываю картинку и выясняю прямую на неё ссылку. Затем сравниваю её с ссылкой на странице галереи, и если есть закономерность, использую программу "Вебкоу" (Webcow). Она анализирует страницу и выдаёт полный список имеющихся на ней ссылок, из которого можно выбрать только нужное и скопировать в какой-нибудь текстовый редактор. Нежелательная альтернатива - правый щелчок на каждой картинке и выбор "Копировать ярлык". Затем уже можно использовать функции замены в текстовом редакторе, заменяя ненужные фрагменты ссылок на нужные. Вот как, например, выглядит инструкция по подготовке ссылок на фотографии с официального сайта "Индикара".
На официальном сайте на странице http://www.indycar.com/multimedia/photos/ надо выбрать нужное событие, и пропустить страницу через "Вебкоу". Ссылки на фотографии будут иметь вид gallery.php?series_id=1&event_id=547&eventDate=2007-01-09&display=60&photo _id=48586. Ссылки на второй и третьей страницах содержат в себе пункты &offset=6*0 и &offset=12*0 (без звёздочки). Их надо удалить. После составления списка его надо сохранить, открыть в "Экселе", разбить на столбцы по разделителю =, удалить столбцы со второго до предпоследнего, а после последнего добавить столбец с &size=med. В первом столбце остаются описания событий, и надо просто заменить gallery.php?series_id на http://www.indycar.com/multimedia/build_photo.php?photo_id=. После этого всё скопировать обратно в "блокнот" и убрать пробелы. Файлы сохраняются с именами типа build_photo(1).php, поэтому как минимум надо менять расширение.
Подобные инструкции составляются для каждого сайта. Это довольно трудоёмкая работа, но она оправдывается тем, что в будущем по инструкции можно будет обрабатывать бóльшие объёмы, чем вручную.
Когда для каждой серии найдены самые удобные и исчерпывающие источники информации и выяснены способы её извлечения, остаётся только по расписанию выбирать серии и готовить списки для загрузки либо что-то скачивать и сохранять вручную.
5. Видео.
С этим работа уже поставлена на надёжный конвейер, но даже тут в этом сезоне стратегия была усовершенствована. Во-первых, я стараюсь самостоятельно цифровать все автоспортивные соревнования, показываемые по трём спортивным каналам, имеющимся в моей кабельной сети. Это стандартный набор: "Евроспорт", "Спорт" и 7ТВ. Естественно, сюда же надо добавить "Формулу-1" на "Рен-ТВ" и документальные фильмы на каналах "Дискавери" и "Эксплорер". Во-вторых, в скачивании видео, выкладываемого на разного рода форумах мне очень сильно помогают мои московские друзья Алексей Рогачёв и Сергей Сербин. Скачанное видео они пересылают на дисках почтой. Это довольно хлопотное и дорогостоящее занятие, и я готов нести все затраты по нему, хотя фактически получается, что ребята берут многое на себя. В любом случае, оно того стоит, потому что в интернете регулярно выкладываются на небольшие сроки разнообразные видеоматериалы, многие из которых представляют огромную ценность, а остальные служат отличным дополнением к самостоятельно оцифрованному видео.
Одна проблема - все сложнее становится обрабатывать большие массивы видеофайлов. К счастью, цены на ДВД-болванки упали настолько, что можно теперь позволить себе некоторую роскошь. Когда я начал цифровать видео в 2004 году, довольно скоро диск на компьютере забился, и я стал искать пути для его освобождения. К тому времени ДВД-болванки уже стали достаточно доступными, хотя и стоили порядка 45 рублей. Но я шёл на эти затраты, просто старался по максимуму использовать дисковое пространство. Сначала я просто компоновал файлы так, чтобы набирался ровно объём диска. В 2005 году я стал записывать ещё и новости, и подгонка проекта под размер диска с помощью мелких файлов стала проще. Постепенна цена на диски понижалась, и сейчас их можно встретить в розницу по цене семисоток - порядка 10 рублей. Даже если 12-13 - это тоже нормально. Таким образом, можно уже не беспокоиться о заполнении диска и на каждый записывать пусть наполовину, но зато только видео по одной конкретной гонке (трансляции, обзоры и новости) в многосессионном формате с возможностью дописи скаченного из интернета. Число дисков сильно увеличивается, зато упрощается работа с видеоматериалами.
6. Новости.
Прорыв в информационной части автоспорта случился примерно в 2000 году, когда возможностями интернета стали активно пользоваться не только журналисты и активные болельщики, но и организаторы и участники соревнований. Примерно к той поре восходят большинство архивов на официальных сайтах. Я пользовался новостями Би-би-си тоже с 2000 года, но вроде бы как до сих пор можно отыскать сообщения 1999 года. С тех пор основные источники новостей практически не изменились: это Би-би-си, "Автоспорт" (объединённый с "Атласом") и "Моторспорт-ком". Существуют и другие, но пока что этих трёх вполне хватает, хотя я и задумываюсь о расширении этого списка. Переводными пользоваться нельзя - как минимум они не дают ничего нового, потому что пользуются всё теми же источниками, а как максимум - вредно, потому что перевод чаще всего бывает некорректный или даже намеренно неправильный (потому что болельщикам хочется видеть мир только в цветах своих кумиров).
Новости "Автоспорта" я получаю по подписке по электронной почте, а "Моторспорт-ком" присылает только заголовки новостей со ссылками. Раньше я получал всё это на работе, а теперь перевожу на домашний адрес, но с "Моторспорт-ком" возникла заминка - адрес они не перевели, так что их анонсы по-прежнему приходят на работу.
Я использую "Аутлук" в качестве почтовой программы, и в ней есть варианты размещения файлов сообщений в заданном месте, поэтому файл текущих новостей я держу также в папке 2007 года. Кстати, папка текущего сезона всегда у меня лежит в корне автоспортивного раздела, а по наступлении нового сезона она перемещается в папку с годами. Файл новостей для нового сезона создаётся новый, а к старому я доступа не делаю, подразумевая, что его всегда можно подключить, но вот сейчас подумал, что, возможно, есть смысл сделать это для предыдущих сезонов. Хотя, по правде говоря, до 2006 года я удалял все письма с новостями после сохранения их отдельными файлами. Зря.
Вот так примерно на данный момент выглядит моя работа по сбору и хранению информации. Для большинства серий я уже отработал схемы действий и теперь добираю информацию с начала сезона. Таким образом, я буду иметь в своём распоряжении оптимальный набор информационных материалов по мировому автоспорту сезона 2007 года.
Александр Готвянский:
Чуть не в тему, но спрошу. А с помощью этой Webcow можно с imagevenue фото тягать или нет?
Александр Готвянский:
"Offtop" У нас dvd диски LG и Ricoh (хороший вариант, я свои коллекции уже год только на них и пишу; да и фирма у нас не очень раскручена, а так один из лидеров в мире) поштучно по 7 ваших рублей. А какие-нибудь ACME (тот же производитель, что и Verbatim штампует) так и по 5 достать можно.
Владимир Коваленко:
--- Цитата: algot ---Чуть не в тему, но спрошу. А с помощью этой Webcow можно с imagevenue фото тягать или нет?
--- Конец цитаты ---
Не могу сказать. В принципе, программа работает как обычный загрузчик, но я ни разу не проверял эту возможность. Я не совсем понимаю принцип, по которому загрузчики понимают или не понимают непрямые ссылки. Вот сегодня качал ПДФ-файлы с сайта ралли "Акрополис". Ссылки непрямые, а "Флэш-гет" их взял.
Навигация
Перейти к полной версии