Home
LAST SKIF
28 Февраль 2009 @ 09:04

"Поможите, люди добрые..." (с)

Abit AS8, i965p, D531(3000HT), 2x512mb DDR1-400, PowerColor hd2600pro 512mb AGP
WinXP Pro(rus) + все последние патчи, Catalist v8.5, AGP Size =256mb, разгона нет

клиент 1  : f@h.win32.gpu.systray.623 (FahCore_11.exe)
клиент 2  : f@h.win32.x86.systray.623 (FahCore_78.exe - обновился сам с FahCore_7c.exe)
мониторинг: FahSpy v1.5.0
бенчмарк  : TOC F@H Bench v0.4.7.0

Запуск только клиента 1 (ID#1): загрузка GPU 99.9%, температура GPU: 65, частоты 600/400 (дефолтные). Загрузка CPU 50%, температура CPU 48. Среднее PPD 470, PPH 20 (GROGPU2)

Запуск дополнительно к первому клиента 2 (ID#2): загрузка CPU 98%, температура CPU 54, все остальное для GPU без изменений. Среднее PPD 70, PPH 3 (GROMACS)

Вывод: клиент для CPU запущенный паралельно с GPU совершенно ничем не влияет на скорость расчета GPU. Просто дает дополнительное количество очков, но очень уж мизерное. Клиент GPU запущенный отдельно - всегда грузит CPU на 50%, не реагируя на слайдер приоритета. Потому и решил пускать CPU паралельно GPU, чтобы грузился проц по полной. Но, клиент GPU прилично просаживает PPD для CPU, если сравнивать чистый CPU и CPU+GPU.

Если верить тестам бенчмарка vs тестам реальным, то можно получить с системы:

833ppd при одном потоке GPU vs 500ppd при одном потоке GPU
407ppd при одном потоке CPU vs  36ppd при одном потоке CPU
490ppd при двух потоках CPU vs    ppd при двух потоках CPU
   ppd при потоках CPU+GPU  vs 450+70=520ppd при потоках CPU+GPU

Но в итоге - совершенно непонятно, почему связка из 2х приносит столь мало очков. Особенно при условии, что одиночный запуск грузит проц только на 50%, а включив второй поток на еще +50% мы получаем не +50% ppd а какой-то жалкий довесок. И абсолютно непонятна ситуация, почему один CPU дает 36ppd, а стоит запустить в дополнение GPU, то CPU выдает 70ppd (в довесок к 450ppd от GPU).

Вопросы для обладателей близких по уровню систем -

Насколько адекватны показатели PPD для CPU & GPU? По средней статистике на форумах hd2600pro должна выдавать 950ppd, почему у меня так мало?
Статистика по PPD для CPU - вообще странная. Да, GPU шустрее, но не настолько же? Если ориентироваться на бенчмарк, то 830ppd для GPU еще сравнимо с общей статистикой для hd2600pro, а реальное 477PPD хоть и меньше, но терпимо. Но вот разница в бенчах для CPU ppd и реальное 68ppd это странно.

TOC F@H Bench v0.4.7.0
GPU ATI(+) *быстрый*, задача 4736, ядро GROUGPU2/ATI, 1 поток. PPD= 833ppd (727сек). CPU 50%
GPU ATI(+) *быстрый*, задача 4736, ядро GROUGPU2/ATI, 2 потока. PPD= 843ppd (1442сек). CPU 98%

СPU DGROMACS 1(+) *быстрый*, задача 3852, ядро DGROMACSB, 1 поток. PPD= 407ppd (1453сек). CPU 50%
СPU DGROMACS 1(+) *быстрый*, задача 3852, ядро DGROMACSB, 2 потока. PPD= 490ppd (2445сек). CPU 98%

вопрос: а как такое может быть, что для 2х потоков мы получили даже чуть больше PPD, если время исполнения стало в два раза дольше и в двое возросла загрузка CPU?

вопрос: на всех тестах CPU/GPU наблюдается одинаковое явление - стартует на очень приличной скорости, а потом чем дальше тем все меньше и меньше. Итоговая скорость приведена в строчках. Так и должно быть, а онлайновое изменение PPD в бенче это просто усредненное значение, а не реалтайм?

Дополнительные проблемы:

Не могу поставить ничего свежее каталиста 8.5, что лежит на сайте PowerColor. Все, что скачивается с АМД (9.2 в т.ч.) отваливается на первом этапе установки с сообщением, что "совместимого железа не найдено". Авторы на карту явно плюнули и ничего свежее выкладывать не собираются. А она AGP, от PCI-E дрова не встают.

Система полностью автопилотна 24ч/7д и стабильна, наличие в памяти клиента GPU ни в малейшей степени не влияет на просмотр видео и игры вроде Lineage/Diablo ни разу ничего не падало в процессе - ни игры, ни клиент. Причем, при паралельной игре+GPU нет тормозов абсолютно! А вот в режиме "простоя" идут постоянные косяки с UNSTABLE_MASHINE, расчетами начал заниматься 12.02, ровно две недели круглосуточной работы - всего 4 (ЧЕТЫРЕ) выполненных задания! Считаем-считаем, бывало до 99%, а потом хлоп - унстабле и клиент "радостно" начинает все рассчитывать заново. Кто виноват и что делать? Разгона = ноль. Перегрева = ноль. Все стабильно, кроме этого глюка. Типичные логи:

-------
Completed 99%
mdrun_gpu returned
NANs detected on GPU
Folding@home Core Shutdown: UNSTABLE_MACHINE
-------
Completed 1%
mdrun_gpu returned
NANs detected on GPU
Folding@home Core Shutdown: UNSTABLE_MACHINE
-------
Completed 4%
mdrun_gpu returned
NANs detected on GPU
Folding@home Core Shutdown: UNSTABLE_MACHINE
-------
[16:53:12] Folding@home Core Shutdown: UNSTABLE_MACHINE
[16:53:16] CoreStatus = 7A (122)
[16:53:16] Sending work to server
[16:53:16] Project: 5741 (Run 2, Clone 34, Gen 89)
[16:53:16] - Read packet limit of 540015616... Set to 524286976.
[16:53:16] - Error: Could not get length of results file work/wuresults_06.dat
[16:53:16] - Error: Could not read unit 06 file. Removing from queue.
[16:53:16] - Preparing to get new work unit...
-------

По статистике есть некоторое подозрение, что подобные падения всегда идут именно тогда, когда выключен монитор. Сначала подозревал, что при выключении видеокарта "засыпает", но проверил все опции энергосбережения - все включено и сон запрещен. Или, где-то еще есть хитрая галочка, что упрямо вводит карту в сон? Но просто по статистике - расчет при выключенном мониторе идет, падения PPD за ночь не замечено. Только описанная проблема не стабильности и не возможности прочесть файл. Самое обидное - расчеты в среднем идут сутки, включаешь утром монитор, а там в логе "обломс, считаем заново". Прямо хоть вообще бросай эту бодягу с расчетами или монитор не гаси... Прямо синдром мастера, смотришь на клиент: 98=99=100=ОК, а если выключил: 99=ERROR=1%

Еще непонятность: для CPU/GPU установленны чекпоинты на 3мин., CPU уверенно все пишет в лог и рапортует о сохранении чеков в нужном интервале. GPU в этом отношении не пишет в лог ничего! Но, если выгрузить клиенты и запустить заново - то расчет продолжается именно с последних % без обнуления.

 
 
LAST SKIF
26 Февраль 2009 @ 10:19

Вторую неделю продолжаю нелегкую битву с софтом F@H и все больше понимаю, что ничего не понимаю. Логика его работы просто какая-то запредельная. Запускаем софт для GPU - в отношении GPU все в норме, загрузка GPU 99% как и полагается. Но, эта жа софтина за милую душу отедает себе еще и +50% от CPU для совершенно непонятных целей. По первости я думал, что она универсальная и ведет расчет на обоих процах GPU+CPU, но несложный эксперимент доказал совершенно обратное - если паралельно запустить что-то "тяжелое" вроде DivX кодирования по реалтаймом, то выдав DivX все 100% ресурсов от CPU степень полезности в отношении PPD от GPU не меняется ни на грамм. Что же тогда оно крутит на CPU на 50% то? Пустой цикл в холостую? Непонятно-с...

Эксперимент намба тво. Запускаем софт только для CPU - он отнимает свои 50% и на этом "успокаивается". В принципе логично, гипертрединг большего и не позволит, если принудительно не увеличивать приоритет. Странности в другом. Такой запуск выдает что-то в районе 40 PPD по прогнозам. Мало/много это отдельный вопрос, главное в другом - стоит запустить дополнительно еще и GPU софт, как вдруг мы получаем, что CPU начинает выдавать под 70 PPD. При тойже самой загрузке в 50% каждому варианту. Не однозначно как-то. Итого: 50% ресурсов проца сьел CPU, 50% ресурсов сьел GPU +99% от ресурсов видео, а результат в  комплекте по CPU выше, чем просто софт CPU отдельно. Причем, считают они, разумеется, совершенно разные задачи, о распаралелливании и речи не идет.

Просто наблюдения: несколько дней изучал статистику по форумам для аналогичных конфигураций видео+процессор, скачал даже бенчмарк для тестов - реальность все время получается брутальней. Если по бенчмарку PPD относительно укладывается в погрешности измерений в среднем на 15-20%, то реальный PPD на расчетах задач выдает 50% от этой статистики. Маловато будет, маловато! :(