Что только не делал, даже систему переустановил. Ошибка появляется при компиляции какого-нибудь большого приложения. В логах ядра куча ошибок вида:
May 1 21:10:44 sergey kernel: BUG: Bad page state in process emerge pfn:1d9bdd
May 1 21:21:28 sergey kernel: BUG: Bad page state in process cc1plus pfn:90261
May 1 21:22:26 sergey kernel: BUG: Bad page state in process cc1plus pfn:cfd51
May 1 21:41:15 sergey kernel: BUG: Bad page map in process rm pte:20d25a025 pmd:21355c067
May 1 21:41:15 sergey kernel: BUG: Bad page state in process rm pfn:20d25a
May 1 21:46:45 sergey kernel: BUG: Bad page map in process cmake pte:00100000 pmd:211ea2067
May 1 21:54:47 sergey kernel: BUG: Bad page state in process cc1plus pfn:1757b1
May 1 22:14:45 sergey kernel: BUG: Bad page map in process cmake pte:00100000 pmd:21526d067
May 1 22:17:22 sergey kernel: BUG: Bad page map in process cmake pte:00100000 pmd:211ae5067
May 1 22:20:27 sergey kernel: BUG: Bad page map in process cc1plus pte:00100000 pmd:20fe2a067
May 1 22:22:17 sergey kernel: BUG: Bad page map in process x86_64-pc-linux pte:00100000 pmd:2153b2067
May 1 22:22:36 sergey kernel: BUG: Bad page map in process sh pte:00100000 pmd:2153b0067
May 1 22:32:25 sergey kernel: BUG: Bad page map in process x86_64-pc-linux pte:80000001a4f3f067 pmd:214c83067
May 1 22:36:43 sergey kernel: BUG: Bad page state in process cc1plus pfn:15ecb1
У меня система установлена на SSD. Может есть какие-то тонкости использования SSD?
# Оперативка или SSD битые
# Нехватка памяти
# Нет места в каталоге, где происходит сборка пакетов
# Проблемы с проприетарным драйвером, например видеокарты
# Проблема с материнской платой
1. memtest не выдает ошибок. smart SSD говорит что нет bad’ов
2. оперативной памяти 8 гигабайт
3. на системном диске свободно 28 гигабайт
4. Видеокарта intel, встроенная в процессор. Сегодня с работы принесу на пробу radeon.
5. Может проблема с bios EFI?
Все железо новое. Если менять по гарантии - нужно выяснить причину. Компьютер может работать непрерывно сутки, потом начинаю что нибудь устанавливать, и он виснет.
Еще заметил что частота всех 4х ядер процессора увеличивается до 3.4 ГГц при компиляции, хотя максимальная частота процессора 3.1 ГГц. Мне кажется это странно. Я думал что при turbo boost только одно ядро должно работать на максимальной частоте. Пробовал отключить turbo boost в bios - не отключается.
Обычно с EFI проблема только в том, что не все дистрибутивы в состоянии загрузится с него. Но если система грузится, то проблем быть не должно.
Еще заметил что частота всех 4х ядер процессора увеличивается до 3.4 ГГц при компиляции, хотя максимальная частота процессора 3.1 ГГц. Мне кажется это странно. Я думал что при turbo boost только одно ядро должно работать на максимальной частоте. Пробовал отключить turbo boost в bios - не отключается.
Может оперативная память не выдерживает при повышении частоты turbo boost? Т.е. пробуем нагрузить компьютер, разогреть и паралельно запустить тест памяти. И какая температура, перед зависанием?
Еще как вариант попробуйте либо выгрузить вручную модули из /etc/conf.d/modules (modprobe -r модуль), либо закомментировать временно все строки в /etc/conf.d/modules и просто перезагрузится, чтобы проверить в них ли дело. Там присутствуют модули, управляющие частотой процессора.
Может оперативная память не выдерживает при повышении частоты turbo boost?
Вроде при работе turbo boost увеличивается только множитель процессора, а частота шины не меняется. Температура процессора в простое 37 градусов, в момент зависания 57 градусов. Возможно что один из модулей ядра поднимает именно частоту шины а не множитель, вечером поразбираюсь.
Компиляция пакетов перестала прерываться после того как выгрузил модули ядра: “acpi-cpufreq cpufreq_conservative cpufreq_powersave cpufreq_userspace mperf speedstep-lib”. Три раза подряд успешно собрал пакет app-office/calligra. Раньше сборка прерывалась и комп начинал глючить. Частота процессора держится на отметке 3092 мегагерца и не меняется. Температура 38 градусов в простое и 51 градус при полной загрузке всех ядер. Установил видеокарту radeon HD2400 и температура процессора изменилась: 34 градуса в простое и 46 градусов при полной загрузке.
Несмотря на то, что глюков не видно, в логах ядра все же кое-что нехорошее есть:
May 2 22:12:38 sergey kernel: BUG: Bad page map in process sh pte:00100000 pmd:211628067
May 2 22:12:38 sergey kernel: addr:00007f251cc8b000 vm_flags:08000070 anon_vma: (null) mapping:ffff88020e511d28 index:101
May 2 22:12:38 sergey kernel: vma->vm_ops->fault: filemap_fault+0x0/0x470
May 2 22:12:38 sergey kernel: vma->vm_file->f_op->mmap: ext4_file_mmap+0x0/0x60 [ext4]
May 2 22:12:38 sergey kernel: Pid: 13661, comm: sh Not tainted 3.3.3-calculate #1
May 2 22:12:38 sergey kernel: Call Trace:
May 2 22:12:38 sergey kernel: [<ffffffff810bd48e>] print_bad_pte+0x19e/0x210
May 2 22:12:38 sergey kernel: [<ffffffff810cf6dc>] ? swap_info_get+0x9c/0xe0
May 2 22:12:38 sergey kernel: [<ffffffff810bf0bb>] unmap_vmas+0x3db/0x720
May 2 22:12:38 sergey kernel: [<ffffffff810c6128>] exit_mmap+0xb8/0x120
May 2 22:12:38 sergey kernel: [<ffffffff8102f4af>] mmput+0x3f/0x110
May 2 22:12:38 sergey kernel: [<ffffffff81033fb8>] exit_mm+0xf8/0x120
May 2 22:12:38 sergey kernel: [<ffffffff81035db0>] do_exit+0x670/0x870
May 2 22:12:38 sergey kernel: [<ffffffff810df799>] ? vfs_write+0x159/0x180
May 2 22:12:38 sergey kernel: [<ffffffff8103623f>] do_group_exit+0x4f/0xb0
May 2 22:12:38 sergey kernel: [<ffffffff810362b2>] sys_exit_group+0x12/0x20
May 2 22:12:38 sergey kernel: [<ffffffff813995a2>] system_call_fastpath+0x16/0x1b
May 2 22:12:38 sergey kernel: Disabling lock debugging due to kernel taint
Думаю наложились друг на друга сразу две проблемы. Время покажет что еще не так. Компьютер не глючит, спасибо за помощь.
Не помогло. Похоже что виновата материнка или процессор.
SSD использовал на другом компьютере - сбоев нет.
Вместо SSD устанавливал HDD с другого компьютера - ничего не меняется, сбои.
Менял блок питания, устанавливал другую видеокарту - без изменений.
Будет время - поставлю винду (чтобы показать продавцу). Если в ней будут сбои - пойду менять материнку и проц.
Ядро не пересобирали? При загрузке с ЗАВЕДОМО ЖИВОЙ LiveCD в логах так же присутствуют эти проблемы?
Кстати, можно загрузиться в режиме LiveCD и не нарезая болванки
Упаковал фильм 4 Гб одновременно разными архиваторами, при этом были загружены все ядра, частота поднялась до 3.4 ГГц. Ошибки не появлялись. Повторил операцию - ошибок нет. Хотел в винде нагрузить процессор архиваторами, теперь вот думаю ставить ли ее, т.к. скорее всего ошибок не будет. Попробую установить CLD 32-бит (сейчас 64-бит).
Ядро не пересобирал. При загрузке LiveCD в логах чисто. Ошибка возникает во время компиляции.
Так с liveCD покомпилируйте что-то
Можете в scratch-режиме загрузиться и в cl-builder что-то собрать(так доп соят в iso-шку добавляется), можете просто с liveCD стартануть и что-то пересобрать.
Пересобрал с pae, память увиделась. После двух неудачных попыток собрать пакет app-office/calligra вернулся к прежнему ядру. Ошибок в логе ядра не было, пакет просто не собирался. После возврата к прежнему ядру пакет собрался с первого раза.
Отнес на работу память Corsair и принес samsung такого же номинала. Сегфолты в х64 сразу пропали. На работе Corsair работает стабильно (win7 х64). Вот так решилась моя проблема. Я удивлен что memtest не выявлял проблему. Думаю моя материнка устанавливает экстремальные тайминги для Corsair и возможно в дальнейшем новые bios поправят это.