    danthe - 26-04-2010 18:53
    wysoki load average + dziwne zachowanie dysku
      Posiadam serwer Kimsufi i7-2T. Od jakiegoś czasu mam problem z wysokim load average (ok 40, czasami waha się 2-80). problemem jest chyba dysk bo procesor ma zużycie na poziomie kilku procent. Iostat wyświetla coś takiego:

    avg-cpu: %user %nice %system %iowait %steal %idle
    0,26 0,00 0,20 3,67 0,00 95,88

    Device: rrqm/s wrqm/s r/s w/s rsec/s wsec/s avgrq-sz avgqu-sz await svctm %util
    sda 0,04 5,96 0,05 2,26 7,95 65,83 31,96 2,45 1061,11 320,59 74,01
    sda1 0,00 4,15 0,01 1,63 0,62 46,30 28,55 1,58 960,73 435,10 71,51
    sda2 0,04 1,81 0,03 0,63 7,33 19,53 40,39 0,87 1309,32 1076,69 71,59
    sda3 0,00 0,00 0,00 0,00 0,00 0,00 35,33 0,00 16,33 15,33 0,00
    sdb 0,04 5,95 0,07 2,27 8,35 65,83 31,78 0,03 14,10 6,15 1,44
    sdb1 0,00 4,15 0,03 1,63 0,94 46,30 28,45 0,02 14,11 5,34 0,89
    sdb2 0,04 1,81 0,04 0,63 7,40 19,53 40,01 0,01 14,07 12,89 0,87
    sdb3 0,00 0,00 0,00 0,00 0,00 0,00 35,33 0,00 10,00 9,67 0,00
    md2 0,00 0,00 0,15 2,23 14,72 17,80 13,68 0,00 0,00 0,00 0,00
    md1 0,00 0,00 0,04 5,54 1,55 44,33 8,21 0,00 0,00 0,00 0,00

    sda i sdb to 2 dysku spięte w raid, z tego co tu pisze zużycie jednego jest duzo wyższe niż drugiego, ktoś miał taka sytuacje? co może być nie tak ?


    Disk /dev/sda: 1000.2 GB, 1000204886016 bytes
    255 heads, 63 sectors/track, 121601 cylinders
    Units = cylinders of 16065 * 512 = 8225280 bytes
    Disk identifier: 0x000e4387

    Device Boot Start End Blocks Id System
    /dev/sda1 * 1 1275 10240000 fd Linux raid autodetect
    /dev/sda2 1275 121536 965995520 fd Linux raid autodetect
    /dev/sda3 121536 121601 524512 82 Linux swap / Solaris

    Disk /dev/sdb: 1000.2 GB, 1000204886016 bytes
    255 heads, 63 sectors/track, 121601 cylinders
    Units = cylinders of 16065 * 512 = 8225280 bytes
    Disk identifier: 0x000f3c8c

    Device Boot Start End Blocks Id System
    /dev/sdb1 1 1275 10240000 fd Linux raid autodetect
    /dev/sdb2 1275 121536 965995520 fd Linux raid autodetect
    /dev/sdb3 121536 121601 524512 82 Linux swap / Solaris

    wsitkowski - 26-04-2010 22:41
    Jajko standard od OVH?

    PS nakładają Ci się bloki na dyskach.

    danthe - 26-04-2010 23:29
    tak (konkretnie to debian), przy podziale na partycje też nic nie zmieniałem.
    Chciałem też sprawdzić dysk za pomocą smartctl i nie wyświetla żadnych błędów, co dziwniejsze podczas sprawdzania (long, ok 4 godzin) wszystko wraca do normy. (load average < 1 , zużycie obu dysków ok 5 %).

    wsitkowski - 28-04-2010 15:28
    uname -r

    smartctl -d ata -a /dev/sda
    smartctl -d ata -a /dev/sdb

    PS tak z ciekawości na Debianie w OVH jest lilo czy grub?

    danthe - 29-04-2010 10:11
    uname -r

    Kod: smartctl -d ata -a /dev/sda

    Kod: smartctl version 5.38 [x86_64-unknown-linux-gnu] Copyright (C) 2002-8 Bruce Allen
    Home page is http://smartmontools.sourceforge.net/

    Device Model:    WDC WD10EADS-00P8B0
    Serial Number:    WD-WMAVU0324471
    Firmware Version: 01.00A01
    User Capacity:    1,000,204,886,016 bytes
    Device is:        Not in smartctl database [for details use: -P showall]
    ATA Version is:  8
    ATA Standard is:  Exact ATA specification draft version not indicated
    Local Time is:    Thu Apr 29 09:56:35 2010 CEST
    SMART support is: Available - device has SMART capability.
    SMART support is: Enabled

    SMART overall-health self-assessment test result: PASSED

    General SMART Values:
    Offline data collection status:  (0x84)        Offline data collection activity
                                            was suspended by an interrupting command from host.
                                            Auto Offline Data Collection: Enabled.
    Self-test execution status:      (  18)        The self-test routine was aborted by
                                            the host.
    Total time to complete Offline
    data collection:                  (23280) seconds.
    Offline data collection
    capabilities:                          (0x7b) SMART execute Offline immediate.
                                            Auto Offline data collection on/off support.
                                            Suspend Offline collection upon new
                                            Offline surface scan supported.
                                            Self-test supported.
                                            Conveyance Self-test supported.
                                            Selective Self-test supported.
    SMART capabilities:            (0x0003)        Saves SMART data before entering
                                            power-saving mode.
                                            Supports SMART auto save timer.
    Error logging capability:        (0x01)        Error logging supported.
                                            General Purpose Logging supported.
    Short self-test routine
    recommended polling time:          (  2) minutes.
    Extended self-test routine
    recommended polling time:          ( 255) minutes.
    Conveyance self-test routine
    recommended polling time:          (  5) minutes.
    SCT capabilities:                (0x303f)        SCT Status supported.
                                            SCT Feature Control supported.
                                            SCT Data Table supported.

    SMART Attributes Data Structure revision number: 16
    Vendor Specific SMART Attributes with Thresholds:
      1 Raw_Read_Error_Rate    0x002f  200  200  051    Pre-fail  Always      -      0
      3 Spin_Up_Time            0x0027  180  174  021    Pre-fail  Always      -      5958
      4 Start_Stop_Count        0x0032  100  100  000    Old_age  Always      -      77
      5 Reallocated_Sector_Ct  0x0033  200  200  140    Pre-fail  Always      -      0
      7 Seek_Error_Rate        0x002e  200  200  000    Old_age  Always      -      0
      9 Power_On_Hours          0x0032  094  094  000    Old_age  Always      -      4461
     10 Spin_Retry_Count        0x0032  100  253  000    Old_age  Always      -      0
     11 Calibration_Retry_Count 0x0032  100  253  000    Old_age  Always      -      0
     12 Power_Cycle_Count      0x0032  100  100  000    Old_age  Always      -      75
    192 Power-Off_Retract_Count 0x0032  200  200  000    Old_age  Always      -      74
    193 Load_Cycle_Count        0x0032  172  172  000    Old_age  Always      -      86975
    194 Temperature_Celsius    0x0022  109  077  000    Old_age  Always      -      41
    196 Reallocated_Event_Count 0x0032  200  200  000    Old_age  Always      -      0
    197 Current_Pending_Sector  0x0032  200  200  000    Old_age  Always      -      0
    198 Offline_Uncorrectable  0x0030  200  200  000    Old_age  Offline      -      0
    199 UDMA_CRC_Error_Count    0x0032  200  200  000    Old_age  Always      -      0
    200 Multi_Zone_Error_Rate  0x0008  200  200  000    Old_age  Offline      -      0

    SMART Error Log Version: 1
    No Errors Logged

    SMART Self-test log structure revision number 1
    Num  Test_Description    Status                  Remaining  LifeTime(hours)  LBA_of_first_error
    # 1  Extended offline    Aborted by host              20%      4451        -
    # 2  Extended offline    Aborted by host              20%      4448        -
    # 3  Extended offline    Completed without error      00%      4444        -
    # 4  Extended offline    Completed without error      00%      4440        -
    # 5  Extended offline    Completed without error      00%      4430        -

    SMART Selective self-test log data structure revision number 1
        1        0        0  Not_testing
        2        0        0  Not_testing
        3        0        0  Not_testing
        4        0        0  Not_testing
        5        0        0  Not_testing
    Selective self-test flags (0x0):
      After scanning selected spans, do NOT read-scan remainder of disk.
    If Selective self-test is pending on power-up, resume after 0 minute delay. smartctl -d ata -a /dev/sdb

    Kod: smartctl version 5.38 [x86_64-unknown-linux-gnu] Copyright (C) 2002-8 Bruce Allen
    Home page is http://smartmontools.sourceforge.net/

    Device Model:    ST31000528AS
    Serial Number:    9VP2WTSM
    Firmware Version: CC38
    User Capacity:    1,000,204,886,016 bytes
    Device is:        Not in smartctl database [for details use: -P showall]
    ATA Version is:  8
    ATA Standard is:  ATA-8-ACS revision 4
    Local Time is:    Thu Apr 29 09:56:54 2010 CEST
    SMART support is: Available - device has SMART capability.
    SMART support is: Enabled

    SMART overall-health self-assessment test result: PASSED

    General SMART Values:
    Offline data collection status:  (0x82)        Offline data collection activity
                                            was completed without error.
                                            Auto Offline Data Collection: Enabled.
    Self-test execution status:      (  25)        The self-test routine was aborted by
                                            the host.
    Total time to complete Offline
    data collection:                  ( 617) seconds.
    Offline data collection
    capabilities:                          (0x7b) SMART execute Offline immediate.
                                            Auto Offline data collection on/off support.
                                            Suspend Offline collection upon new
                                            Offline surface scan supported.
                                            Self-test supported.
                                            Conveyance Self-test supported.
                                            Selective Self-test supported.
    SMART capabilities:            (0x0003)        Saves SMART data before entering
                                            power-saving mode.
                                            Supports SMART auto save timer.
    Error logging capability:        (0x01)        Error logging supported.
                                            General Purpose Logging supported.
    Short self-test routine
    recommended polling time:          (  1) minutes.
    Extended self-test routine
    recommended polling time:          ( 184) minutes.
    Conveyance self-test routine
    recommended polling time:          (  2) minutes.
    SCT capabilities:                (0x103f)        SCT Status supported.
                                            SCT Feature Control supported.
                                            SCT Data Table supported.

    SMART Attributes Data Structure revision number: 10
    Vendor Specific SMART Attributes with Thresholds:
      1 Raw_Read_Error_Rate    0x000f  114  099  006    Pre-fail  Always      -      68527436
      3 Spin_Up_Time            0x0003  096  096  000    Pre-fail  Always      -      0
      4 Start_Stop_Count        0x0032  100  100  020    Old_age  Always      -      14
      5 Reallocated_Sector_Ct  0x0033  100  100  036    Pre-fail  Always      -      0
      7 Seek_Error_Rate        0x000f  072  060  030    Pre-fail  Always      -      18380343
      9 Power_On_Hours          0x0032  097  097  000    Old_age  Always      -      3203
     10 Spin_Retry_Count        0x0013  100  100  097    Pre-fail  Always      -      0
     12 Power_Cycle_Count      0x0032  100  100  020    Old_age  Always      -      7
    183 Unknown_Attribute      0x0032  100  100  000    Old_age  Always      -      0
    184 Unknown_Attribute      0x0032  100  100  099    Old_age  Always      -      0
    187 Reported_Uncorrect      0x0032  100  100  000    Old_age  Always      -      0
    188 Unknown_Attribute      0x0032  100  100  000    Old_age  Always      -      0
    189 High_Fly_Writes        0x003a  100  100  000    Old_age  Always      -      0
    190 Airflow_Temperature_Cel 0x0022  057  047  045    Old_age  Always      -      43 (Lifetime Min/Max 40/51)
    194 Temperature_Celsius    0x0022  043  053  000    Old_age  Always      -      43 (0 11 0 0)
    195 Hardware_ECC_Recovered  0x001a  024  012  000    Old_age  Always      -      68527436
    197 Current_Pending_Sector  0x0012  100  100  000    Old_age  Always      -      0
    198 Offline_Uncorrectable  0x0010  100  100  000    Old_age  Offline      -      0
    199 UDMA_CRC_Error_Count    0x003e  200  200  000    Old_age  Always      -      0
    240 Head_Flying_Hours      0x0000  100  253  000    Old_age  Offline      -      34175054777498
    241 Unknown_Attribute      0x0000  100  253  000    Old_age  Offline      -      758680211
    242 Unknown_Attribute      0x0000  100  253  000    Old_age  Offline      -      3128674413

    SMART Error Log Version: 1
    No Errors Logged

    SMART Self-test log structure revision number 1
    Num  Test_Description    Status                  Remaining  LifeTime(hours)  LBA_of_first_error
    # 1  Extended offline    Aborted by host              90%      3179        -

    SMART Selective self-test log data structure revision number 1
        1        0        0  Not_testing
        2        0        0  Not_testing
        3        0        0  Not_testing
        4        0        0  Not_testing
        5        0        0  Not_testing
    Selective self-test flags (0x0):
      After scanning selected spans, do NOT read-scan remainder of disk.
    If Selective self-test is pending on power-up, resume after 0 minute delay.

    danthe - 29-04-2010 10:24
    post był za długi więc jeszcze spis jakie procesy korzystają z dysku :

    -kiedy load rósł:
    Kod: TASK                  PID      TOTAL      READ      WRITE      DIRTY DEVICES
    pdflush                482        319          0        319          0 md2, md1
    kjournald            1718        191          0        191          0 md1
    kjournald            3308        51          0        51          0 md2
    md2_raid1            1712        28          0        28          0 sda2, sdb2
    md1_raid1            1716        28          0        28          0 sda1, sdb1
    bash                  2861          2          0          2          0 md1 -podczas testu smart kiedy wszystko było ok:

    Kod: TASK                  PID      TOTAL      READ      WRITE      DIRTY DEVICES
    pdflush                482        971          0        971          0 md2, md1
    kjournald            1718        470          0        470          0 md1
    kjournald            3308        180          0        180          0 md2
    md1_raid1            1716        116          0        116          0 sda1, sdb1
    md2_raid1            1712        100          0        100          0 sda2, sdb2
    bash                21455          2          0          2          0 md1
    cat                  21954          1          1          0          0 md1
    bash                21149          1          1          0          0 md1 i iostat w momencie kiedy load mocno skakał do góry:

    Kod: avg-cpu:  %user  %nice %system %iowait  %steal  %idle
              0,00    0,00    0,06    0,00    0,00  99,94

    Device:        rrqm/s  wrqm/s    r/s    w/s  rsec/s  wsec/s avgrq-sz avgqu-sz  await  svctm  %util
    sda              0,00    0,00    0,00    0,50    0,00    4,00    8,00    2,00 7080,00 2000,00 100,00
    sda1              0,00    0,00    0,00    0,50    0,00    4,00    8,00    1,00 7080,00 2000,00 100,00
    sda2              0,00    0,00    0,00    0,00    0,00    0,00    0,00    1,00    0,00  0,00 100,00
    sda3              0,00    0,00    0,00    0,00    0,00    0,00    0,00    0,00    0,00  0,00  0,00
    sdb              0,00    0,00    0,00    0,50    0,00    4,00    8,00    0,02  40,00  40,00  2,00
    sdb1              0,00    0,00    0,00    0,50    0,00    4,00    8,00    0,02  40,00  40,00  2,00
    sdb2              0,00    0,00    0,00    0,00    0,00    0,00    0,00    0,00    0,00  0,00  0,00
    sdb3              0,00    0,00    0,00    0,00    0,00    0,00    0,00    0,00    0,00  0,00  0,00
    md2              0,00    0,00    0,00    0,00    0,00    0,00    0,00    0,00    0,00  0,00  0,00
    md1              0,00    0,00    0,00    0,00    0,00    0,00    0,00    0,00    0,00  0,00  0,00

    avg-cpu:  %user  %nice %system %iowait  %steal  %idle
              0,12    0,00    0,06    0,00    0,00  99,82

    Device:        rrqm/s  wrqm/s    r/s    w/s  rsec/s  wsec/s avgrq-sz avgqu-sz  await  svctm  %util
    sda              0,00    0,00    0,00    0,00    0,00    0,00    0,00    2,00    0,00  0,00 100,00
    sda1              0,00    0,00    0,00    0,00    0,00    0,00    0,00    1,00    0,00  0,00 100,00
    sda2              0,00    0,00    0,00    0,00    0,00    0,00    0,00    1,00    0,00  0,00 100,00
    sda3              0,00    0,00    0,00    0,00    0,00    0,00    0,00    0,00    0,00  0,00  0,00
    sdb              0,00    0,00    0,00    0,00    0,00    0,00    0,00    0,00    0,00  0,00  0,00
    sdb1              0,00    0,00    0,00    0,00    0,00    0,00    0,00    0,00    0,00  0,00  0,00
    sdb2              0,00    0,00    0,00    0,00    0,00    0,00    0,00    0,00    0,00  0,00  0,00
    sdb3              0,00    0,00    0,00    0,00    0,00    0,00    0,00    0,00    0,00  0,00  0,00
    md2              0,00    0,00    0,00    0,00    0,00    0,00    0,00    0,00    0,00  0,00  0,00
    md1              0,00    0,00    0,00    0,00    0,00    0,00    0,00    0,00    0,00  0,00  0,00
    co do lilo i gruba to nie wiem bo są tutaj pliki konfiguracyjne i jednego i drugiego.

    wsitkowski - 29-04-2010 17:25
    Miałem podobne "jazdy" na początku przygody z OVH - rozwiązaniem była kompilacja własnego krenela. Jeśli jesteś zainteresowany mogę udostępnić Ci na PW kernel który ja stosuję.

    ollerm - 29-04-2010 22:59
    Udostępnij go tutaj. Pewnie przyda się innym.

    danthe, spróbuj zmienić kernel z grsec na standardowy

    wsitkowski - 30-04-2010 15:51
    Jak będzie pomocny dla @danthe to zapodam go w temacie.

    danthe - 02-05-2010 12:57
    niestety nie pomogło więc chyba skończy się reinstalką.

    okazało się że problem leżał jednak po stronie sprzętu, pomogła dopiero wymiana dysku.
