DE202014010886U1

DE202014010886U1 - Programmatic selection of preferred storage parameters for files in large, distributed storage systems

Info

Publication number: DE202014010886U1
Application number: DE202014010886.2U
Authority: DE
Original assignee: Google LLC
Current assignee: Google LLC
Priority date: 2013-09-20
Filing date: 2014-09-22
Publication date: 2017-01-16
Anticipated expiration: 2024-09-23
Also published as: EP3047377A1; WO2015042531A1

Abstract

System zur programmatischen Bestimmung der bevorzugten Speicherparameter für Dateien, die in einem großen, verteilten Speichersystem gespeichert sind, umfassend: ein oder mehrere Verarbeitungsgeräte und ein oder mehrere Speichergeräte, die Anweisungen speichern, dass bei Ausführung durch ein oder mehrere Verarbeitungsgeräte, ein oder mehrere Verarbeitungsgeräte Folgendes tun: das Empfangen der Anforderung zur gewünschten Dateizuverlässigkeit oder -verfügbarkeit; das Empfangen der Systemeigenschaften, die Statistiken zu Systemausfällen in einem Datencenter beinhalten; das Vorhersagen zukünftiger Ausfälle des Speichersystems basierend auf den Statistiken der Systemausfälle; das Empfangen der Dateiverschlüsselungs- oder Replizierungsinformation für mindestens eine Datei im Speichersystem; das Vorhersagen der Dateizuverlässigkeits- und Wartungskosten basierend auf vergangenen Systemversagen und den Informationen zur Dateiverschlüsselung und -replizierung; und das Bestimmen der bevorzugten Speicherparameter für mindestens eine Datei, um die Kosten zu senken und gleichzeitig die gewünschte Dateizuverlässigkeit oder -verfügbarkeit basierend auf der empfangenen Anforderung zu erzielen.A system for programmatically determining the preferred storage parameters for files stored in a large distributed storage system, comprising: one or more processing devices and one or more storage devices storing instructions that when executed by one or more processing devices, one or more processing devices do: receiving the request for desired file reliability or availability; receiving the system properties including statistics on system failures in a data center; predicting future failures of the storage system based on the statistics of the system failures; receiving the file encryption or replication information for at least one file in the storage system; predicting file reliability and maintenance costs based on past system failures and file encryption and replication information; and determining the preferred storage parameters for at least one file to reduce costs while achieving desired file reliability or availability based on the received request.

Description

HINTERGRUNDBACKGROUND

Wie in 1 gezeigte große, verteilte Speichersysteme bieten einen vernetzten Online-Speicher und ermöglichen mehreren Rechengeräten die Speicherung, den Zugriff und das Filesharing über den Online-Speicher. Verteilte Speichersysteme können eine Client-/Server-Architektur verwenden, in der einer oder mehrere zentrale Server Dateien speichern und einen Dateizugriff auf Netzwerk-Clients bereitstellen. Unter Schutz gestellt werden und Gegenstand des Gebrauchsmusters sind dabei, entsprechend den Vorschriften des Gebrauchsmustergesetzes, lediglich Vorrichtungen wie in den beigefügten Schutzansprüchen definiert, jedoch keine Verfahren. Soweit nachfolgend in der Beschreibung gegebenenfalls auf Verfahren Bezug genommen wird, dienen diese Bezugnahmen lediglich der beispielhaften Erläuterung der in den beigefügten Schutzansprüchen unter Schutz gestellten Vorrichtung oder Vorrichtungen.As in 1 Large, distributed storage systems shown provide networked online storage and allow multiple computing devices to store, access, and share their files through online storage. Distributed storage systems may use a client / server architecture in which one or more central servers store files and provide file access to network clients. Be provided under protection and subject of the utility model are, according to the provisions of the utility model law, only devices as defined in the appended claims, but no method. Wherever in the description, if appropriate, reference is made to methods, these references are merely illustrative of the device or devices set forth in the appended claims.

Speichergeräte können Server in einem Datencenter mit Flash, Laufwerken und/oder RAM-Speicher beinhalten und können verschiedene Zugriffsformen auf die Dateien ermöglichen. Einige Speichergeräte bieten beispielsweise einen schnelleren Zugriff auf Dateien oder könnten eine höhere Verfügbarkeit ermöglichen.Storage devices can include servers in a data center with flash, drives, and / or RAM, and can provide various forms of access to the files. For example, some storage devices provide faster access to files or could allow for increased availability.

Datendateien, die in großen, verteilten Speichersystemen gespeichert werden, können sehr groß sein und möglicherweise mehrere Gigabyte in Größe erreichen. Um diese Dateien zu verwalten werden sie in der Regel in Blöcke mit festgelegter Größe unterteilt, wie veranschaulicht in 2a und 2b. Mehrere Datenblöcke können eine Datendatei ausmachen. Code-Blöcke sind zusätzliche Blöcke, die mithilfe einer mathematischen Formel aus den Datenblöcken berechnet werden. Normalerweise, wenn der Nutzer Daten ausliest, die in einem großen, verteilten Speichersystem gespeichert sind, werden diese Daten aus Datenstücken, so genannten systematischen Blöcken, ausgelesen. Wenn einige der Datenblöcke jedoch nicht verfügbar sind, könnte das Speichersystem die Code-Blöcke lesen, um fehlende Datenblöcke per mathematischer Berechnung über die verfügbaren Datenblöcke und Code-Blöcke wiederherzustellen. Die Anzahl an fehlgeschlagener oder nicht verfügbarer Datenblöcke, die wiederhergestellt werden kann, hängt von der Menge der verfügbaren Code-Blöcke und dem verwendeten Verschlüsselungssystem ab. Obwohl 2b zeigt eine Datei, die über Blöcke von einem Byte oder einem Zeichen aufgeteilt ist; in der Regel sind Blöcke ein zusammenhängender Teil einer Datei. Der zusammenhängende Teil könnte beispielsweise das erste 1 MB der Datei sein. Mithilfe einer 4 + 2-Verschlüsselung, ähnlich der aus 2b, könnte ein Streifen 4 MB einer Datendatei umfassen, wobei die Daten über mehrere Blöcke (0–3) verteilt sind und alle Blöcke ein Megabyte der Datei enthalten. Zwei Code-Blöcke können mithilfe einer mathematischen Operation aus Blöcken 0–3 aufgebaut werden. Wenn die Datei größer als 4 MB ist könnte ein zweiter Streifen erstellt werden, der ebenfalls bis zu 4 MB mit zwei Code-Blöcken umfassen kann.Data files stored in large, distributed storage systems can be very large and potentially reach several gigabytes in size. To manage these files, they are typically divided into blocks of a fixed size, as illustrated in 2a and 2 B , Multiple data blocks can make up a data file. Code blocks are additional blocks that are calculated from the data blocks using a mathematical formula. Normally, when the user reads out data stored in a large, distributed storage system, that data is read out of pieces of data, called systematic blocks. However, if some of the data blocks are unavailable, the storage system could read the code blocks to mathematically recalculate missing data blocks over the available data blocks and code blocks. The number of failed or unavailable data blocks that can be recovered depends on the amount of code blocks available and the encryption system used. Even though 2 B shows a file split over blocks of one byte or one character; In general, blocks are a contiguous part of a file. For example, the contiguous part could be the first 1 MB of the file. Using a 4 + 2 encryption, similar to the 2 B For example, a stripe might comprise 4MB of a data file, the data being spread over multiple blocks (0-3) and all blocks containing one megabyte of the file. Two blocks of code can be constructed from blocks 0-3 using a mathematical operation. If the file is larger than 4 MB, a second strip could be created, which can also be up to 4 MB with two blocks of code.

Bei der Speicherung von Dateien in großen, verteilten Speichersystemen, können Blöcke über mehrere Speichergeräte aufgeteilt werden. Dieses Data Striping ist eine Technik zur Zerlegung von logisch sequentiellen Dateien, sodass aufeinanderfolgende Segmente auf verschiedenen physischen Speichergeräten gespeichert werden können. Ein Streifen (Stripe) ist ein Segment einer Datei, die auf ein Speichergerät geschrieben wird. Die Größe jedes Streifens, oder Blocks, kann konfiguriert werden, sodass jedes Speichergerät die maximale Menge an Daten in möglichst kurzer Zeit bereitstellen kann. Die Streifenbreite ist die Anzahl paralleler Streifen, die gleichzeitig geschrieben oder abgelesen werden können. Das Striping eignet sich, wenn ein Client-Gerät Zugriff auf eine Datei fordert, der schneller sein muss als ein einzelnes Speichergerät ermöglichen könnte. Durch das Striping der Datei auf verschiedene Speichergeräte, kann ein Client-Gerät gleichzeitig auf mehrere Dateisegmente zugreifen.When storing files in large, distributed storage systems, blocks can be split across multiple storage devices. This data striping is a technique for decomposing logically sequential files so that consecutive segments can be stored on different physical storage devices. A stripe is a segment of a file that is written to a storage device. The size of each stripe, or block, can be configured so that each storage device can provide the maximum amount of data in as short a time as possible. The stripe width is the number of parallel stripes that can be written or read simultaneously. Striping is useful when a client device requires access to a file that may need to be faster than a single storage device could provide. By striping the file across different storage devices, a client device can simultaneously access multiple file segments.

Neben der Zerlegung in Blöcke und Streifen über mehrere Speichergeräte, können Dateien in einem großen, verteilten Speichersystem auch verschlüsselt werden, um Fehler zu korrigieren, die während der Dateiübertragung oder -speicherung aufgetreten sind. Die Reed-Solomon-Verschlüsselung könnte beispielsweise zusätzliche „redundante” Bits zu den Dateien hinzufügen, die zur Wiederherstellung der Originaldatei verwendet werden könnten, wenn diese Bits während der Dateiübertragung oder Speicherung verloren gehen.In addition to splitting into blocks and stripes across multiple storage devices, files in a large, distributed storage system can also be encrypted to correct errors that occurred during file transfer or storage. For example, Reed-Solomon encryption could add extra "redundant" bits to the files that could be used to restore the original file if those bits are lost during file transfer or storage.

Sobald eine Datei gespeichert ist, können Clients die Datei aus dem großen, verteilten Speichersystem abfragen. Wenn ein Client Zugriff auf eine Datendatei oder einen Teil einer Datendatei anfordert, wird ein großer, verteilter Speichersystemserver mit dem Standort der entsprechenden Datei antworten. In einigen großen Systemen könnte der Client ein Lease der Datei erwerben und dieses Lease halten, bis der Client die Datei wieder freigibt. Obwohl während der Lease-Zeit weiterhin mehrere Lesezugriffe für die Datei erteilt werden können, kann kein anderer Client die Datei beschreiben. Darüber hinaus könnte es wünschenswert sein, wenn mehrere Clients zur gleichen Zeit auf die gleiche Datei zugreifen wollen, die Daten zu replizieren, um ausreichend Leistung für den Zugriff von mehr als einem Client auf diesen speziellen Dateiblock zur gleichen Zeit zu ermöglichen. Zusätzlich oder alternativ können Dateien auch über mehrere Speichergeräte repliziert werden, um eine Verfügbarkeit mehrerer Dateiblöcke zu ermöglichen, selbst wenn eines der Speichergeräte versagt oder nicht verfügbar ist. Die Replizierungsebene eines bestimmten Blocks ist die Anzahl an Speichergeräten, auf denen eine duplizierte Datei gespeichert ist. Ein dreifach replizierter Streifen würde beispielsweise bedeuten, drei Blöcke der exakten Kopien von einander auf drei verschiedene Speichergeräte zu legen. Das Speichern von Dateien auf mehreren Systemen in mehreren Datencentern könnte recht kostspielig sein. Das Speichern von Dateien auf einem einzigen System oder Datencenter könnte jedoch zu Problemen führen, wenn es zu einem Ausfall des Systems oder Datencenters kommt und die Datei nicht verfügbar ist.Once a file is saved, clients can query the file from the large, distributed storage system. When a client requests access to a data file or part of a data file, a large, distributed storage system server will respond with the location of the corresponding file. In some large systems, the client could acquire a lease of the file and hold that lease until the client releases the file. Although multiple read accesses to the file can still be granted during the lease period, no other client can describe the file. In addition, it may be desirable for multiple clients at the same time to access the same file to replicate the data to provide sufficient power to access more than one client for that particular file block To allow time. Additionally or alternatively, files may be replicated across multiple storage devices to allow for multiple file blocks even if one of the storage devices fails or is unavailable. The replication level of a given block is the number of storage devices on which a duplicate file is stored. For example, a triple-replicated strip would mean placing three blocks of the exact copies of each other on three different storage devices. Saving files to multiple systems in multiple datacenters could be quite costly. Saving files to a single system or datacenter, however, could cause problems if the system or datacenter fails and the file is not available.

KURZDARSTELLUNGSUMMARY

Diese Spezifikation beschreibt die Technologien in Verbindung mit der Cloud-Speicherung im Allgemeinen und insbesondere die Verfahren und Systeme zur programmatischen Auswahl bevorzugter Konfigurationsparameter zum Speichern und der Bereitstellung von Dateien in einem großen, verteilten Speichersystem.This specification describes the technologies associated with cloud storage in general and, more particularly, the methods and systems for programmatically selecting preferred configuration parameters for storing and providing files in a large, distributed storage system.

Im Allgemeinen kann ein Aspekt des in dieser Spezifikation beschriebenen Gegenstands in einem System und einem Verfahren zur programmatischen Bestimmung der bevorzugten Speicherparameter für Dateien enthalten sein, die in einem großen, verteilten Speichersystem gespeichert sind. Ein exemplarisches System könnte eines oder mehrere Verarbeitungsgeräte beinhalten, sowie eines oder mehrere Speichergeräte, die Anweisungen zum Ausführen der Schritte eines exemplarischen Verfahrens umfassen. [0007] Ein exemplarisches Verfahren könnte Folgendes beinhalten: Empfang der gewünschten Anforderungen an die Dateizuverlässigkeit oder Verfügbarkeit; Empfang der Systemeigenschaften, die Statistiken zu Systemausfällen in Datencentern beinhalten; die Vorhersage zukünftiger Versagen der Speichersysteme basierend auf den Statistiken der Systemausfälle; Empfang der Informationen zur Dateiverschlüsselung oder Replizierung für mindestens eine Datei im Dateisystem; Vorhersage der Kosten zur Dateizuverlässigkeit und Wartung basierend auf den vorherigen Systemversagen sowie den Informationen zur Dateiverschlüsselung und Replizierung; und Bestimmung der bevorzugten Speicherparameter für mindestens eine Datei, um die Kosten zu senken und gleichzeitig die gewünschte Dateizuverlässigkeit oder -verfügbarkeit basierend auf den empfangenen Anforderungen zu erzielen.In general, one aspect of the subject matter described in this specification may be included in a system and method for programmatically determining the preferred storage parameters for files stored in a large, distributed storage system. An exemplary system could include one or more processing devices, as well as one or more storage devices that include instructions for performing the steps of an exemplary method. An exemplary method could include: receiving the desired file reliability or availability requirements; Receive system properties that include statistics on system failures in data centers; the prediction of future memory system failures based on the statistics of the system failures; Receiving the file encryption or replication information for at least one file in the file system; Predicting file reliability and maintenance costs based on the previous system failure, file encryption and replication information; and determining the preferred storage parameters for at least one file to reduce costs while achieving the desired file reliability or availability based on the requests received.

Ein zweites exemplarisches Verfahren könnte Folgendes beinhalten: Empfang der Anforderungen zur gewünschten Dateizuverlässigkeit oder -verfügbarkeit; Empfang der Systemeigenschaften, die Informationen über das Speichersystem, standortexterne Backups für die Speichersysteme und Dateizugriffsmuster für im Speichersystem gespeicherte Informationen beinhalten; Bestimmung der historischen Zuverlässigkeit des Systems, der Zuverlässigkeit der standortexternen Backups für das Speichersystem und der Zuverlässigkeit von Dateien, die über eine der möglichen Dateiverschlüsselungs- oder Replizierungsebenen im System gespeichert wurden; Vorhersage der zukünftigen Zuverlässigkeit des Systems basierend auf der Bestimmung der Zuverlässigkeit des Speichersystems; Vorhersage der zukünftigen Zuverlässigkeit der Dateien, die im Speichersystem für jede Dateiverschlüsselung- oder Replizierungsebene gespeichert sind; Bestimmung der Wahrscheinlichkeit des Verlusts sowohl des großen Systems als auch des standortexternen Backups mithilfe der vorhergesagten Zuverlässigkeit des Speichersystems und des standortexternen Backups; und Bestimmung eines bevorzugten Speicherparameters für mindestens eine Datei basierend auf der bestimmten Wahrscheinlichkeit zum Verlust von sowohl des Speichersystems als auch des standortexternen Backups, der vorhergesagten Zuverlässigkeit jeder Verschlüsselung- und Replizierungsebene und der empfangen Anforderungen für die gewünschte Dateizuverlässigkeit oder -verfügbarkeit.A second exemplary method could include: receiving requests for desired file reliability or availability; Receiving the system properties including information about the storage system, off-site backups for the storage systems, and file access patterns for information stored in the storage system; Determining the historical reliability of the system, the reliability of off-site storage system backups, and the reliability of files stored in the system through one of the possible file encryption or replication levels; Predicting the future reliability of the system based on the determination of the reliability of the storage system; Predicting the future reliability of the files stored in the storage system for each file encryption or replication level; Determining the likelihood of losing both the large system and the off-site backup using the predicted reliability of the storage system and the off-site backup; and determining a preferred storage parameter for at least one file based on the determined probability of losing both the storage system and the off-site backup, the predicted reliability of each encryption and replication level, and the received requests for the desired file reliability or availability.

Diese und andere Ausführungsformen können als Option eines oder mehrere der folgenden Merkmale beinhalten. Ein Speicherparameter könnte eine Streifenbreite, Streifengröße, eine Verschlüsselungs- oder Replizierungsebene, ein Backup-Zeitplan für große, verteilte Speichersysteme oder ein Standort zum Speichern einer Datei sein. Ein Standort könnte den Ablageort einer Datei auf einem Gerät in einem großen, verteilten Speichersystem definieren, oder der Standort könnte den Ablageort einer Datei auf einem Backup-Gerät eines großen, verteilten Speichersystems definieren. Die Dateieigenschaften können auf einem Dashboard angezeigt werden. Ein Nutzer könnte über einen bevorzugten Speicherparameter informiert werden. Ein erstellter, bevorzugter Speicherparameter könnte zur Speicherung einer Datei mit oder ohne Zustimmung des Nutzers verwendet werden.These and other embodiments may optionally include one or more of the following features. A storage parameter could be a stripe width, stripe size, an encryption or replication level, a backup schedule for large, distributed storage systems, or a location for storing a file. A location could define the location of a file on a device in a large, distributed storage system, or the location could define the location of a file on a backup device of a large, distributed storage system. The file properties can be viewed on a dashboard. A user could be informed of a preferred storage parameter. A created, preferred storage parameter could be used to store a file with or without the user's consent.

Im Allgemeinen kann ein Aspekt des in dieser Spezifikation beschriebenen Gegenstands in einem System und einem Verfahren zur programmatischen Bestimmung der bevorzugten Speicherparameter für Dateien enthalten sein, die in einem großen, verteilten Speichersystem gespeichert sind. Ein exemplarisches System könnte eines oder mehrere Verarbeitungsgeräte beinhalten, sowie eines oder mehrere Speichergeräte, die Anweisungen zum Ausführen der Schritte eines exemplarischen Verfahrens umfassen. Ein exemplarisches Verfahren könnte Folgendes beinhalten: Empfang von Trace-Daten, die den Zugriff auf Informationen über Dateien darstellen, die in großen, verteilten Speichersystemen gespeichert sind; Analyse der Trace-Daten zur Identifizierung von Dateizugriffsmustern; Empfang der Metadateninformationen in Verbindung mit den Daten, die im großen, verteilten Speichersystem gespeichert sind; und Erstellung eines bevorzugten Speicherparameters für mindestens eine der Dateien basierend auf den empfangenden Informationen und identifizierten Dateizugriffsmustern.In general, one aspect of the subject matter described in this specification may be included in a system and method for programmatically determining the preferred storage parameters for files stored in a large, distributed storage system. An exemplary system could include one or more processing devices, as well as one or more storage devices that include instructions for performing the steps of an exemplary method. An exemplary method could include receiving trace data that provide access to information about files stored in large, distributed storage systems; Analysis of trace data to identify file access patterns; Receiving the metadata information associated with the data stored in the large distributed storage system; and creating a preferred storage parameter for at least one of the files based on the receiving information and identified file access patterns.

Diese und andere Ausführungsformen können zusätzlich eine oder mehrere der folgenden Funktionen beinhalten: mindestens eine Eigenschaft eines Speichersystems könnte zusätzlich zu den empfangenen Informationen und identifizierten Dateizugriffsmustern erhalten und verwendet werden, um einen bevorzugten Speicherparameter zu erstellen; eine Systemeigenschaft könnte eine Systemausfallhistorie, Wartungsausfallhistorie oder Zeitplan, eine Systemgerätverfügbarkeit, Systemgeräteleistung oder I/O-Kapazität sein; und eine Anforderung an die Dateizuverlässigkeit und Verfügbarkeit kann zusätzlich zu den erhaltenen Informationen und identifizierten Dateizugriffsmustern empfangen und genutzt werden, um einen bevorzugten Speicherparameter zu erstellen. Die Analyse der Trace-Daten zur Identifizierung der Dateizugriffsmuster könnte den Empfang von Trace-Daten für eine Teilmenge an Dateien in einem großen, verteilten Speichersystem; die Bestimmung der Eigenschaften der Teilmenge; und die Beurteilung der Verteilung der Eigenschaften für die Dateien in dem großen, verteilten Speichersystem beinhalten, basierend auf den bestimmten Eigenschaften der Teilmenge. Eine Eigenschaft für die Dateien könnte das Alter jeder Datei zum Zeitpunkt des letzten Zugriffs auf die Datei sein. Erstellen eines bevorzugten Speicherparameters für mindestens eine Datei könnte die Definition mindestens einer Dateigruppe basierend auf den identifizierten Dateizugriffsmustern, das Erstellen eines bevorzugten Speicherparameters für die Eigenschaften der Dateigruppe; und die Verwendung der erstellten Speicherparameter zur Speicherung von mindestens einer Datei in Verbindung mit der Dateigruppe beinhalten. Metadateninformationen in Verbindung mit der Datei können zusammen mit Informationen zur Dateizuverlässigkeit oder -verfügbarkeit der Datei erhalten werden. Diese Informationen können mit den Informationen einer definierten Dateigruppe im großen, verteilten Speichersystem verglichen werden. Wenn die Dateiinformationen den Informationen einer definierten Dateigruppe entsprechen, wird die Datei mit den Speicherparametern dieser entsprechenden Dateigruppe gespeichert. Wenn die Dateiinformationen nicht den Informationen einer definierten Dateigruppe entsprechen, wird eine neue Dateigruppe erstellt, basierend auf den Dateiinformationen, und die bevorzugten Speicherparameter können für die neue Dateigruppe auf Basis der Eigenschaften der Dateigruppe erstellt werden. Vor der Implementierung einer Dateigruppenrichtlinie für die Zuweisung von Speicherparametern zu Dateien basierend auf den generierten, bevorzugten Speicherparametern für eine neue Dateigruppe ist die Zustimmung des Nutzers erforderlich. Speicherparameter könnten Folgendes beinhalten: Streifenbreite, Streifengröße, Verschlüsselungs- oder Replizierungsebene, einen Backup-Zeitplan oder einen Standort. Ein Standort könnte den Ablageort einer Datei auf einem Gerät in einem großen, verteilten Speichersystem definieren, oder der Standort könnte den Ablageort einer Datei auf einem Backup-Gerät eines großen, verteilten Speichersystems definieren. Die Eigenschaften der Dateigruppe können auf einem Dashboard angezeigt werden und ein Benutzer könnte über die bevorzugten Speicherparameter informiert werden. Ein erstellter, bevorzugter Speicherparameter könnte automatisch oder nach Einverständnis des Nutzers zur Speicherung einer Datei verwendet werden. Ein Nutzer kann informiert werden, dass die Anwendung der bevorzugten Speicherparameter die Kosten der Dateispeicherung verbessert. Bevorzugte Speicherparameter können für eine Vielzahl an Dateien erstellt werden und Nutzer können über die bevorzugten Parameter für eine Teilmenge der gesamten Dateien informiert werden, wobei die Anwendung der bevorzugten Speicherparameter die Verfügbarkeit, Zuverlässigkeit oder Speicherkosten von Dateien verbessern würde.These and other embodiments may additionally include one or more of the following functions: at least one property of a memory system could be obtained in addition to the received information and identified file access patterns and used to create a preferred memory parameter; a system property could be a system failure history, maintenance failure history or schedule, system equipment availability, system equipment performance, or I / O capacity; and a file reliability and availability requirement may be received and used in addition to the obtained information and identified file access patterns to create a preferred storage parameter. Analyzing the trace data to identify the file access patterns could include receiving trace data for a subset of files in a large, distributed storage system; the determination of the properties of the subset; and assessing the distribution of the properties for the files in the large distributed storage system based on the particular properties of the subset. A property for the files could be the age of each file at the time of the last access to the file. Creating a preferred storage parameter for at least one file could be the definition of at least one fileset based on the identified file access patterns, creating a preferred storage parameter for the fileset properties; and include using the created storage parameters to store at least one file associated with the fileset. Metadata information associated with the file can be obtained along with file reliability or file availability information. This information can be compared to the information of a defined filegroup in the large, distributed storage system. If the file information matches the information of a defined filegroup, the file is saved with the storage parameters of that filegroup. If the file information does not match the information of a defined filegroup, a new filegroup is created based on the file information, and the preferred storage parameters can be created for the new filegroup based on the filegroup properties. Before implementing a filegroup policy for allocating storage parameters to files based on the generated preferred storage parameters for a new filegroup, the user's consent is required. Storage parameters could include: stripe width, stripe size, encryption or replication level, a backup schedule, or a location. A location could define the location of a file on a device in a large, distributed storage system, or the location could define the location of a file on a backup device of a large, distributed storage system. The properties of the fileset may be displayed on a dashboard, and a user may be notified of the preferred storage parameters. A created, preferred storage parameter could be used automatically or, upon the user's consent, to store a file. A user may be informed that the application of preferred storage parameters improves the cost of file storage. Preferred storage parameters can be created for a variety of files, and users can be informed of the preferred parameters for a subset of the entire files, with the application of preferred storage parameters improving the availability, reliability, or memory cost of files.

Die Einzelheiten von einer oder mehreren Ausführungsformen der Erfindung sind in den begleitenden Zeichnungen dargelegt, die der Veranschaulichung dienen, sowie in der nachstehenden Beschreibung. Andere Merkmale, Aspekte und Vorteile der Erfindung werden aus der Beschreibung, den Zeichnungen und den Ansprüchen deutlich. Entsprechende Referenznummern und Kennzeichnungen in den verschiedenen Zeichnungen zeigen entsprechende Elemente an.The details of one or more embodiments of the invention are set forth in the accompanying drawings, which are given by way of illustration, and in the description below. Other features, aspects and advantages of the invention will be apparent from the description, drawings and claims. Corresponding reference numbers and markings in the various drawings indicate corresponding elements.

KURZBESCHREIBUNG DER ZEICHNUNGENBRIEF DESCRIPTION OF THE DRAWINGS

1 ist ein Blockdiagramm, das eine Beispielkonfiguration eines großen, verteilten Speichersystems darstellt. 1 FIG. 10 is a block diagram illustrating an example configuration of a large distributed storage system. FIG.

2a ist ein Blockdiagramm, das ein Beispiel von Blockdateien darstellt. 2a is a block diagram illustrating an example of block files.

2b ist ein Blockdiagramm, das ein Beispiel von Blockdateien darstellt. 2 B is a block diagram illustrating an example of block files.

3 ist ein Flussdiagramm eines exemplarischen Verfahrens zur programmatischen Erstellung bevorzugter Speicherparameter für Dateien, die in großen, verteilten Speichersystemen gespeichert sind. 3 FIG. 10 is a flow chart of an exemplary method for programmatically creating preferred storage parameters for files stored in large, distributed storage systems.

4 ist ein Flussdiagramm eines exemplarischen Verfahrens zur Analyse der Trace-Daten zur Identifizierung der Dateizugriffsmuster in einem großen, verteilten Speichersystem. 4 FIG. 10 is a flowchart of an exemplary method of analyzing the trace data to identify the file access patterns in a large, distributed storage system.

5 ist ein Flussdiagramm eines exemplarischen Verfahrens zur Bestimmung der bevorzugten Speicherparameter für Dateien, die in großen, verteilten Speichersystemen gespeichert sind. 5 FIG. 10 is a flowchart of an exemplary method for determining the preferred storage parameters for files stored in large, distributed storage systems.

6 ist ein Flussdiagramm eines exemplarischen Verfahrens zur Bestimmung der bevorzugten Speicherparameter für Dateien, die in großen, verteilten Speichersystemen gespeichert sind. 6 FIG. 10 is a flowchart of an exemplary method for determining the preferred storage parameters for files stored in large, distributed storage systems.

7 ist ein Blockdiagramm, das ein Beispiel eines Datencenters darstellt. 7 is a block diagram illustrating an example of a data center.

8 ist ein Blockdiagramm, das ein beispielhaftes Rechengerät darstellt. 8th is a block diagram illustrating an example computing device.

DETAILLIERTE BESCHREIBUNGDETAILED DESCRIPTION

Replizierung, Verschlüsselungsebene, Streifenbreite, Streifenlänge, Zeitplan des Speichersystem-Backup und Dateistandort sind alles konfigurierbare Speicherparameter, die sich im Sinne von Dateizugriff und Abfrage auf die Leistung des großen, verteilten Speichersystems auswirken können. Große, verteilte Speichersysteme sollten diese Parameter zum Speichern von Dateien verwenden, sodass die Systemressourcen optimiert und die Dateien so effektiv und schnell wie möglich abgefragt werden können.Replication, encryption level, stripe width, stripe length, storage system backup schedule, and file location are all configurable storage parameters that can affect the performance of the large, distributed storage system in terms of file access and query. Large, distributed storage systems should use these parameters to store files, so that system resources can be optimized and files can be retrieved as effectively and quickly as possible.

Die Optimierung großer, verteilter Speichersysteme könnte den Ausgleich der Kosten des Dateizugriffs, der allgemeinen Systemleistung und der Verfügbarkeit und Zuverlässigkeit von Dateien beinhalten. Die Optimierung könnte durch Veränderung der Dateispeicherungsparameter erzielt werden, einschließlich von Replizierung, Verschlüsselungsebene, Dateistreifenbreite, Streifengröße, Zeitplan des Speichersystem-Backups und Dateistandort basierend auf Faktoren wie den Dateieigenschaften und den Eigenschaften des Speichersystems.Optimizing large, distributed storage systems might involve balancing the cost of file access, overall system performance, and the availability and reliability of files. Optimization could be achieved by changing the file storage parameters, including replication, encryption level, file strip width, stripe size, storage system backup schedule, and file location based on factors such as file properties and storage system properties.

Obwohl kundenspezifische Systeme es Anwendungsentwicklern ermöglichen, Parameter zur Dateispeicherung auszuwählen, verstehen Anwendungsentwickler möglicherweise nicht die bevorzugten Speicherparameter, die ausgewählt werden sollen, oder sind sich nicht über die Interaktionsformen von Speicherparametern bewusst. Aspekte von innovativen Konzepten können bevorzugte Speicherparameter für einen bestimmten Satz an Dateien oder eine Arbeitslast in einem verteilten Speichersystem automatisch oder programmatisch auswählen oder empfehlen, basierend auf den Eigenschaften der Datei und/oder des Speichersystems, um das große Speichersystem zu optimieren.Although custom systems allow application developers to select file storage parameters, application developers may not understand the preferred storage parameters to select or are unaware of how storage parameters interact. Aspects of innovative concepts may automatically or programmatically select or recommend preferred storage parameters for a particular set of files or workload in a distributed storage system based on the characteristics of the file and / or the storage system to optimize the large storage system.

Insbesondere beim Versuch der Optimierung eines großen Speichersystems, sind die Art der Dateien, die das System speichert, sowie die Dateizugriffsmuster von Bedeutung. Die Dateiart kann angegeben werden, indem die Metadaten in Verbindung mit den Dateien analysiert werden. Metadaten können Dateieigenschaften wie Dateigröße, Dateiname, Dateialter und tatsächliche Art der Datei enthalten.In particular, when attempting to optimize a large storage system, the type of files the system stores and the file access patterns are important. The file type can be specified by parsing the metadata associated with the files. Metadata can include file properties such as file size, file name, file age, and actual file type.

Eine exemplarische Ausführungsform könnte die Telemetrie- oder Überwachungssysteme verwenden, um Telemetrie- und/oder Systemüberwachungsdaten zu erhalten (nachstehend Trace-Daten genannt). Diese erhaltenen Trace-Daten können zur Identifizierung der Dateizugriffsmuster für Dateien verwendet werden, die auf großen, verteilten Speichersystemen gespeichert sind. Überwachungssysteme könnten ein exemplarisches Speichersystem mit Trace-Daten in Log-Dateien oder anderen Formaten versorgen. Individuelle Ereignisse und Abfolgen von Ereignissen mit Zeitstempel in zeitlicher Abfolge, so genannte Traces, können in den Trace-Logdateien erfasst werden. Trace-Daten können Informationen über den Dateizugriff in einem großen Speichersystem beinhalten, wie Lese- und Schreibzugriffe, Aktualisierungen, Benutzer oder Anwendungen, die auf eine Datei zugreifen, die Häufigkeit des Dateizugriffs, die Dauer des Dateizugriffs, die Abfolge, in der auf verschiedene Teile der Datei zugegriffen wird, der Nutzer oder die Anwendung, die zuletzt auf die Datei zugegriffen hat und das Datum, an dem auf die Datei zuletzt mit anderen Informationen zugegriffen wurde.An exemplary embodiment could use the telemetry or monitoring systems to obtain telemetry and / or system monitoring data (hereafter referred to as trace data). These obtained trace data can be used to identify file access patterns for files stored on large, distributed storage systems. Surveillance systems could provide an exemplary storage system with trace data in log files or other formats. Individual events and sequences of events with timestamp in chronological order, so-called traces, can be recorded in the trace log files. Trace data may include information about file access in a large memory system, such as read and write access, updates, users or applications accessing a file, the frequency of file access, the length of file access, the sequence in which different parts the file being accessed, the user or application that last accessed the file, and the date the file was last accessed with other information.

Trace-Daten können von einem exemplarischen Speichersystem verwendet werden, um Dateizugriffsmuster für einzelne Dateien oder Abfolgen von Dateizugriffen zu bestimmen. Die Abfolge, in der auf Daten zugegriffen wird, könnte nützlich für die Caching-Analyse sein, die beispielsweise bei der Bestimmung helfen könnte, ob die Speicherung von Dateien auf einem Server mit erheblichem RAM-Cache oder auf einem Flash-Speicher bevorzugt ist. Ein exemplarisches Verfahren zur Erstellung bevorzugter Speicherparameter für Dateien, die in großen, verteilten Speichersystemen gespeichert sind, könnte mit dem Erhalt von Trace-Daten beginnen, die Zugriffsinformationen über Dateien darstellen, die in dem großen, verteilten Speichersystem gespeichert sind, wie in 3 (301) erörtert. Die Trace-Daten können analysiert werden, um die Dateizugriffsmuster zu identifizieren (303). Das System könnte auch Metadateninformationen in Verbindung mit den Dateien erhalten, die in dem großen, verteilten Speichersystem (304) gespeichert sind. Ein bevorzugter Speicherparameter könnte dann für mindestens eine der Dateien erstellt werden, basierend auf den erhaltenen Informationen und den identifizierten Dateizugriffsmustern (305).Trace data may be used by an exemplary storage system to determine file access patterns for individual files or sequences of file accesses. The sequence of accessing data might be useful for caching analysis, which could help determine, for example, whether storage of files on a server with significant RAM cache or on flash memory is preferred. An exemplary method of creating preferred storage parameters for files stored in large, distributed storage systems might begin with the receipt of trace data representing access information about files stored in the large distributed storage system, as in FIG 3 ( 301 ) discussed. The trace data can be analyzed to identify the file access patterns ( 303 ). The system could also obtain metadata information associated with the files that are stored in the large, distributed storage system ( 304 ) are stored. A preferred storage parameter could then be created for at least one of the files based on the obtained one Information and the identified file access patterns ( 305 ).

In einigen Ausführungsformen beinhaltet die Analyse von Trace-Daten zur Identifizierung der Dateizugriffsmuster auch den Empfang von Trade-Daten für eine Teilmenge der Dateien des großen, verteilten Speichersystems. Damit kann eine Eigenschaft der Teilmenge bestimmt werden. Ein exemplarisches System kann anschließend die Verteilung der Eigenschaften oder die Eigenschaften selbst für die Dateien in dem großen, verteilten Speichersystem beurteilen, basierend auf der für die Teilmenge bestimmten Eigenschaft. Beispielsweise könnte das Alter jeder Datei zum Zeitpunkt des letzten Zugriffs auf die Datei basierend auf einer Teilemenge an Speichersystemdateien beurteilt werden. 4 zeigt, dass ein exemplarisches Verfahren mithilfe der Zugriffsmuster von einer Teilmenge der Dateipopulation (401) Trace-Daten analysieren kann, um Dateizugriffsmuster zur Berechnung des beurteilten Alters einer Datei aus der Teilmenge zu identifizieren, als zum letzten Mal auf die Datei zugegriffen wurde (402). Das geschätzte Zugriffsalter jeder Datei aus der Teilmenge kann verwendet werden, um die Verteilung des Alters abzuleiten, zu dem zuletzt auf eine Datei aus der gesamten Dateipopulation zugegriffen wurde (403). Diese Verteilung kann zur Identifizierung des Zugriffsmusters einer Datei basierend auf dem Alter der Datei und der bestimmten Verteilung genutzt werden (404).In some embodiments, analyzing trace data to identify the file access patterns also includes receiving trade data for a subset of the files of the large, distributed storage system. This allows a property of the subset to be determined. An exemplary system may then judge the distribution of the properties or the properties even for the files in the large distributed storage system, based on the property intended for the subset. For example, the age of each file at the time of the most recent access to the file could be assessed based on a subset of storage system files. 4 shows that an exemplary method using the access patterns of a subset of the file population ( 401 ) Analyze trace data to identify file access patterns for calculating the rated age of a file from the subset when the file was last accessed ( 402 ). The estimated access age of each file from the subset can be used to derive the distribution of the age at which a file from the entire file population was last accessed ( 403 ). This distribution can be used to identify the access pattern of a file based on the age of the file and the particular distribution ( 404 ).

Telemetrie- und/oder Überwachungssysteme können auch ein exemplarisches System bereitstellen, mit Informationen in Bezug auf die Eigenschaften des großen, verteilten Speichersystems. In einer Ausführungsform könnte ein exemplarisches Verfahren mindestens eine Speichersystemeigenschaft empfangen und diese Speichersystemeigenschaft zusätzlich zu anderen erhaltenen Informationen und identifizierten Dateizugriffsmustern nutzen, um den bevorzugten Speicherparameter zu generieren. Speichersystemeigenschaften könnten die Verfügbarkeit, Kapazität und Leistung von Speichergeräten beinhalten, einschließlich von Servern in einem großen, verteilten Speichersystem. Eine exemplarische Ausführungsform könnte Statistiken über die Geräteausfälle und die Zuverlässigkeit von Speichergeräten in einem Speichersystem sowie von standortexternen Backups einholen. Standortexterne Backups könnten sekundäre Instanzen eines verteilten Speichersystems sein, das in anderen Datencentern als dem Datencenter liegt, in dem sich das primäre, verteilte Speichersystem befindet. Ein standortexternes Backup könnten auch standortexterne Kühlspeichergeräte sein. Ein bevorzugtes Speichersystem könnte der Standort der Datei im großen, verteilten Speichersystem sein. Der Standort könnte die Bestimmung eines Gerätes in einem großen, verteilten Speichersystem beinhalten, auf dem eine Datei gespeichert werden soll; oder die Bestimmung der Dateiablage auf einem Backup-Gerät des großen, verteilten Speichersystems. Alternativ könnte ein bevorzugter Speicherparameter ein Backup-Zeitplan sein, der bestimmt, wie häufig Daten des großen, verteilten Systems auf den Backup-Systemen gespeichert werden und ob es sich dabei um vollständige oder inkrementelle Backups handelt.Telemetry and / or surveillance systems may also provide an exemplary system with information regarding the characteristics of the large, distributed storage system. In one embodiment, an exemplary method could receive at least one storage system property and use that storage system property in addition to other received information and identified file access patterns to generate the preferred storage parameter. Storage system properties could include the availability, capacity, and performance of storage devices, including servers in a large, distributed storage system. An exemplary embodiment could obtain statistics on device failures and reliability of storage devices in a storage system as well as off-site backups. Off-site backups could be secondary instances of a distributed storage system located in datacenters other than the data center where the primary distributed storage system resides. A site-external backup could also be site-external cooling storage devices. A preferred storage system could be the location of the file in the large, distributed storage system. The location could include determining a device in a large, distributed storage system to which a file is to be stored; or determining file storage on a backup device of the large, distributed storage system. Alternatively, a preferred storage parameter could be a backup schedule that determines how often data from the large, distributed system is stored on the backup systems and whether these are full or incremental backups.

Eine exemplarische Ausführungsform könnte die gewünschten Anforderungen an die Dateizuverlässigkeit und -verfügbarkeit als Eingabe durch einen Nutzer oder eine Anwendung erhalten. Ein exemplarisches System müsste eventuell verstehen können, ob die Datei einen extrem zuverlässigen Zugriff benötigt oder ob eine gewisse Ausfallwahrscheinlichkeit zulässig ist. Die Anforderung an die Dateiverfügbarkeit oder -zuverlässigkeit könnte zusammen mit anderen erhaltenen Informationen oder identifizierten Dateizugriffsmustern verwendet werden, um einen bevorzugten Speicherparameter zu erstellen.An exemplary embodiment could obtain the desired file reliability and availability requirements as input by a user or an application. An exemplary system might need to understand if the file requires extremely reliable access or if some probability of failure is allowed. The file availability or reliability requirement could be used along with other received information or identified file access patterns to create a preferred storage parameter.

Trace-Daten von Überwachungssystemen könnten Informationen bereitstellen, sodass ein exemplarisches System Namensmuster und/oder andere Gruppenarten für Dateien von einer bestimmten Anwendung oder einem Prozess bestimmen kann. Namensmuster können mit anderen Dateieigenschaften kombiniert werden, sowie dem aktuellen Nutzer oder der Anwendung, die auf die Datei zugreift, der Tageszeit, zu der die Datei erstellt wurde, ob der Benutzer oder die Anwendung eine Verschlüsselungs- oder Replizierungsebene vorgegeben haben, die Verschlüsselungs- oder Replizierungsebene, sofern eine verwendet wird, und/oder die Berechtigungen in Verbindung mit der Datei. Dateieigenschaften und/oder Dateizugriffsmuster können verwendet werden, um Dateien zu finden, die zusammen gruppiert werden könnten. Die Gruppierung könnte manuell oder per maschineller Lernklassifizierung oder Clustering-Algorithmus erfolgen.Monitoring system trace data could provide information so that an exemplary system can determine name patterns and / or other types of files for files from a particular application or process. Naming patterns can be combined with other file properties, such as the current user or application accessing the file, the time of day the file was created, whether the user or application specified an encryption or replication level, encryption or encryption Replication level, if one is used, and / or the permissions associated with the file. File properties and / or file access patterns can be used to find files that could be grouped together. The grouping could be done manually or by machine learning classification or clustering algorithm.

Zwei Techniken zur Gruppierung von Dateien sind: (1) Klassifizierung von Dateien und (2) Clustering von Dateien. Die Klassifizierung beinhaltet das Gruppieren von Dateien basierend auf bekannten Kriterien, wie bestimmten Metadatenfunktionen. Clustering beinhaltet das Gruppieren von Dateien mit ähnlichen Zugriffsmustern oder Eigenschaften. Eine Anzahl an Eigenschaften kann zum Clustering von Dateien verwendet werden. Ein Beispiel einer Clustering-Technik ist „k-means”, es gibt aber auch viele andere Klassifizierungen des maschinellen Lernens und Clustering-Techniken zum Data-Mining. Diese Technik kann zum Clustering von Dateien in k-Gruppen mit ähnlichen Eigenschaften verwendet werden, indem heuristische Funktionen erstellt werden, die den Abstand zwischen Dateien basierend auf den Eigenschaften definieren. Klassifizierungstechniken, wie „Klassifizierungsbäume” oder „Regressionsbäume” könnten verwendet werden, um Dateigruppen zu bilden, die laut Voraussage einige Eigenschaften auf Basis der zuvor gesehenen Muster haben könnten. Gruppen an Dateien können laut Vorhersage beispielsweise für einen Zeitraum von drei Monaten einem intensiven Zugriff unterliegen, der anschließend vollständig aufhört, da diese Zugriffsmuster für diese Dateigruppe in der Vergangenheit beobachtet wurden. Der Regressionsbaum-Klassifikator könnte einige Dateien erhalten, die dieses Zugriffsmuster haben, sowie andere, die dieses Muster nicht haben. Der Klassifikator kann anschließend mit einem Kriterium aufkommen, das dieses Zugriffsmusterverhalten von vornherein vorhersagen kann.Two techniques for grouping files are: (1) classifying files and (2) clustering files. Classification involves grouping files based on known criteria, such as specific metadata functions. Clustering involves grouping files with similar access patterns or properties. A number of properties can be used to cluster files. An example of a clustering technique is "k-means", but there are many other classifications of machine learning and clustering techniques for data mining. This technique can be used to cluster files in k groups with similar properties by creating heuristic functions that define the distance between files based on their properties. Classification techniques, such as classification trees or Regression trees "could be used to form filesets that predicted to have some properties based on the patterns previously seen. For example, groups of files may be subject to intensive access for a period of three months, which will then cease altogether, as these access patterns for this filegroup have been observed in the past. The regression tree classifier could get some files that have this access pattern, as well as others that do not have this pattern. The classifier can then come up with a criterion that can predict this access pattern behavior from the outset.

Dateien können in bestimmte Kategorien klassifiziert werden, einschließlich: (1) wichtig, häufig zugegriffene Dateien mit hohen Verfügbarkeits- und geringen Latenzanforderungen; (2) wichtig, selten zugegriffene Dateien mit hohen Verfügbarkeitsanforderungen aber ohne Latenzanforderungen; (3) unwichtig, häufig zugegriffene Dateien; und (4) unwichtig, selten zugegriffene Dateien. Dateien können mithilfe der Dateimetadaten und/oder Dateizugriffsmuster gruppiert werden. Diese Gruppen können mit den bevorzugten Speicherparametern in Verbindung gesetzt werden. Eine Anforderung für eine hohe Dateiverfügbarkeit könnte beispielsweise eine größere Streifenbreit der Dateidaten abbilden, die eine höhere Redundanz im Fall von Speichergerätversagen bieten. Geringe Latenzanforderungen für eine Datei können eine höhere Replizierungsebene der Dateidaten abbilden, anstelle einer Reed-Solomon-Verschlüsselung, die zwar Redundanz bietet aber Rechenleistung erfordert und somit die Latenz erhöht, um fehlende Daten im Falle eines Speichergeräteversagens wiederherstellen zu können. Eine Kategorie für selten zugegriffene, unwichtige Dateien könnte auf Verschlüsselungsmöglichkeiten mit geringeren Replizierungskosten hinweisen, um die Kosten der Dateispeicherung zu senken. Eine Datei könnte beispielsweise über mehrere Datencenter auf verschiedenen Kontinenten repliziert werden. Auf die Datei könnte mehrfach aus jedem Kontinent zugegriffen werden. Der Zugriff auf eine Datei aus verschiedenen Kontinenten ist teuer, sodass die Replizierung Sinn macht. Sobald die Zugriffsraten für eine Datei zurückgehen, oder bestimmt werden kann, das der Zugriff auf eine bestimmte Datei gering sein wird, kann die Datei in den Datencentern zur Reed Solomon-Verschlüsselung verschoben werden. Diese Verschlüsselung erhält eine Verfügbarkeit, selbst wenn ein Datencenter nicht verfügbar ist; das führt zu höheren Kosten pro Zugriff aber geringeren Speicherkosten.Files can be classified into specific categories, including: (1) important, frequently accessed files with high availability and low latency requirements; (2) important, infrequently accessed files with high availability requirements but no latency requirements; (3) unimportant, frequently accessed files; and (4) unimportant, infrequently accessed files. Files can be grouped using the file metadata and / or file access patterns. These groups can be associated with the preferred memory parameters. For example, a high file availability requirement could map a larger stripe width of file data that provides greater redundancy in the case of storage device failure. Low latency requirements for a file may reflect a higher replication level of file data, rather than Reed-Solomon encryption, which, while providing redundancy, requires computational power and thus increases latency to recover missing data in the event of a storage device failure. A category of infrequently accessed, unimportant files could indicate encryption capabilities with lower replication costs to reduce the cost of file storage. For example, a file could be replicated across multiple datacenters on different continents. The file could be accessed multiple times from each continent. Accessing a file from different continents is expensive, so replication makes sense. As soon as the access rates for a file go down, or it can be determined that access to a particular file will be low, the file in the data centers can be moved to Reed Solomon encryption. This encryption gets availability even if a datacenter is not available; this leads to higher costs per access but lower storage costs.

Dateien können auch in Gruppen mit ähnlichen Zugriffseigenschaften geclustert werden. In Abhängigkeit mit dem Nutzer oder der Anwendung, die auf eine bestimmte Datei zugreift, könnte es Muster in der Dateinutzung geben. In einer elektronischen Anwendung zum Aufbau von Büchern könnte es beispielsweise eine Reihe an Text- und Bilddateien geben, die letztendlich zur Vermarktung in ein eBook-Format, wie *.epub, konvertiert werden. Nach der Konvertierung wird nur noch selten auf die Originaldateien zugegriffen. Ähnlich könnte eine Datenbank, die auf einem großen, verteilten Speichersystem läuft, Zwischenformate von Dateien mit bestimmten, erkennbaren Namensmustern speichern. Diese Dateien können nach der Erstellung nur für einen beschränkten Zeitraum verwendet werden, aber während dieses Zeitraums könnte es zu einer intensiven Nutzung kommen. Clustering beinhaltet die Auswahl einer Funktion oder eines Funktionssatzes, auf dem die Dateien gruppiert oder geclustert werden. Zugriffsmuster für eine bestimmte Datei im Cluster können basierend auf den bestimmten Zugriffsmustern anderer Dateien des Clusters beurteilt werden. Bevorzugte Speicherparameter, wie die Verschlüsselungs- oder Replizierungsebene und der Standort werden basierend auf den beurteilten Zugriffsmustern bestimmt, sowie auf Systemeigenschaften, wie Serverzuverlässigkeit und Geschwindigkeit.Files can also be clustered in groups with similar access properties. Depending on the user or application accessing a particular file, there might be patterns in file usage. For example, in an electronic book-building application, there could be a number of text and image files that will eventually be converted into an eBook format, such as * .epub, for marketing. After conversion, the original files are rarely accessed. Similarly, a database running on a large, distributed storage system could store intermediate formats of files with certain recognizable name patterns. These files may be used for a limited period of time after creation, but intensive use may occur during this period. Clustering involves selecting a function or set of functions to group or cluster the files into. Access patterns for a particular file in the cluster can be assessed based on the particular access patterns of other files in the cluster. Preferred storage parameters such as encryption or replication level and location are determined based on the assessed access patterns, as well as system properties such as server reliability and speed.

Eine Anwendung könnte zum Beispiel mehrere temporäre Dateien während der Ausführung erstellen, die alle in einem großen, verteilten Speichersystem gespeichert sind. Diese temporären Dateien können mit dem Präfix „TEMP.” versehen werden. Mithilfe von Trace-Daten aus dem Überwachungssystem könnte ein exemplarisches Speichersystem die Trace-Daten analysieren und bestimmen, dass diese temporären Dateien während der Anwendungsausführung verwendet werden können. Sobald die Anwendung jedoch mit der Ausführung fertig ist, werden die temporären Dateien nicht länger gebraucht. Trace-Daten können ein exemplarisches System darüber informieren, dass temporäre Dateien nach ihrer Erstellung nur für einen bestimmten Zeitraum verwendet werden, aber dass die Nutzung in diesem beschränkten Zeitraum häufig sein könnte. Temporäre Dateien können beispielsweise häufig an dem Tag verwendet werden, an dem sie erstellt wurden, aber werden nach diesem Tag möglicherweise nie wieder verwendet. Die Anwendung könnte die temporären Dateien jedoch möglicherweise nicht aus dem Speichersystem löschen.For example, an application might create multiple temporary files during execution, all stored in a large, distributed storage system. These temporary files can be prefixed with "TEMP.". Using trace data from the monitoring system, an exemplary storage system could analyze the trace data and determine that these temporary files can be used during application execution. However, once the application finishes running, the temporary files are no longer needed. Trace data may inform an exemplary system that temporary files will only be used for a certain period of time after they are created, but that use in that limited time period may be common. For example, temporary files can often be used on the day they were created, but they may never be used again after that day. However, the application might not be able to delete the temporary files from the storage system.

Ein exemplarisches Verfahren könnte diese temporären Dateien mithilfe der Dateieigenschaften, wie Dateiname, Erstellungsdatum, letzter Zugriff und Zugriffsmustern in Cluster zusammenfassen. Dateien mit Dateinamen, die das Präfix „TEMP.” enthalten und deren letztes Zugriffsdatum innerhalb von einem Tag nach dem Erstellungsdatum liegt, können diesem Cluster zugewiesen werden. Das Cluster könnte einen Standort-Speicherparameter vorgeben, der die Datei mit dem Cluster in einem schnellen Speicher am Erstellungsdatum der Datei verbunden hält, da häufig auf diese Datei zugegriffen wird. Nach dem Erstellungsdatum kann das Cluster vorgeben, dass die temporäre Datei in einen langsameren Speicher verschoben werden sollte, da die Zugriffswahrscheinlichkeit nach dem Erstellungsdatum zurückgeht.An example technique might cluster these temporary files using file properties such as filename, creation date, last access, and access patterns. Files with filenames that have the prefix "TEMP." And whose last access date is within one day of the creation date can be assigned to this cluster. The cluster could specify a location storage parameter that keeps the file connected to the cluster in fast memory at the file's creation date, as this file is frequently accessed. After this Creation date, the cluster can specify that the temporary file should be moved to a slower memory, since the access probability after the creation date is reduced.

In einem anderen Beispiel, sofern auf Basis von Trace-Daten bestimmt wird, dass ein exemplarisches System die Anwendungsdateien für die erste Woche aktiv verwendet und die Daten anschließend kaum noch verwendet werden, könnte ein exemplarisches System nur so viel schnellen Speicher bereitstellen müssen, dass eine Woche an neuen Dateien für die Anwendung Platz in dem Speicher findet. Das exemplarische System könnte alle Dateien, die über eine Woche alt sind, auf einen langsameren Speicher verschieben; basierend auf den Dateizugriffsmustern, nach denen das System bestimmt hat, dass Dateien nach einer Woche nur noch selten verwendet werden.In another example, if it is determined on the basis of trace data that an example system actively uses the application files for the first week, and then the data is hardly ever used, an example system might need to provide only enough memory to cache one Week to find new files for the application space in memory. The exemplary system could move all files over a week old to a slower memory; based on the file access patterns, after which the system has determined that files are rarely used after one week.

Wenn ein exemplarisches System beobachtet, dass einige Dateimuster zeitliche Zugriffsmuster haben, wie z. B. dass Dateien nach einem bestimmten Zeitraum (zum Beispiel 30 Tage) nicht länger aufgerufen werden, könnte das System bestimmen, dass die Verschlüsselung dieser Dateien dem Dateimuster entsprechen muss, sobald die Datei ein bestimmtes Alter erreicht hat. Ein exemplarisches System könnte das Zugriffsmusterverhalten durch die Trace-Daten beobachten. Es könnte auch möglich sein, eine Überwachung für bestimmte Konditionen einzurichten. Die Überwachung könnte zählen und melden, wie viele Zugriffe eine bestimmte Dateiengruppe erhält, wenn die Gruppendefinition (oder das Dateimuster) vorab bekannt ist.When an exemplary system observes that some file patterns have temporal access patterns, such as: For example, if files are no longer called after a certain period of time (for example, 30 days), the system may determine that the encryption of those files must match the file pattern once the file reaches a certain age. An exemplary system might observe the access pattern behavior through the trace data. It might also be possible to set up monitoring for certain conditions. The monitor could count and report how many hits a particular set of files receives if the group definition (or file pattern) is known in advance.

Wenn eine Datei mit einer Streifenlänge N erstellt wurde, die Datei aber abgeschlossen und als unveränderlich markiert wurde, kann ein exemplarisches System die Gesamtgröße der Datei mit der vorgegebenen Streifenlänge vergleichen und die Daten erneut verschlüsseln, um eine Streifenlänge der Gesamtgröße der Datei zu verwenden, wenn die Gesamtgröße der Datei weniger als die vorgegebene Streifenlänge beträgt.If a file was created with a stripe length N, but the file was completed and marked as immutable, an exemplary system can compare the total size of the file with the given stripe length and re-encrypt the data to use a stripe length of the total size of the file, if the total size of the file is less than the default stripe length.

In einigen Ausführungsformen beinhaltet das Erstellen eines bevorzugten Speicherparameters für mindestens eine Datei die Definition mindestens einer Dateigruppe basierend auf den identifizierten Dateizugriffsmustern, das Erstellen eines bevorzugten Speicherparameters für die Eigenschaften der Dateigruppe; und die Verwendung der erstellten Speicherparameter zur Speicherung von mindestens einer Datei in Verbindung mit der Dateigruppe.In some embodiments, creating a preferred storage parameter for at least one file includes defining at least one fileset based on the identified file access patterns, creating a preferred storage parameter for the properties of the fileset; and using the created storage parameters to store at least one file associated with the filegroup.

Bei der anschließenden Speicherung der neuen Datei könnte ein exemplarisches System Metadateninformationen in Verbindung mit der Datei empfangen und Informationen/Anforderungen über die Dateizuverlässigkeit oder -verfügbarkeit in Verbindung mit der Datei erhalten. Das System könnte anschließend bestimmen, ob die erhaltenen Dateiinformationen den Informationen einer definierten Dateigruppe in einem großen, verteilten Speichersystem entsprechen. Wenn die Eigenschaften der neuen Datei den Eigenschaften einer definierten Gruppe entsprechen, kann die neue Datei mit den Speicherparametern dieser entsprechenden Dateigruppe gespeichert werden. Wenn die Dateieigenschaften nicht den Eigenschaften einer definierten Dateigruppe entsprechen, wird eine neue Dateigruppe erstellt, basierend auf den Dateiinformationen, und die bevorzugten Speicherparameter können für die neue Dateigruppe auf Basis der Eigenschaften der Dateigruppe erstellt werden. In einigen Ausführungsformen könnte vor der Implementierung einer Dateigruppenrichtlinie für die Zuweisung von Speicherparametern zu Dateien basierend auf den generierten, bevorzugten Speicherparametern für eine neue Dateigruppe, die Zustimmung des Nutzers erforderlich sein.Upon subsequent storage of the new file, an exemplary system could receive metadata information associated with the file and obtain information / requirements about file reliability or availability associated with the file. The system could then determine if the received file information matches the information of a defined filegroup in a large, distributed storage system. If the properties of the new file match the properties of a defined group, the new file can be saved with the storage parameters of that corresponding filegroup. If the file properties do not match the properties of a defined filegroup, a new filegroup is created based on the file information, and the preferred storage parameters can be created for the new filegroup based on the filegroup properties. In some embodiments, prior to implementing a filegroup policy for allocating storage parameters to files based on the generated preferred storage parameters for a new filegroup, the user's consent may be required.

In einigen Ausführungsformen könnte ein exemplarisches System die Speicherparameter bestimmen, so wie Dateiverschlüsselungen oder Replizierungen zur Minimierung der Kosten für die Dateispeicherung, während gleichzeitig eine angemessene Dateizuverlässigkeit/Verfügbarkeit basierend auf den empfangenden oder bestimmten Anforderungen für die Dateizuverlässigkeit/Verfügbarkeit bereitgestellt wird. Ein exemplarisches Verfahren zur Bestimmung der bevorzugten Speicherparameter für Dateien, die im großen, verteilten Speichersystem gespeichert sind, beginnt mit dem Erhalt der gewünschten Anforderungen an die Zuverlässigkeit und/oder Verfügbarkeit für eine Datei oder einen Satz an Dateien, wie veranschaulicht in 5 (501). Das Verfahren könnte auch den Erhalt der Eigenschaften des Speichersystems beinhalten, die Statistiken zu Systemausfällen in einem Datencenter umfassen (502). Speichersystemeigenschaften könnten die Verfügbarkeit, Kapazität und Leistung von Speichergeräten beinhalten, einschließlich von Servern in einem großen, verteilten Speichersystem. Die ausgewählte Dateiverschlüsselung könnte beispielsweise durch die Menge an verfügbarem Platz auf dem Speichersystem beschränkt werden, da die Verschlüsselung bestimmt, wie viel Speicherplatz die Datei verwendet. Die historischen Informationen können aus den Trace-Daten erhalten werden, die von einem Überwachungssystem bereitgestellt werden, das die Gesundheit des großen, verteilten Speichersystems überwacht. Zukünftiges Versagen des verteilten Speichersystems könnte vorhergesagt werden, indem diese Statistiken herangezogen werden (503). Ein exemplarisches Verfahren könnte davon ausgehen, dass individuelle Speichergeräte auch in Zukunft mit einer ähnlichen Rate versagen werden, mit der Speichergeräte auch in der Vergangenheit versagt haben. Die Wahrscheinlichkeit von gleichzeitigen, in Beziehung stehenden Versagen von Speichergeräten konnte ebenfalls mit einer konstanten Rate im Vergleich zur bisher beobachteten Rate betrachtet werden. Alternativ könnte ein pessimistischeres Vorhersagemodell verwendet werden, das einen Faktor zur Erhöhung der erwarteten Anzahl an zukünftigen Versagen hinzufügt, der an der Alterung der großen, verteilten Speichersystemausrüstung ausgelegt ist.In some embodiments, an exemplary system could determine the storage parameters, such as file encryption or replication, to minimize the cost of file storage while at the same time providing adequate file reliability / availability based on the receiving or particular file reliability / availability requirements. An exemplary method of determining the preferred storage parameters for files stored in the large distributed storage system begins with obtaining the desired reliability and / or availability requirements for a file or set of files, as illustrated in FIG 5 ( 501 ). The method could also include preserving the properties of the storage system that include statistics on system failures in a data center ( 502 ). Storage system properties could include the availability, capacity, and performance of storage devices, including servers in a large, distributed storage system. For example, the selected file encryption could be limited by the amount of available space on the storage system because encryption determines how much space the file uses. The historical information can be obtained from the trace data provided by a monitoring system that monitors the health of the large, distributed storage system. Future failure of the distributed storage system could be predicted using these statistics ( 503 ). An exemplary technique might assume that individual storage devices will continue to fail at a similar rate in the future as storage devices have failed in the past. The probability of simultaneous, related Failure of storage devices could also be considered at a constant rate compared to the previously observed rate. Alternatively, a more pessimistic predictive model could be used that adds a factor to increasing the expected number of future failures designed to age the large, distributed storage system equipment.

In anderen Ausführungsformen könnte ein exemplarisches System eine Information zur Dateiverschlüsselung oder Replizierung für die im System gespeicherten Informationen empfangen (504). Diese Verschlüsselungs- oder Replizierungsinformationen könnten von empfangenen Dateimetadaten stammen. Die tatsächlichen Dateizuverlässigkeits-/Verfügbarkeits- und Wartungskosten können basierend auf vergangenen oder historischen Systemversagen und den Informationen zur Dateiverschlüsselung und -replizierung vorhergesagt werden (505). Ein bevorzugter Speicherparameter, wie Dateiverschlüsselung oder -replizierung, für mindestens eine Datei könnte bestimmt werden, um die Kosten des Dateispeichers zu senken während gleichzeitig die gewünschte Dateizuverlässigkeit erzielt wird (506).In other embodiments, an exemplary system could receive file encryption or replication information for the information stored in the system ( 504 ). This encryption or replication information could come from received file metadata. Actual file reliability / availability and maintenance costs can be predicted based on past or historical system failure and file encryption and replication information ( 505 ). A preferred storage parameter, such as file encryption or replication, for at least one file could be determined to reduce the cost of the file store while achieving the desired file reliability (FIG. 506 ).

Um die gewünschte Dateizuverlässigkeit/-verfügbarkeit pro Datei zu erzielen, könnte ein systematisches Verfahren Systemeigenschaften, Dateieigenschaften und die gewünschte Dateizuverlässigkeit/-verfügbarkeit verwenden, um die bevorzugten Speicherparameter, wie Verschlüsselungs- und Replizierungsebene, zu bestimmen. Das Verfahren beginnt mit dem Erhalt der gewünschten Dateizuverlässigkeit oder Dateiverfügbarkeit gemäß 6 (601) dargestellt. Das Verfahren könnte anschließend Systemeigenschaften empfangen (602). Systemeigenschaften könnten Traces und andere Daten beinhalten, die einem exemplarischen Speichersystem bei der Bestimmung der Zuverlässigkeit des Systems im Allgemeinen, der Bestimmung der historischen Zuverlässigkeit von standortexternen Backups für das Speichersystem und bei der Bestimmung der Zuverlässigkeit von Dateien helfen, die mithilfe jeder möglichen Dateiverschlüsselungs- oder Replizierungsebene im verteilten Speichersystem gespeichert sind (603). Das Verfahren könnte die zukünftige Zuverlässigkeit des Speichersystems auf Basis der bestimmten Zuverlässigkeit des Systems vorhersagen (604). Das Verfahren könnte auch die zukünftige Zuverlässigkeit der standortexternen Speichersystem-Backups auf Basis der bestimmten Zuverlässigkeit des Backups vorhersagen (605). Darüber hinaus könnte das Verfahren auch die zukünftige Zuverlässigkeit/Verfügbarkeit von Dateien vorhersagen, die in dem Speichersystem gespeichert sind, für jede mögliche Verschlüsselungs- und Replizierungsebenen (606). Die Wahrscheinlichkeit zum Verlust des großen, verteilten Speichersystems und dem Speichersystem-Backup zur gleichen Zeit könnte durch die Verwendung der vorhergesagten Zuverlässigkeit des Speichersystems und seiner Backups bestimmt werden (607). Das Verfahren kann dann einen bevorzugten Speicherparameter, wie Verschlüsselungs- oder Replizierungsebene, für mindestens eine Datei bestimmen, basierend auf (1) der bestimmten Wahrscheinlichkeit zum Verlust sowohl des Speichersystems als auch der standortexternen Backups, (2) der vorhergesagten Zuverlässigkeit aller Verschlüsselungs- oder Replizierungsebenen, und (3) der empfangenen Anforderungen an die gewünschte Dateizuverlässigkeit oder -verfügbarkeit (608).To achieve the desired file reliability / availability per file, a systematic approach could use system properties, file properties, and the desired file reliability / availability to determine the preferred storage parameters, such as encryption and replication levels. The process begins with obtaining the desired file reliability or file availability according to 6 ( 601 ). The method could then receive system properties ( 602 ). System properties could include traces and other data that help an exemplary storage system determine the reliability of the system in general, determine the historical reliability of off-site backups for the storage system, and determine the reliability of files that can be accessed using any file encryption or Replication level are stored in the distributed storage system ( 603 ). The method could predict the future reliability of the storage system based on the particular reliability of the system ( 604 ). The process could also predict the future reliability of off-site storage system backups based on the reliability of the backup ( 605 ). In addition, the method could also predict the future reliability / availability of files stored in the storage system for each possible level of encryption and replication (FIG. 606 ). The likelihood of losing the large, distributed storage system and storage system backup at the same time could be determined by using the predicted reliability of the storage system and its backups ( 607 ). The method may then determine a preferred storage parameter, such as encryption or replication level, for at least one file based on (1) the determined likelihood of both the storage system and the off-site backups being lost; (2) the predicted reliability of all encryption or replication levels , and (3) the received file reliability or availability requirements ( 608 ).

Andere kundenspezifische Verfahren, wie diejenigen, die in „Designing Dependable Storage Solutions for Shared Application Environments”, Shravan Gaonkar et al., 2006 , beschrieben wurden, können abstrakte Arbeitslastmodelle, Geräte und Verlässlichkeitstechniken verwenden (z. B. Redundanz und Backups), die angewandt werden können, um gute Konditionen zum Speichern von Dateien in großen, verteilten Speichersystemen zu bestimmen. Diese kundenspezifischen Verfahren legen jedoch nicht die Verwendung von Trace-Daten und/oder Systemüberwachung nahe, um bevorzugte Speicherparameter für Dateien zu bestimmen, die auf großen, verteilten Speichersystemen gespeichert sind.Other custom procedures, like those in "Designing Dependable Storage Solutions for Shared Application Environments", Shravan Gaonkar et al., 2006 , can use abstract workload models, devices, and reliability techniques (e.g., redundancy and backups) that can be applied to determine good conditions for storing files in large, distributed storage systems. However, these custom methods do not suggest the use of trace data and / or system monitoring to determine preferred storage parameters for files stored on large, distributed storage systems.

Empfehlungen und/oder automatische Anpassungen von Speicherparametern, die aus den exemplarischen Verfahren resultieren, könnten einem Nutzer über das Dashboard oder eine andere Oberfläche oder API angezeigt werden. Ein Nutzer könnte über ein Dashboard, eine Benutzeroberfläche oder eine API auch die vorhergesagte Zuverlässigkeit, Verteilung der altersbedingten Zugriffsmuster sowie andere Datei- und Systemeigenschaften einsehen. Vor allem könnte ein Dashboard die nutzerrelevanten Zugriffseigenschaften und -muster in Bezug auf die Dateien anzeigen, sodass der Nutzer Zugriffsverhalten verstehen und verbessern kann. Der Nutzer oder die Nutzeranwendung könnten beispielsweise große Mengen sehr kleiner Lesezugriffe ausführen oder viele kleine Dateien erstellen, was beides kostspielig sein könnte. Ein Nutzer könnte auch beobachten, dass der Nutzer oder eine Anwendung in Verbindung mit dem Nutzer große Mengen an alten aber nicht genutzten Daten auf einem großen, verteilten Speichersystem speichert. Dieses Verhalten und/oder die Zugriffsmuster können kostspielig sein und der Nutzer könnte Wege finden, um diese Verhaltensmuster zu minimieren. Der Nutzer könnte Dateien basierend auf den durch das Dashboard empfangenen Informationen löschen.Recommendations and / or automatic adjustments of memory parameters resulting from the exemplary methods could be displayed to a user via the dashboard or other interface or API. A user could also view the predicted reliability, distribution of age-related access patterns, and other file and system properties through a dashboard, interface, or API. In particular, a dashboard could display the user-relevant access properties and patterns related to the files so that the user can understand and improve access behavior. For example, the user or the user application could run large amounts of very small read accesses or create many small files, both of which could be costly. A user might also observe that the user or an application in conjunction with the user stores large amounts of old but unused data on a large, distributed storage system. This behavior and / or the access patterns can be costly and the user could find ways to minimize these patterns of behavior. The user could delete files based on information received through the dashboard.

Empfehlungen können zusätzlich oder alternativ auch als Benachrichtigungen ausgegeben werden. Zusätzlich zu Empfehlungen in Bezug auf Konfigurationsparameter könnte ein exemplarisches Verfahren einem Nutzer auch die Löschung einer Datei empfehlen, wenn das Verfahren bestimmt, dass die Datei nicht länger benötigt oder verwendet wird. Ein exemplarisches System könnte das Datum des letzten Dateizugriffs nutzen, um einen Nutzer dazu anzuweisen, die Löschung einer Datei in Betracht zu ziehen. Wenn eine Datei beispielsweise in einem Zeitraum von 180 Tagen nicht mehr verwendet wurde, könnte das System den Nutzer in Bezug auf die Notwendigkeit der weiteren Speicherung der Datei fragen. Wenn die Daten einer bestimmten Datei oder eines Dateimusters nur selten gelesen werden; d. h. wenn es in den letzten 90 Tagen beispielsweise keine Zugriffe gab, könnte ein exemplarisches System einen Nutzer oder eine Anwendung benachrichtigen, dass die Daten auf platzsparendere Weise erneut verschlüsselt werden sollten. Für replizierte Daten könnte ein exemplarisches System beispielsweise die Anzahl an Repliken reduzieren. Wenn die Daten mit Reed-Solomon verschlüsselt wurden, kann ein exemplarisches System eine neue Verschlüsselung mit weniger Redundanzen bestimmen und so den erforderlichen Speicherplatz auf dem Laufwerk für die Datei reduzieren.Recommendations can be issued additionally or alternatively as notifications. In addition to recommendations regarding configuration parameters, an exemplary Method also recommend deleting a file to a user if the method determines that the file is no longer needed or used. An exemplary system could use the date of the most recent file access to instruct a user to consider deleting a file. For example, if a file was no longer used for a period of 180 days, the system might ask the user for the need to continue saving the file. When the data of a particular file or file pattern is rarely read; that is, if, for example, there were no accesses in the last 90 days, an exemplary system could notify a user or an application that the data should be re-encrypted in a more space-efficient manner. For example, for replicated data, an exemplary system might reduce the number of replicas. Once the data has been encrypted with Reed-Solomon, an exemplary system can determine new encryption with fewer redundancies, reducing the amount of disk space required for the file.

Exemplarische Benachrichtigungen könnten Folgendes beinhalten: (1) wenn eine Datei in einem Jahr nicht geöffnet wurde, wird der Nutzer zur Löschung oder Archivierung der Datei benachrichtigt; (2) wenn eine Datei in einem Monat nicht geöffnet wurde aber auf einem teuren Speichermedium, wie einem Flash-Speicher, gespeichert ist; wird der Nutzer benachrichtigt, dass die Datei auf einem teuren Speichermedium gespeichert ist aber nicht verwendet wird; (3) wenn eine Datei in einem Monat nicht geöffnet wurde aber in einem relativ teuren Format gespeichert ist, wie z. B. mit vier Repliken der Datei, wird der Nutzer benachrichtigt, dass eine platzsparendere Verschlüsselung der Datei empfehlenswert ist. Diese Benachrichtigungen sind lediglich Beispielbenachrichtigungen und sollen den Umfang dieser Anwendung in keiner Weise beschränken.Exemplary notifications could include: (1) if a file has not been opened in a year, the user will be notified to delete or archive the file; (2) if a file has not been opened in a month but is stored on an expensive storage medium, such as a flash memory; the user is notified that the file is stored on an expensive storage medium but is not used; (3) if a file was not opened in a month but is stored in a relatively expensive format, such as: For example, with four replicas of the file, the user is notified that a more space-efficient encryption of the file is recommended. These notifications are only example alerts and are not intended to limit the scope of this application in any way.

Ein exemplarisches System könnte einen Benutzer in Bezug auf die bevorzugten Speicherparameter benachrichtigen, um einen Nutzer auf Dateien aufmerksam zu machen, die aktuell schlechte Speicherkonfigurationen haben. Durch die Anwendung der bevorzugten Speicherparameter könnte ein Nutzer die Kosten der Dateispeicherung erheblich verbessern oder die Einhaltung der gewünschten Verfügbarkeits-/Zuverlässigkeitsanforderungen besser erfüllen. Ein exemplarisches System könnte einen Nutzer alternativ nur über die bevorzugten Speicherparameter für eine Teilmenge der Dateien informieren. Grundsätzlich könnte es so viele Dateien mit möglichen besseren Konfigurationen geben, dass ein Nutzer oder ein exemplarisches System die Korrekturen auf nur die Dateien beschränken, für die die erheblichsten Verbesserungen erzielt werden können. Ein exemplarisches System könnte die potentiellen Verbesserungen für Dateien vergleichen, wenn bevorzugte Speicherparameter zur Bestimmung der Teilmenge an Dateien angewandt werden sollen, über die ein Nutzer informiert werden soll. Ein Nutzer könnte über eine Teilmenge an Dateien benachrichtigt werden, für die die Anwendung der bevorzugten Speicherparameter eine erhebliche Verbesserung der Dateiverfügbarkeit und -zuverlässigkeit sowie der Speicherkosten bedeuten würde.An exemplary system could notify a user of the preferred storage parameters to alert a user to files that currently have bad storage configurations. By using the preferred storage parameters, a user could significantly improve the cost of file storage or better meet compliance with the desired availability / reliability requirements. An exemplary system could alternatively inform a user only about the preferred storage parameters for a subset of the files. Basically, there could be so many files with possibly better configurations that a user or an exemplary system would limit the fixes to only those files that could achieve the most significant improvements. An exemplary system could compare the potential improvements for files if preferred storage parameters are to be used to determine the subset of files that a user should be informed about. A user could be notified of a subset of files for which the application of the preferred storage parameters would result in a significant improvement in file availability and reliability as well as storage cost.

Bevorzugte Speicherparameter können automatisch implementiert werden, um Speicherkonfigurationsprobleme in einem großen, verteilten Speichersystem zu beheben. In einigen Ausführungsformen können die bevorzugten Speicherparameter nur zur Behebung von Speicherproblemen verwendet werden, nachdem die entsprechende Zustimmung eingeholt wurde. Bevorzugte Speicherparameter könnten zur Speicherung einer Datei bei der Dateierstellung oder zu einem späteren Zeitpunkt verwendet werden, sobald die Datei in einem großen, verteilten Speichersystem gespeichert wurde.Preferred memory parameters can be automatically implemented to resolve memory configuration issues in a large, distributed storage system. In some embodiments, the preferred memory parameters may only be used to resolve memory issues after obtaining the appropriate approval. Preferred memory parameters could be used to store a file at file creation or at a later time once the file has been stored in a large, distributed storage system.

Große Speichersysteme und der Zugriff können in einem verteilten Dateiverarbeitungs- und Speichersystem, wie einem Datencenter oder einem Netzwerk an Datencentern, gehandhabt werden. Große Internetdienste und die massive, parallele Computerinfrastruktur, die diese Dienste unterstützt, könnten beispielsweise Lagerhaus-große Computersysteme verwenden, die aus tausenden oder sogar zehntausenden Rechenknoten bestehen.Large storage systems and access can be handled in a distributed file processing and storage system, such as a data center or a network of data centers. For example, large-scale Internet services and the massive, parallel computer infrastructure that supports these services could use warehouse-sized computer systems consisting of thousands or even tens of thousands of compute nodes.

7 ist ein Blockdiagramm, das ein Beispiel eines Datencenters darstellt (700). Das Datencenter (700) wird zur Speicherung von Dateien, Durchführung von rechnergestützten Aufgaben und Übertragung von Dateien zu anderen Systemen außerhalb des Datencenters verwendet. Dafür wird beispielsweise ein mit dem Datencenter verbundenes Netzwerk verwendet. Das Datencenter (700) könnte vor allem große Dateiverarbeitungen für die programmatische Auswahl der bevorzugten Speicherparameter für gespeicherte Dateien durchführen. 7 is a block diagram illustrating an example of a data center ( 700 ). The data center ( 700 ) is used to store files, perform computer-aided tasks, and transfer files to other systems outside the data center. For example, it uses a network connected to the datacenter. The data center ( 700 ) could, above all, perform large file processing for the programmatic selection of the preferred storage parameters for stored files.

Das Datencenter (700) beinhaltet mehrere Racks (702). Während nur zwei Racks angezeigt sind, könnte das Datencenter (700) über viele weitere Racks verfügen. Jedes Rack (702) könnte einen Rahmen oder eine Gehäuse beinhalten, in dem Komponenten, wie Verarbeitungsmodule (704), befestigt werden. Grundsätzlich kann jedes Verarbeitungsmodul (704) eine Leiterplatte sowie eine Hauptplatine beinhalten, auf der eine Vielzahl an computerrelevanten Komponenten zur Dateiverarbeitung befestigt ist. Die Verarbeitungsmodule (704) innerhalb jedes Racks (702) sind beispielsweise über einen Rackschalter miteinander verbunden und die Racks (702) innerhalb jedes Datencenters (700) sind ebenfalls miteinander verbunden, beispielsweise über einen Datencenterschalter.The data center ( 700 ) contains several racks ( 702 ). While only two racks are displayed, the datacenter might ( 700 ) have many more racks. Each rack ( 702 ) could include a frame or housing in which components, such as processing modules ( 704 ). In principle, every processing module ( 704 ) include a printed circuit board and a motherboard on which a plurality of computer-related components for file processing is mounted. The processing modules ( 704 ) within each rack ( 702 ) are connected to each other via a rack switch and the racks ( 702 ) within each data center ( 700 ) are also connected to each other, for example via a data center switch.

In einigen Implementierungen könnten die Verarbeitungsmodule (704) die Rolle als Master oder Slave übernehmen. Die Master-Module steuern die Planungs- und Dateiverteilungsaufgaben innerhalb der Master- und Slave-Module. Ein Rack könnte einen Speicher (z. B. einen oder mehrere Netzwerkspeicher) beinhalten, die von einem oder mehreren Verarbeitungsmodulen (704) geteilt werden und/oder jedes Verarbeitungsmodul (704) hat seinen eigenen Speicher. Darüber hinaus oder alternativ könnte auch ein Remote-Speicher über das Netzwerk mit den Racks verbunden sein.In some implementations, the processing modules ( 704 ) take over the role as master or slave. The master modules control the scheduling and file distribution tasks within the master and slave modules. A rack could include a memory (eg, one or more network storage devices) that may be stored by one or more processing modules (e.g. 704 ) and / or each processing module ( 704 ) has its own memory. In addition or alternatively, a remote memory could also be connected to the racks via the network.

Das Datacenter (700) könnte dedizierte optische Verbindungen oder andere dedizierte Kommunikationskanäle beinhalten, sowie unterstützende Hardware, wie Modems, Brücken, Router, Switches, drahtlose Antennen und Tower. Das Datencenter (700) könnte eines oder mehrere Wide Area Networks (WANs) beinhalten, sowie mehrere lokale Netzwerke (LANs).The data center ( 700 ) could include dedicated optical links or other dedicated communication channels, as well as supporting hardware such as modems, bridges, routers, switches, wireless antennas, and towers. The data center ( 700 ) could include one or more Wide Area Networks (WANs) and multiple local area networks (LANs).

8 ist ein Blockdiagramm, das ein Rechengerätebeispiel (800) darstellt, das für eines oder mehrere Verarbeitungsmodule (704) eines Datencenters verwendet werden könnte. In einer sehr grundlegenden Konfiguration (801) beinhaltet das Rechengerät (800) typischerweise einen oder mehrere Prozessoren (810) und Systemspeicher (802). Ein Speicherbus (830) kann für die Kommunikation zwischen dem Prozessor (810) und dem Systemspeicher (820) verwendet werden. 8th FIG. 4 is a block diagram illustrating a computing device example (FIG. 800 ) for one or more processing modules ( 704 ) of a data center could be used. In a very basic configuration ( 801 ) contains the computing device ( 800 ) typically one or more processors ( 810 ) and system memory ( 802 ). A memory bus ( 830 ) can be used for communication between the processor ( 810 ) and the system memory ( 820 ) be used.

Abhängig von der gewünschten Konfiguration kann der Prozessor (810) von irgendeinem Typ sein, einschließlich aber nicht beschränkt auf einen Mikroprozessor (μP), einen Mikrocontroller (μC), einen digitalen Signalprozessor (DSP) oder eine beliebige Kombination davon. Der Prozessor (810) kann eine weitere Cache-Ebene, wie einen Cache der Ebene 1 (811) und einen Cache der Ebene 2 (812), einen Prozessorkern (813) und ein Register (814) beinhalten. Der Prozessorkern (813) kann eine arithmetische Logikeinheit (ALU), eine Gleitkommaeinheit (FPU), einen Digitalsignalverarbeitungskern (DSP Kern) oder eine beliebige Kombination davon umfassen. Eine Speichersteuerung (816) kann ebenfalls mit dem Prozessor (810) verwendet werden, oder in einigen Implementierungen kann die Speichersteuerung (815) ein interner Teil des Prozessors (810) sein.Depending on the desired configuration, the processor ( 810 ) of any type, including, but not limited to, a microprocessor (μP), a microcontroller (μC), a digital signal processor (DSP), or any combination thereof. The processor ( 810 ), another cache level, such as a level 1 cache ( 811 ) and a level 2 cache ( 812 ), a processor core ( 813 ) and a register ( 814 ). The processor core ( 813 ) may comprise an arithmetic logic unit (ALU), a floating point unit (FPU), a digital signal processing core (DSP core), or any combination thereof. A memory controller ( 816 ) can also be used with the processor ( 810 ), or in some implementations, the memory controller ( 815 ) an internal part of the processor ( 810 ) be.

Abhängig von der gewünschten Konfiguration kann der Systemspeicher (820) von irgendeinem Typ sein, einschließlich aber nicht beschränkt auf flüchtigen Speicher (wie RAM), nicht-flüchtigen Speicher (wie ROM, Flash-Speicher, usw.) oder irgendeine Kombination davon. Systemspeicher (820) beinhaltet typischerweise ein Betriebssystem (821), eine oder mehrere Anwendungen (822) und Programmdateien (824). Die Anwendung (822) wählt programmatisch die bevorzugten Speicherparameter zur Speicherung von Dateien in großen, verteilten Speichersystemen aus. Die Programmdatei (824) könnte Daten aus Telemetrie- oder Überwachungssystemen sowie Speichersystemmetadaten beinhalten. Das Betriebssystem (821) beinhaltet in der Regel Verfahren zur Abwicklung von verschiedenen grundlegenden Systemdienstleistungen und zur Ausführung von Aufgaben, die von der Hardware abhängen. In einigen Ausführungsformen kann die Anwendung (822) eingerichtet werden, um auf einem Betriebssystem (821) zu arbeiten.Depending on the desired configuration, the system memory ( 820 ) of any type, including but not limited to volatile memory (such as RAM), non-volatile memory (such as ROM, flash memory, etc.), or any combination thereof. System memory ( 820 ) typically includes an operating system ( 821 ), one or more applications ( 822 ) and program files ( 824 ). The application ( 822 ) programmatically selects the preferred storage parameters for storing files in large, distributed storage systems. The program file ( 824 ) could include data from telemetry or surveillance systems as well as storage system metadata. The operating system ( 821 ) typically involves procedures for handling various basic system services and performing tasks that depend on the hardware. In some embodiments, the application may ( 822 ) to be set up on an operating system ( 821 ) to work.

Das Rechengerät (800) kann zusätzliche Merkmale oder Funktionalitäten und zusätzliche Schnittstellen aufweisen, um die Kommunikation zwischen der Grundkonfiguration (801) und allen erforderlichen Geräten und Schnittstellen zu erleichtern.The computing device ( 800 ) may have additional features or functionalities and additional interfaces to facilitate communication between the basic configuration ( 801 ) and all necessary equipment and interfaces.

Der Systemspeicher (820) ist ein Beispiel für elektronische Speichermedien. Elektronische Speichermedien beinhalten unter anderem RAM, ROM, EEPROM, Flash-Speicher oder andere Speichertechnologien, CD-ROM, Digitalversatile-Disks (DVD) oder andere optische Speicher, Magnetkassetten, -bänder, -plattenspeicher oder andere magnetische Speichergeräte oder jedes andere Medium, das verwendet werden kann, um die gewünschte Information zu speichern, auf die durch das Rechengerät (800) zugegriffen werden kann. Jedes derartige Rechenspeichermedium kann Teil der Gerät (800) sein.The system memory ( 820 ) is an example of electronic storage media. Electronic storage media include but are not limited to RAM, ROM, EEPROM, flash memory or other storage technologies, CD-ROM, digital versatile disks (DVD) or other optical storage, magnetic cassettes, tapes, disk storage or other magnetic storage devices or any other medium can be used to store the desired information pointed to by the computing device ( 800 ) can be accessed. Any such storage medium may be part of the device ( 800 ) be.

Die Telemetrie-/Überwachungssystemdaten (802) und die Speichersystemmetadaten (803) bieten Informationen, inklusive von Zugriffsmustern und Eigenschaften, in Bezug auf die Dateien, die im großen Speichersystem gespeichert sind. Die Telemetrie- und/oder Überwachungsdatei könnte von Telemetrie- und/oder Überwachungssystemen eingeholt werden.The telemetry / monitoring system data ( 802 ) and the storage system metadata ( 803 ) provide information, including access patterns and properties, regarding the files stored in the large storage system. The telemetry and / or surveillance file could be obtained from telemetry and / or surveillance systems.

Das Rechengerät (800) kann als ein Teil eines mobilen elektronischen Geräts mit kleinem Formfaktor, wie beispielsweise einem Mobiltelefon, Smartphone, PDA (Minicomputer), einem persönlichen Media-Player, Tablet-Computer (Tablet), einem drahtlosen Web-Watch-Gerät, einem persönlichen Headset-Gerät, einem anwendungsspezifischen Gerät oder einem Hybrid-Gerät implementiert werden, das eine der oben genannten Funktionen beinhaltet. Das Rechengerät (800) kann auch als ein Personalcomputer implementiert werden, der sowohl tragbarer Rechner als auch Nicht-tragbarer Rechner-Konfigurationen umfasst.The computing device ( 800 ) may be used as part of a small form factor mobile electronic device such as a mobile phone, smartphone, PDA (minicomputer), a personal media player, tablet computer, a wireless web-watch device, a personal headset Device, an application-specific device or a hybrid device can be implemented, which includes one of the above functions. The computing device ( 800 ) can also be implemented as a personal computer that includes both portable computers and non-portable computer configurations.

Die vorstehende detaillierte Beschreibung hat verschiedene Ausführungsformen der Geräte und/oder Prozesse über die Verwendung von Blockdiagrammen, Flussdiagrammen und/oder Beispielen definiert. Insoweit wie solche Blockdiagramme, Flusscharts und/oder Beispiele eine oder mehrere Funktionen und/oder Operationen beinhalten, werden sie verstanden von denen in der Wissenschaft, das jede Funktion und/oder Operation mit solchen Blockdiagrammen, Flusscharts oder Beispielen implementiert werden können, individuell und/oder kollektiv, durch ein weites Angebot von Hardware, Software, Firmware der irgendeiner virtuellen Kombination davon. In einer Ausführungsform können einige Teile des hier beschriebenen Gegenstands über anwendungsspezifische integrierte Schaltungen (ASICs), Field Programmable Gate Arrays (FPGAs), digitale Signalprozessoren (DSPs) oder andere integrierte Formate implementiert werden. Dennoch werden die Fachkundigen feststellen, dass einige Aspekte der hier dargelegten Ausführungen, teilweise oder gänzlich, ebenso in integrierten Kreisläufen implementiert werden können, als ein oder mehrere Computerprogramme, die auf einem oder mehreren Computer ausgeführt werden, als ein oder mehrere Programme, die auf einem oder mehreren Prozessoren ausgeführt werden, als Firmware oder irgend eine Kombination davon; und dass ein Entwurf der Kreisläufe und/oder des Schreibens des Codes für die Software und/oder Firmware unter Berücksichtigung der vorliegenden Veröffentlichung eine große Leistung wäre. Außerdem werden Fachleute verstehen, dass die Mechanismen dieses hier beschriebenen Gegenstands in der Lage sind, als ein Programmprodukt in einer Vielzahl von Formen verteilt zu werden, und dass eine veranschaulichende Ausführungsform des hier beschriebenen Gegenstands unabhängig von der besonderen Art des nicht-flüchtigen signalführenden Mediums gilt, das für die tatsächliche Verteilung verwendet wird. Beispiele eines nicht-vorübergehenden Signalträgermediums umfassen, sind aber nicht hierauf beschränkt, folgendes: ein aufnahmefähiges Medium, wie z. B. eine Floppy-Disk, ein Festplattenlaufwerk, eine Compact Disk (CD), eine Digital Video Disk (DVD), ein digitales Band, einen Computerspeicher, usw.; und ein Übertragungsmedium wie ein digitales und/oder analoges Kommunikationsmedium, (z. B., ein optisches Glasfaserkabel, ein Wellenleiter, eine verdrahtete Kommunikationsverbindung, eine drahtlose Kommunikationsverbindung, usw.) The foregoing detailed description has defined various embodiments of the devices and / or processes through the use of block diagrams, flowcharts, and / or examples. To the extent that such block diagrams, flowcharts, and / or examples include one or more functions and / or operations, they will be understood by those in the science that any function and / or operation can be implemented with such block diagrams, flowcharts, or examples, individually and / or or collectively, through a wide range of hardware, software, firmware of any virtual combination thereof. In one embodiment, some portions of the subject matter described herein may be implemented via application specific integrated circuits (ASICs), field programmable gate arrays (FPGAs), digital signal processors (DSPs), or other integrated formats. However, those skilled in the art will appreciate that some aspects of the embodiments set forth herein may be implemented, in whole or in part, in integrated circuits as one or more computer programs executing on one or more computers as one or more programs running on one or more computers or multiple processors, as firmware or any combination thereof; and that a design of the circuits and / or the writing of the code for the software and / or firmware taking into account the present publication would be a great achievement. In addition, those skilled in the art will understand that the mechanisms of this subject matter described herein are capable of being distributed as a program product in a variety of forms, and that an illustrative embodiment of the subject matter described herein applies regardless of the particular nature of the non-volatile signal carrying medium which is used for the actual distribution. Examples of a non-transient signal bearing medium include, but are not limited to: a receptive medium, such as a medium; A floppy disk, a hard disk drive, a compact disk (CD), a digital video disk (DVD), a digital tape, a computer memory, etc .; and a transmission medium such as a digital and / or analog communication medium (e.g., a fiber optic cable, a waveguide, a wired communication link, a wireless communication link, etc.)

Im Hinblick auf die Verwendung von wesentlichen beliebigen pluralen und/oder singulären Ausdrücken können die Fachleute aus dem Plural in den Singular und/oder aus dem Singular in den Plural übersetzen, wenn dies für den Kontext und/oder die Anwendung geeignet ist. Die verschiedenen Singular-/Plural-Permutationen können hierin ausdrücklich aus Gründen der Klarheit dargelegt.With respect to the use of substantially any plural and / or singular expressions, those skilled in the art can translate from plural to singular and / or singular to plural, as appropriate to the context and / or application. The various singular / plural permutations may be expressly set forth herein for the sake of clarity.

Folglich wurden bestimmte Ausführungsformen des Gegenstands beschrieben. Weitere Ausführungsformen gehören zum Umfang der folgenden Ansprüche. In einigen Fällen können die in den Ansprüchen beschriebenen Handlungen in einer anderen Reihenfolge ausgeführt werden und dennoch erwünschte Ergebnisse erzielen. Zusätzlich erfordern die in den beigefügten Figuren dargestellten Prozesse nicht notwendigerweise die bestimmte gezeigte Reihenfolge oder aufeinanderfolgende Reihenfolge, um erwünschte Ergebnisse zu erzielen. Bei bestimmten Implementierungen können Multitasking und eine Parallelbearbeitung vorteilhaft sein.Thus, certain embodiments of the subject matter have been described. Other embodiments are within the scope of the following claims. In some cases, the acts described in the claims may be performed in a different order and still achieve desirable results. In addition, the processes illustrated in the attached figures do not necessarily require the particular order shown or sequential order to achieve desired results. In certain implementations, multitasking and parallel processing may be beneficial.

ZITATE ENTHALTEN IN DER BESCHREIBUNG QUOTES INCLUDE IN THE DESCRIPTION

Diese Liste der vom Anmelder aufgeführten Dokumente wurde automatisiert erzeugt und ist ausschließlich zur besseren Information des Lesers aufgenommen. Die Liste ist nicht Bestandteil der deutschen Patent- bzw. Gebrauchsmusteranmeldung. Das DPMA übernimmt keinerlei Haftung für etwaige Fehler oder Auslassungen.This list of the documents listed by the applicant has been generated automatically and is included solely for the better information of the reader. The list is not part of the German patent or utility model application. The DPMA assumes no liability for any errors or omissions.

Zitierte Nicht-PatentliteraturCited non-patent literature

"Designing Dependable Storage Solutions for Shared Application Environments", Shravan Gaonkar et al., 2006 [0046]

Claims

A system for programmatically determining the preferred storage parameters for files stored in a large distributed storage system, comprising: one or more processing devices and one or more storage devices storing instructions that, when executed by one or more processing devices, one or more processing devices: receiving the request for desired file reliability or availability; receiving the system properties including statistics on system failures in a data center; predicting future failures of the storage system based on the statistics of the system failures; receiving the file encryption or replication information for at least one file in the storage system; predicting file reliability and maintenance costs based on past system failures and file encryption and replication information; and determining the preferred storage parameters for at least one file to reduce costs while achieving desired file reliability or availability based on the received request.

The system of claim 1, wherein the storage parameter is the stripe width.

The system of claim 1, wherein the storage parameter is the strip size.

The system of claim 1, wherein the storage parameter is the location for file storage.

The system of claim 4, wherein the location defines storage of the file on a device in the large distributed storage system.

The system of claim 4, wherein the location defines storage of the file on a backup device for the large distributed storage system.

The system of claim 1, wherein the storage parameter is an encryption or replication level.

The system of claim 1, wherein the storage parameter is a backup schedule for the large distributed storage system.

The system of claim 1, further comprising displaying the file properties on a dashboard.

The system of claim 1, further comprising notifying a user of preferred storage parameters.

The system of claim 1, further comprising using the preferred storage parameters to store the file.

The system of claim 1, further comprising using the created preferred storage parameters to save the file upon receipt of the user consent.

A system for programmatically determining the preferred storage parameters for files stored in a large distributed storage system, comprising: one or more processing devices and one or more storage devices storing instructions that, when executed by one or more processing devices, one or more processing devices: receiving the request for desired file reliability or availability; receiving the system properties including information about the storage system, the off-site storage system backups, and the file access patterns for files stored in the storage system; determining the historical reliability of the system, the reliability of off-site storage system backups, and the reliability of files stored in the distributed storage system by any possible file encryption or replication layer; predicting the future reliability of the storage system based on the particular reliability of the system; predicting the future reliability of files stored in the storage system for each encryption and replication layer; determining the likelihood of losing both the large system and the storage system backup by using the predicted reliability of the storage system and its off-site backups; and determining a preferred storage parameter for at least one file based on the determined likelihood of losing both the storage system and the off-site backups, the predicted reliability of all encryption or replication levels, and the desired file reliability or availability requirements.

The system of claim 13, wherein the storage parameter is the stripe width.

The system of claim 13, wherein the storage parameter is the strip size.

The system of claim 13, wherein the storage parameter is the location for file storage.

The system of claim 16, wherein the location defines storage of the file on a device in the large distributed storage system.

The system of claim 16, wherein the location defines storage of the file on a backup device for the large distributed storage system.

The system of claim 13, wherein the storage parameter is an encryption or replication level.

The system of claim 13, wherein the storage parameter is a backup schedule for the large distributed storage system.

The system of claim 13, further comprising displaying the file properties on a dashboard.

The system of claim 13, further comprising notifying a user of preferred storage parameters.

The system of claim 13, further comprising using the preferred storage parameters to store the file.

The system of claim 13, further comprising using the created preferred storage parameters to save the file upon receipt of the user consent.

A system for programmatically creating the preferred storage parameters for files stored in a large distributed storage system, comprising: one or more processing devices and one or more storage devices storing instructions that, when executed by one or more processing devices, one or more processing devices: receiving trace data representing access information about files stored in the large distributed storage system; analyzing the trace data to identify the file access patterns; receiving metadata information associated with the files stored in the large distributed storage system; and creating a preferred storage parameter for at least one of the files based on the received information and the identified file access patterns.

The system of claim 25, further comprising: receiving at least one storage system property; and using the storage system property in addition to the receiving information and identifying file access patterns to generate the preferred storage parameter.

The system of claim 26, wherein the system property is the system failure history.

The system of claim 26, wherein the system property is the failure history or the maintenance schedule.

The system of claim 26, wherein the system property is the system device availability.

The system of claim 26, wherein the system property is the system device power.

The system of claim 26, wherein the system property is the I / O capacity.

The system of claim 25, further comprising: receiving the request for file reliability or availability; and using the received requests in addition to the received information and identified file access patterns to generate the preferred storage parameter.

The system of claim 25, wherein analyzing the trace data to identify the file access patterns comprises: receiving trace data for a subset of files in the large distributed storage system; determining a property of the subset; and evaluating the distribution of the property for the files in the large, distributed storage system based on the property intended for the subset.

The system of claim 33, wherein a property is the age of each file at the time of the last access to the file.

The system of claim 25, wherein creating a preferred storage parameter for at least one file comprises: defining at least one fileset based on the identified file access patterns; creating a preferred filegroup storage parameter based on the properties of the filegroup; and using the created storage parameters to store at least one file associated with the filegroup.

The system of claim 35, further comprising: receiving the metadata information associated with a file; receiving the file reliability or availability information with the file; determining whether the obtained file information corresponds to the information of a defined filegroup in the large distributed storage system; and in response to determining that the file information corresponds to the information of a defined filegroup, storing the file with the storage parameters of that corresponding filegroup.

The system of claim 36, further comprising: in response to determining that the file information does not correspond to the information of a defined filegroup, creating a new filegroup based on the information of the file; and Creating the preferred storage parameters for the new filegroup based on the properties of the filegroup.

The system of claim 37, further comprising: requesting user consent prior to implementing a filegroup policy for allocating storage parameters to files based on the generated, preferred storage parameters for a new filegroup.

The system of claim 25, wherein the storage parameter is the stripe width.

The system of claim 25, wherein the storage parameter is the strip size.

The system of claim 25, wherein the storage parameter is the location for file storage.

The system of claim 41, wherein the location defines storage of the file on a device in the large distributed storage system.

The system of claim 41, wherein the location defines storage of the file on a backup device for the large distributed storage system.

The system of claim 25, wherein the storage parameter is an encryption or replication level.

The system of claim 25, wherein the storage parameter is a backup schedule.

The system of claim 36, further comprising displaying the file properties on a dashboard.

The system of claim 25, further comprising notifying a user of the preferred storage parameters.

The system of claim 25, further comprising automatically using the preferred storage parameters to store the file.

The system of claim 25, further comprising using the created preferred storage parameters to save the file upon receipt of the user consent.

The system of claim 49, further comprising notifying the user that the application of the preferred storage parameters improves the cost of file storage.

The system of claim 23, wherein the preferred storage parameters are created for a plurality of files, further comprising: notifying a user of the preferred parameters for a subset of the plurality of files, wherein the application of the preferred storage parameters would improve the availability, reliability, or memory cost of files.